パーソナルテキストマイニング技術の可能性大野邦夫, 石沢朋, 横田久弥株式会社ジャストシステム 1 はじめに先の報告 [1] でオントロジ構築の方法として図 1に示す情報メディア階層とデータ型の関係に基づき論理 (Boolean) 数理 (Int, Float) 自然言語の語彙 (

(1)

パーソナル・テキストマイニング技術の可能性

大野邦夫

_{, 石沢朋, 横田久弥}

株式会社ジャストシステム

1 はじめに

先の報告[1]で、オントロジ構築の方法として、図1に示す「情報メディア階層とデータ型」の関係に基づき、論理（Boolean）、数理（Int, Float）、自然言語の語彙（Char, String）、クラス階層を取り上げ、さらにその考え方について日本規格協会のAIODS委員会で執筆した書籍で解説した[2]。他方、今後のユビキタスネットワーク社会において、いつでもどこでも個人を支援する情報系のオントロジ的な枠組みとしてPIMオントロジを提案しその検討経緯を紹介した[3]。これまで、PIMオントロジに関しては、 OWL言語（OWL−DL）に基づく論理・クラス階層オントロジ、ベイズモデルに基づく数理オントロジを対象に検討してきた。語彙に基づくオントロジに関しては、アッパー・オントロジに属する自然言語理解の技術が進展しないと到底無理であろうと考えていたところであるが、最近パーソナルユースを前提にしたテキスト・マイニング・ツールが商品化されたので、その適用について検討を試みることにした。本報告では、そのツールの紹介を行い、PIM分野への適用可能性について検討する。

HUMAN

COMPUTER

Type/Class

Shouts, Gestures

Videos, Sounds

Cave paintings

Figures, Pictures

Hieroglypics

GUI

Ideographs

Kanji

Phonograms

Alphabets

Algebra

Numbers

Modern logic

Binary theory

Object Types

(Class)

Char, String

Int, Float

Boolean

図1 情報メディア階層とデータ型の関係

2 TRUSTIA

2.1 テキスト・マイニング技術の進展

テキスト・マイニングとは、形式化されていないテキストデータ（通常の自然文）をデータマイニング手法を使って解析することを通じて一定の知見や発想を得るテキストデータ分析手法の総称である。従来のデータマイニングは、データベースを活用して、大量データから仮説構築に役立つ、新たな知見の発見が狙いであった。すなわち仮説の検証を目的とするデータ分析ではなく、大量のデータに潜んでいる思いもしなかったデータの関係性や意味を発掘（発見）するために、さまざまな角度からデータを検討することであった。テキスト・マイニングは、データマイニングにおけるデータベースの代わりに形態素解析や係り受けを抽出する程度の構文解析されたテキストデータを用いる。言い方を変えると、形態素解析されたテキストデータの要素を用語辞書を通じて品詞などの属性を抽出し、データベース管理するのである。その要素は、単語、品詞、出現頻度などであるが、これらのデータをマイニングすることにより大量の文章や文字・句に埋もれている関係性を発掘する。ここで紹介するジャストシステムの TRUSTIAでは、その関係性を文章や句の意味レベルに拡張し、否定表現、複合語句、係り受けなどの関係を解析することを可能にしている。

2.2 TRUSTIAの概要

TRUSTIAは企業で実績のあるサーバ・サイド・ソリューションの本格的なテキストマイニングシステム [4]をPC環境で実現し、家庭用・個人用ソフトウエアとしたものである。マイニングの専門家ではない一般ユーザの使用を考慮し、ユーザインタフェースに表やグラフ

(2)

トなどとの有機的な連携を考慮し、テキストファイルを CSV形式で管理している。 TRUSTIAは、テキストマイニング技術を提供するソフトウエアであるが、抽象的なテキストマイニング技術だけでは一般利用者には分かりにくいので具体的な使用法の一例として授業支援を対象としている。授業支援の応用パラダイムは、種々の用途に拡張可能であり、将来的には、ブログやSNSなどに適用することを通じて、 PIMオントロジ構築の一環として適用可能ではないかと考えている。 MiningAssistant TeachingAssistant メール CSV CSV CSV グラフグラフ受講者 _教師図2 TRUSTIAのシステム構成 TRUSTIAは、図2に示すようにMiningAssistant（テキスト分析）とTeachingAssistant（授業支援）と呼ばれる2種類のシステムから構成されている。MiningAs-sistantでは、下記のような基本的なテキストマイニング機能を提供している。 SCSVファイルとして保存されたテキスト情報を読み込んで分析する S 分析結果をCSVファイルとして出力する S グラフを画像ファイルとして保存可能 S メールアンケートの作成・収集を支援する簡易アンケート機能の提供 TeachingAssistantはテキストマイニング（Minin-gAssistant）を学校教育や企業内教育、各種学校、塾などの授業支援に適用するためのアプリケーション環境で下記の機能を提供している。 S メールを介した授業支援（出欠管理、提出物管理） S 履修管理・授業管理 S 課題提出管理 S 成績管理（授業毎・学生毎） S 変更・履歴管理 TRUSTIAを使用するには、図3に示すように、データ収集 → データ加工 → 辞書登録 → 統計解析 → 主題分析 → 傾向把握 → 表現抽出 → 属性把握 → 語彙分析といったテキストマイニング・プロセスを経る。以下、具体的に上記プロセスと機能について紹介する。表現抽出属性把握語彙分析データ収集データ加工形態素解析構文解析用語辞書辞書登録統計解析主題分析傾向把握応用環境（TeachingAssistant）図3 MiningAssistantの構成

2.3 データ収集

データ収集は携帯電話やパソコンのメールを使って簡単に行うことができる。メールで収集したデータは、自動的にCSVファイルとして保存され、そのまま分析を行うことが可能である。またWeb上での掲示版やアンケートフォームで収集した意見も同様にCSVファイルとして保存可能である。図4にアンケートによる収集画面の例を示す。

(3)

図4 アンケート収集画面例

2.4 データ加工

CSVファイルとして自動的に保存されたデータを分析の目的に合わせて加工するフェーズである。図5は画面例である。データの抽出（形態素・構文解析）、置換図5 データ加工画面例 （内容を揃える）、集約（グループ化）などが可能である。関数やマクロを使わずに整理できるので、簡単にデータベースの作成を行うことができる。

2.5 辞書登録

データの内容や分析の目的に合わせた語句の辞書登録を行うことで、分析の精度を向上させることが可能である（図6）。「同義語の登録」では同じ意味を持つ語句の登録を行う。「アフェクト度の登録」では語句に対して好評・不評、肯定的・否定的といった言葉の重み付けを行う。例えば、「大きい」という形容詞は、建物や公園に対してであれば好評であるが、ノートPCや携帯電話に対しては不評であろう。このように、特定の言葉が持つ意味が状況（コンテキスト）に応じて変わり得る場合に、その言葉の肯定的か否定的かの特性を事前に与えておくとデータ集計上有効である。このデータは、主に「傾向把握」の評価分布図を作成する際の指標となる。調査の対象によって意味合いが変わる語句に対して好評・不評を設定することで、評価の精度を向上させることができる。用語の登録は、分析前でも分析の途中でも簡単に行うことができる。

2.6 統計解析

読み込んだデータを解析して、データ全体の大まかな傾向をつかむ。データ総数、語句数、品詞ごとの出現比率などの基本情報から、名詞句、形容詞句、動詞句それぞれのトップ10、係り受け関係などの統計的データを一覧表示する。（図7）

2.7 主題分析

主題分析では、類似内容の文章を抽出し、分類・関係付けを行う。主題となる語句は、各グループの中からもっとも特徴的な言葉を自動的に拾い出す。主題の関係性は樹形図で表示され、枝分かれした節目を手がかりに、重要と思われる主題や、それぞれの主題がどのような関係でグループ化されているかを把握することができる。各主題は近くに並んでいるほど内容の関連性が高く、遠く離れているほど低くなる。（図8）

2.8 傾向把握

事象や回答者ごとの印象・評価・要望などを把握する。 (1)「評価分析」：文章から好評・不評の表現を見つけ出し、グラフとして表示する。対象語句の好評・不評の度合いをマッピングする。縦軸はアフェクト度を表し、上にゆくほど好評で、下にゆくほど不評であることを示す。横軸は出現頻度を表し、右にゆくほど出現頻度が高いことを示す（図9）。 (2)「感性分析」：個別の属性特有の感性を把握する。形容詞句と名詞との係り受けの関係に注目して分析を行う。感性を示す形容詞句と属性をグラフ上にマッピングし、関連の強さを相互の距離で把握する（図10）。

(4)

図6 辞書登録画面例 図7 統計解析画面例 (3)「行動分析」：動詞句と属性を同時にマッピングすることで、動詞句と属性との関連性の強さ（距離）を把握することできる。どのような属性が「∼した」「∼したい」と思っているかを知ることができる。 (4)「現象分析」：名詞句と属性をマッピング表示することで、名詞句と属性との関連性の強さ（距離）を把握することできる。あるテーマについて「どうしたいか」を知ることができる。

2.9 表現抽出

本文に対して名詞句、形容詞句、動詞句を選択し、内容を絞り込んで分析を行う。文章表現の偏りから、その属性の特徴を把握することができる。（図11）

2.10 属性比較

分析結果を年代や性別、出身地といった属性によって比較し、属性ごとの傾向や分布などを把握する（図12 ）。語句の表現や主題と、属性のクロス集計や経時的推移を示す事もできる（図13）。

2.11 語彙分布

分析軸を決めて、その軸に適した言葉を登録すると、分析対象から言葉をカウントし、レーダーチャートに表示できる。それを属性ごとに重ねて表示すると、その差異を簡単に発見することが可能である。（図14）

3 テキストマイニングの適用分野

3.1 データマイニングとの関係

テキストマイニングは、データマイニングが用い等れていた分野の延長上で用いられる例と、データマイニングとは異なる分野で新規に用いられる例がある。前者の例としては、流通分野におけるCRMが挙げられる。例えば、顧客へのアンケートの自由回答、コールセンターやWebサイトなどに寄せられるユーザーからの定性情報や掲示板への書き込みなどを解析することによって、顧

(5)

図8 主題分析画面例 図9 評価分析画面例 客や市場のニーズを抽出したり、自社製品への不満点を分析するといった使い方が可能である。またEメールによる顧客からの問い合わせに対して、これを自動的に解釈して返答したり、関係担当者へ転送するといったソリューションにも応用されている。冒頭で紹介したPIMオントロジ応用分野は、PIMオントロジ自体がスケジュール・データ、アドレス帳デー図10 感性分析例 タ、位置情報などの「データ」を扱うので、これらの分野のデータマイニングの延長上にテキストマイニングも存在すると考えられる。この領域については、後に改めて考察する。

(6)

図12 属性比較の例 図13 経時的推移の例 図11 表現抽出画面例 他方、後者の新規に用いられる例としては、従来データベースとは無縁であった、業務分野が挙げられる。オフィス文書がWebやEメールの導入で、紙からテキストファイルに移行したような分野である。言い方を変えると、従来データベース管理を行う企業情報システムなどの恩恵に浴さないで、オフィス・スーツやEメール文書をテキストファイルで管理しているような小規模の組織が対象となる。そのような組織は、学校や塾のような教育機関、町医者や老人ホームのような医療福祉分野、小規模自治体や公益組織のような公共機関などが対象になる。これまでに具体的に適用された事例を以下に紹介する。

3.2 TRUSTIAによる事例

最も簡単かつ汎用的な活用法は、アンケート調査の分析である。以下のような事例がTRUSTIAの解説書に紹介されている[5]。 3.2.1 学校・教育機関少子化、定員割れなど、大学をはじめとする最近の教育機関の経営環境は厳しい状況に置かれている。特色ある大学作りを目指した大学改革の一環として教育評価の実施が義務付けられようとしている。しかし、現状の形式的な評価ではその効果は不十分であり、より事実に立脚した具体的な評価が求められている。そのような背景の下で、教師が行う授業改善や研究室で行ったフィールド調査の事例が紹介されている。 3.2.2 企業・公益法人企業が扱う情報の大半は、非定形のテキスト情報である。これらは、企業にとって貴重な財産であるが、雑多に積み上げられて放置されている場合も少なくない。特に、顧客からのテキスト情報は、新たな市場ニーズを発掘するために有効である。そのような事例として、営業

(7)

図14 語彙分布の例 部門が行う顧客ニーズ調査とマーケッティング部門が行う商品動向調査の例が紹介されている。 3.2.3 自治体政策に関する公聴会での意見収集やWeb上のパブリックコメントの収集など、住民の声を行政に反映させる取り組みが多くの自治体で行われている。これらの情報の分析には、多くの時間を要することから、単純な集計のみによる定量的な情報分析に留まる例も多く見受けられる。そのような状況でも、テキストマイニングを適用すると、住民の意見を容易に分析することができる。

4 PIM分野への適用

4.1 PIMオントロジ

PIM情報は、スケジュール管理をコアに、アドレス帳（関係者としての個人データベース）、時刻データ、場所（位置）情報、組織情報などを関係付けた情報ネットワークとして管理される。スケジュールの履歴をデータベースとして管理し、人、場所、組織などを系統的に管理分析すると、その関係が構造を持ち、オントロジ的な関係を形成する。その概要を図15に示す。 PIMオントロジは、異なる個々人のPIM情報環境をさらに相互に関係付ける枠組みである。異なる個々人の PIM情報環境は同一ではないであろう。現にWindows環境でOutlookでPIM管理している人もいれば、携帯電話上のPIMを用いている人もいる。これらのデータの相互運用を可能とし、連携する情報から推論される関係を通アドレス帳組織情報位置情報スケジュール購買履歴電話履歴生活履歴情報訪問履歴 TV視聴履歴図15 PIM情報の構成 じて新たな情報を構築し、ビジネスやサービスに資することがPIMオントロジの目的である。

4.2 PIMオントロジの実装

PIMオントロジの基本データは、iCalendarで代表されるスケジュールデータである。個々人のスケジュールは、連続するイベントで記述される。そのイベントは、名称、開始時刻、終了時刻、関係者、場所、コメントなどの項目で定義される。

(8)

OWLのクラス階層で記述してProtegeを用いて表示した例を図16に示す。この図の詳細は文献[1]を参照して欲しい。図16 Protegeによるスケジュール項目階層 なお、PIMオントロジは必ずしもOWLで実装されるわけではない。データマイニングやテキストマイニングの活用を考えると、OWLで実装するよりは、RDBか XML−DBで実装する方が実用的であろう。

4.3 データマイニングの適用

PIMオントロジの応用手法として、生活履歴データをデータマイニングするアプローチが存在する。スケジュール帳、アドレス帳、ToDoリスト、購買履歴、 TV番組予約リスト、TV番組視聴履歴、などなど、電子的に記録され得る生活履歴は幅広く考えられる。最近、携帯電話（FOMA903iシリーズ）にGPSが実装され、観測された位置データをメールで送付したりiアプリで処理することが可能になった。その結果、PIM領域で可能性のあったサービスの具体性が一挙に高まったと考えられる。スケジュール帳の場所欄に記された企業名の番地から現在地との関係が定まり、その間の交通手段の候補を乗り換え案内ソフトから入手するといったことが可能である。購買履歴データは、従来は販売企業がポイントカードで管理していたが、それをPIMで行うとPIM−CRMと言うべきデータベースになる。このデータベースを、家族単位で管理すると家計簿に近い概念になり、家計簿は節約のための古典的なデータマイニングツールのようなものである。このようなアプローチにより、生活履歴情報をデータマイニングし、生活にフィードバックしたり、公的なサービスに結びつけたり、CRMの拡張としてビジネスに生かしたりすることが可能であろう。しかしその実現のためには、技術的な課題だけでなく、法的、制度的な課題も存在する。

4.4 テキストマイニングの適用

PIMオントロジにテキストマイニングを導入するのは、前項のデータマイニングと連携したアプローチが必要になるであろう。先ず、有望な領域は、Eメールである。Eメールを発信者、タイトル、キーワードなどのカテゴリ毎に分類することは現在のツールでも可能であるが、テキストマイニングを用いると、より具体的意味内容で分類することが可能になると思われる。最近のEメールのスパムフィルターはかなり改善されたとは言っても、それをすり抜けるメールも多い。テキストマイニングは、そのようなスパムメールの除去にも有効であろう。次に、適用が有望なのは、SNSやブログである。日記に書かれた内容をテキストマイニングすることにより、より具体的な意味内容の索引の作成が可能となるであろう。さらにコメントやトラックバックにもマイニングの対象を広げることにより、議論されるテーマの展開や推移についての把握が可能になる。SNSのコミュニティの掲示板などもテキストマイニングの対象になり得る。掲示板の内容とそれへのコメントの関係、関連する主題の分類やキーワードの統計などを通じて、コミュニティ全体の意見の集約などが可能になる。コミュニティにおけるアンケート機能が提供されているSNSもあるので、この領域にTRUSTIAのアンケート分析機能をそのまま適用することも可能である。

5 考察

以上のようにテキストマイニング機能をEメールや SNS、ブログなどに適用すると、それらの内容把握に有益そうであることが分かる。だがそれらの機能とPIMとの関連は必ずしも明白ではない。この議論はデータマイニングの場合にも存在するのであるが、データマイニング結果やテキストマイニング結果が、グラフで表示されて、それとPIMとがどう関係するかが問題である。データマイニングの世界では、マイニングの結果からルールを抽出し、それを推論に役立てるというアプローチが存在する。このアプローチは、確信度付きの知識ベースに対する推論に近い概念であるが、このような知識ベースに相当する情報をOWLかRDFで構築することは可能であろう。

(9)

他方、テキストマイニングを通じてこのようなアプローチは可能か否かは興味ある課題である。データマイニングの対象が、状態（属性）と値という関係の対で膨大なデータが蓄積され、クロス集計したりして、確信度付きの傾向、ルールが抽出され得るのに対し、テキストマイニングの場合はそれほど明確な普遍性のある傾向は得にくいのではないかと思われる。データマイニングによる確信度付きの傾向・ルールによる関係の管理は数理オントロジの領域である。それに対し、テキストマイニングの領域は、統計データを用いることに関しては数理オントロジの領域だが、それに基づいて、同義語、類義語を定義したり、アフェクト度を適用したりするアプローチは自然言語の語彙オントロジと言えるのかもしれない。その可能性を見極めるためには、さらにTRUSTIAを活用する具体的な検討が必要であろう。データマイニング、テキストマイニングの概念を加えた、PIMの情報環境を示すと図17のようになるであろう。アドレス帳組織情報位置情報スケジュールブログ購買履歴電話履歴生活履歴情報訪問履歴 TV視聴履歴 SNS Eメール Text Mining Data Mining 図17 データマイニング、テキストマイニングを加えたPIM情報の構成

6 おわりに

以上、個人向けのテキストマイニングツールとして、 TRUSTIAを紹介し、その技術のPIM領域への適用について検討した。今回は、TRUSTIAの標準的な使用法を前提とした検討であったが、今後は具体的に、SNSに適用してその効果を調査したいと考えている。

参照情報・文献

[1] 大野; “モバイルCRMへのオントロジ適用の可能性 ” , 画像電子学会VMA研究会報告（2004.1.16） [2] AIDOS; “オントロジ技術入門―ウェブオントロジとOWL “, 東京電機大学出版局, (2005) [3] 大野; ”コンパウンドドキュメントにおけるモバイル・パーソナルプロファイル”, 画像電子学会VMA研究会研究報告,（2006.1.14） [4] http://www.justsystem.co.jp/km/cbmi/index.html [5]（株）ジャストシステム; “TRUSTIA解説書”, （株）ジャストシステム法人ビジネス部;（2006）