1.人の経験の知識化に興味をもつきっかけと
なった物理学
著者の現在の興味は,いかにしてテキスト情報から 知識を取り出すか,そしてその知識を実際の生活の役に 立てるか,というところにある.しかも,単純なテキス トではなく,人と人が交流した際に生成されるテキスト からの情報収集に興味をもつことが多い.そのような文 書は,返答などの構造やソーシャルでのシェアなどの行 動情報が含まれている.最初にそのような情報に興味を もったきっかけは,初めて論文というものに触れた学部 時代まで遡る. 著者は大学で応用物理学科に進学し,当初は理論物理 を志そうとしていた.高校ではホーキングの著書にいた く感動し,「ご冗談でしょう,ファインマンさん」など のファインマンシリーズを愉しみ,高校の物理の教科書 では飽き足らず受験勉強そっちのけでファインマン物理 学シリーズを読み漁っていたのである.そんな著者は学 部 1 年の実験の X 線解析の実験に感心し,その担当教員 に質問に行ったところ複数の論文を紹介された.このと き,論文には「引用」があることを知り,その論文にあ る引用文献に感心したのを覚えている. 高校時代,無知な著者は,研究者とは「過去にとらわ れず」,「自分の道を突き進んで学問を探求するものだ」 と勝手に思い込んでいたのだが,研究者が系統だって過 去の論文を読み,自分との研究の差分を示すことで効率 良く研究を行うことに関心をもったのである.その後, 金属物性の研究室に進み,過去の論文がまとめられ,無 限ともいえる組合せを生む合金の研究が効率的に行われ ていることに感心した(合金とは二つ以上の金属の組合 せでつくられるが,割合が異なると性質が全く異なるた めその組合せは膨大になる).このとき,物理を研究し ながらも「この大勢の人が書いた論文を分析するとおそ らく新しい知見が得られるのではないか」と感じ,教授 と議論したことを覚えている.この経験が,その後「人 間の行動を伴ったテキストから情報を取り出し,活用す ること」が一貫して著者の興味となっているのではない かと思う.2.テキストマイニングとの出合い
大学院での専攻を離れ,その後日本アイ・ビー・エム (株)の基礎研究所に入った著者は自然言語処理に出合っ た.大量の文書から知識を抽出するテキストマイニング の研究を行っていたグループに配属されたのであるが, この技術を使って何か実現したいことを考えたときに, 著者のやりたいことは「知識の整理とそれによる効率化」 であった. 最初に取り掛かったのは,メーリングリスト(ML) の知識の体系化の取組みである.現在のようなソーシャ ルがない時代,人と人がネット上で交流をするといえば, 掲示板か ML であった.ML は誰かのメールを受けて返 答をするのであるが,その時代はメールのスレッドを可 視化するようなツールはさほど存在しておらず,多くの メーラは過去のメールを「>」という文字を先頭に入れ て後ろに添付するだけの機能しかもち合わせていなかっ た.そのため,誰かの話を引用したい人は,そのトピッ クのところだけをコピーして,その後に自分の意見を書 き込むことが多かった.一つのメールで複数のトピック に分かれることも多いため,後からメールを読み直すと トピックが分かれて意味を取りにくい.そのため,ヒュー リスティックではあるが,メールの構造からそれらの返 答構造を抜き出し,トピックごとの要約を行った.著者 が対象とした二つの ML ではある程度の要約が行えた が,すべての人が同じようにメールの引用を「>」の文 字を用いて示し,ML 上で会話をしていないとうまくい かないという欠点があった.また,分析結果の利用の目 的もはっきりしておらず,分析の結果は自然な形でシス テムと一体化しテキストに組み込む必要があるというこ 「つながりが創発するイノベーション」〔第 10 回〕自然言語処理で人と人の交流を読み解く
─ディスカッションからソーシャルメディアまで─
Communication Analysis Using Natural Language Processing
村上 明子
日本アイ・ビー・エム株式会社東京ソフトウェア開発研究所ワトソン開発Akiko Murakami Watson Development, Tokyo Software Development Laboratory, IBM Japan Ltd. [email protected]
とを,この研究の反省を通して学んだ.
3.自然言語処理との出合いと語彙収集の話
入社して始めた研究は人の議論を分析し,その中身を 要約したり可視化したりといったものであった.しかし, まだそれは表層の文字列(「>」のような記号)を用いて 整理するやり方であり,本来の言語の意味を理解し,整 理しようとしたものではなかった.そこで,まずはちゃ んと内容を理解しようと,自然言語処理の勉強を始めた. 3・1 人の「書き癖」を利用した同義語の収集 広い自然言語処理の分野の中で著者が最初に興味を もったのは,人ごとに違う文章の書き癖であった.小説 などの筆者推定の研究などを興味深いと思い,いつか同 じような研究ができないかと考えたものである.そのよ うな興味の中で考えた研究が,「書き癖」を用いた同義 語収集である. これは,同じ意味の語であっても,人ごとに異なる表 層語を使うというところに着目した研究 [Murakami 04] である.コールセンタでコールテーカーによって書き起 こしをされた文書は,そのコールテーカーごとにさま ざまな表層文字列が使われる.例えば,顧客を意味する customerは「cust」と略す人もいれば「cus」と略す人 もいる.このような表記の揺れは,テキストマイニング など統計的にテキストデータを処理したいときに問題と なる.一般の同義語であれば同義語辞書を用いて正規化 すればよいのであるが,このような語は人の数だけバリ エーションをもつため事前に用意することは難しい. しかし,このような表現は,その人の中では統一され る傾向にある.例えば,customer を「cus」と略す人はずっ とその表現を使い続けている.そのため,さまざまな表 層文字列がある同義語であっても,同じ筆者であれば同 じ表層を用いていることが多い.また,同じ組織の中で は統一されていても,組織ごとに表記が揺れるというこ ともあり得る.この性質を用いて,語の異表記表現を収 集する. ステップは以下のようである.まず,その語がどのよ うな用言と係り受けをもつかの情報をもとに特徴ベクト ルを作成し,ベクタスペースモデルを用いて異表記表現 の候補を収集する.さらに,データを筆者ごと(あるい は組織ごと)に分類したものでも同様に異表記表現の候 補を得,各個人(組織)の中で上位の候補には加点を, 下位の候補には減点を行うことで,異表記表現取得の精 度を上げる.これは非常にシンプルなモデルであるが, 人間が文書を作成するときの習性を利用した良いモデル であり,精度の向上が見込めるものであった. 3・2 テキストマイニングの単位としての複合語判定 次にもった興味は,書かれたテキストの外の一般事象 が,文書にもたらす影響であった.「時系列情報を利用 した複合語キーワードの抽出」[村上 06] という研究で は,話題が変換していくに従ってどのような語を一つの 「単位」として見ればよいのかを考えた研究である.時 系列的にどのような事象が特徴的に現れるのかというこ とを理解するのはテキストマイニングの目的の一つなの であるが,このときに時系列特徴量を計算する語の単位 で結果が異なってしまう.例えば,「鳥インフルエンザ」 が流行し多くの文書に急に現れ始めたという現象を見た いのに,「鳥」と「インフルエンザ」を分けてしまうと, 冬季における人間のインフルエンザの流行を示した文書 に埋もれてしまうこともある.また,海外への自衛隊の 派遣が話題になったときには,「自衛隊派遣」,「自衛隊 撤退」と連結する語が変わること自体が,話題を捉える ことにほかならない.この研究では,まず,文を形態素 の最小単位に分割し,発生頻度の時系列的な変化が類似 していて,かつ連結をすることが多い語のシーケンスを 分析の単位の候補として抽出した. 評価などが難しく,この研究は正直,中途半端なと ころで終わってしまった.しかし,現在の Twitter のト レンドなどで単語分割が明らかに失敗している例を見る と,もう少し踏み込んで考えれば面白いテーマになった のではないかと今でも思っている. 3・3 掲示板からの情報抽出 自然言語処理という道具を手に入れた著者は,その後 もう一度「知識の整理とそれによる効率化」に取り組ん だ.取り掛かったのはネット掲示板からの情報抽出であ る.著者が所属する日本アイ・ビー・エム(株)では, Jamというオンライン上で全世界にいる社員,ときに はお客様まで巻き込んで,さまざまなテーマで議論する ネット掲示板があった.これは,期間を限定(数日間で あることが多い)し,決められたテーマで議論するもの で,ある発言に対しての返答を入力することができるシ ステムが用意されていた. 発言には複数の返答が付けられるので,最初の発言を 頂点とした話の流れを示すメッセージの木構造のスレッ ドが生成される.その発言に対して,「賛同した人が多 い発言には価値があり,否定した人が多い発言は価値が 低い」として,発言の重要度を求めた [Murakami 07]. これは発言中の表現から賛同と否定の表現を抽出し,そ れにより前の返答のリンクに重みを加え,PageRank と 同様の方法で発言の重要度を計算するものである.通常, 負の値をもつリンク構造があると PageRank は収束しな いが,木構造であれば負の値をもっていても数値が収束 することがわかっている.単なるリンク構造ではなく, 内容を利用した重要度の計算は,自分以外の参加者の意 図も同時に理解できるものであり,参加者には有用であ ると考えた. 最初の研究の反省から,分析結果はシステムに取り込んでユーザに利用してもらうことを目標とした.そこで, 求めた重要度を可視化して参加者に提示し,どの発言を 優先的に読むかを補助するシステムを作成した.図 1 は 求められた重要度とともに発言のスレッドを可視化して 議論の参加者に提示したものである.
4.テキスト分析とネットワーク分析の融合:
TENA
InnovationJamの分析は,文書同士の関係構造を,文 書の内容を加味して分析したものであった.これは,テ キストのみではなく,構造も同時に扱うことで,より現 実に役に立つ情報を抽出することができるのではないか と考えた.さらに,著者の所属するテキストチームと, 数理的な観点から研究を行っている数理科学チームとで 協業をできないかという話が研究所内でもち上がり,ち ょうどその頃グラフ理論に傾倒していた著者は,「テキ スト分析とネットワーク分析を合わせて,ソーシャルメ ディアの分析をしたらどうだろう」という提案を行った. 提案した 2007 年はちょうど Facebook が MySpace を抜 いて世界 1 位のソーシャルメディアとなった年ではあっ たものの,まだ一般の人にはソーシャルメディアは浸透 しておらず,日本では Mixi がやっと広まってきた頃で あった. その頃にはすでにネットワーク分析によるソーシャル メディアの分析の研究は数多くあったが,テキスト分析 との組合せはまだほとんど手を付けられていなかった. そこで,その二つの分析技術の融合としてテキスト・ ネットワーク分析技術(TENA:TExt and Network Analytics)として研究を始めた. TENAは,単にネットワーク分析とテキスト分析を組 み合わせただけではない,変わったコンセプトがあった. それは「人の行動まで含め,すべてをネットワークで表 す」ことである.例えば,どの単語がどの文書に出てく るのか,どの文書がどの文書と関係(返答など)をもっ ているのか,さらに誰がどの文書を記述したのか,誰が どの文書を読んだのか,という行動履歴まで含めてネッ トワーク化するのである. TENAはこのように,ユーザの行動履歴とコンテンツ をこのようなデータ構造をもつグラフデータベースに格 納した.このデータベースをもとにして,さまざまな分 析ソリューションを提供できるのが TENA の特徴だっ た. 一般的なグラフ DB は速度の問題があるが,TENA で はグラフ DB のアクセス問題を解決するために簡潔デー タ構造(Succinct Data Structure)と呼ばれるデータ構 造を用いた.簡潔データ構造とは,検索に対してなるべ く小さい索引で短い応答時間を実現するためのデータ構 造であり,索引データが小さいため,主記憶上でのアク セスが可能となる.そのため 1 日に数百万に及ぶユーザ の行動履歴などを,グラフ構造のデータベースで扱うこ とも可能とするものであった. 4・1 サイバーエージェント様との実証実験 TENAの研究を進めるにあたり,二つほど困ったこ とがあった.一つ目の問題は「データがない」というこ とである.せっかくユーザの行動履歴を含めたテキスト 情報を格納するデータベースを作成しても,その中に入 れるデータをもっていなかったのである.先にあげた InnovationJamのデータは,残念ながら誰がどの発言を 行ったかの情報はあったが,読んだという情報はなかっ た.二つ目の問題は,この TENA を活用できる「有効 なソリューションは何か」がわからなかったことである. そこで,当社内の「First of A Kind(FOAK)」という 制度を利用し,アメーバ blog で有名なサイバーエージェ ント様と協業を行うことになった.この FOAK という 制度は,まだ一度もソリューションとして世の中に出た ことのない技術を,データや知見をお持ちの企業様と一 緒に実証実験を行う,というものである.サイバーエー ジェント様からは blog のテキストデータとともに,ユー 図 1 オンラインディスカッション「InnovationJam」における 重要発言の可視化 図 2 TENA における抽象化された行動とコンテンツ, ユーザからなるデータ構造ザ情報ならびにユーザの行動履歴情報をいただき,数 多くの議論のあと,私達研究者は TENA を利用したソ リューション二つを提案・実装した.一つは行動履歴に 基づいた blog 推薦であり,もう一つは有名人 blog の読 者を対象にした blog サポーター(熱心度)ランキング である.この二つのサービスは実際のアメーバ blog の ユーザにも提供された. 4・2 ディベート文書分析 TENAではグラフ DB に構造を含むテキストデータを 入れることで,分析の基盤の共通化を図ろうとしたもの であった.分析基盤としての TENA を研究する一方で, その基盤上での分析そのものの研究も進めていた. その一つが,ディベート文書の分析である.ディベー トとはあるテーマに対し対立する立場に属する人同士が 議論を戦わせることである.例えば,銃規制に対して 賛成の立場と反対の立場の人達で,どのような利益・不 利益があるかを議論するなどの例がある.フォーマルな ディベートでは自らの立場を宣言して(例であれば銃規 制賛成であるか反対であるか)から議論を行うが,例え ば掲示板などではそのような宣言はない.そのため,あ るテーマで議論をしている掲示板で,そのテーマにおい て賛成・反対の立場の人がどれくらいいるのかというの はすぐには理解できない. そこで,あるテーマに沿って話し合っている掲示板か ら,そのテーマに賛成・反対の人がどれくらいいるのか を推し量るという研究を行った [Murakami 10].まず, 隣り合う発言において,その直前の発言に対して賛成な のか反対なのかを,言語処理を用いて判定する.さらに, 二つの発言ペアをもとに,ユーザのネットワークをつく る.発言者は,そのテーマ全体に対するスタンス(賛成 あるいは反対)は議論中に変更がないと仮定し,二つ の発言間に賛成か反対かでスコアを割り振り,ユーザを max cutを用いて最適な二つのグループに分割した.こ れにより,そのテーマに対し賛成と反対が何人いるか(あ るいは割合)が明確になる. これは,経済産業省の行ったアイディアボックス [経 済産業省 10] というデータを用いて実験を行った.のち に,著者がオープンデータに興味をもち始めたのは,こ のときの実験がきっかけとなっている. 4・3 Twitter 分析と災害情報分析 TENAを始めたとき,データ分析はそのデータの持ち 主によって実施されることが普通だったのだが,その後 時代は大きく変わり,公開の API によりデータを取得し そのデータを分析・活用するといったいわゆるデータ公 開やオープンデータの方向に向かっている.ソーシャル の世界では,Twitter がデータ公開の中心的存在であり, Twitterの API を利用したデータ分析のソリューション や研究が花盛りとなった. 著者も 2007 年頃から少しずつ Twitter データを分析 していたが,本格的に分析を始めたのは 2011 年の東日 本大震災の頃からである.テキストマイニングを用いて ソーシャル上のデータから足りないもの,買えないもの を発見する試み [Murakami 12] や,ソーシャル上での 風評被害の測定などを行っていた.さらに,住民の不安 の時間変化を測定して避難計画の意思決定をサポートす るシステムなどの提案 [村上 15] も行った.また,2012 年の初めてのネット選挙(ネットでの選挙活動解禁選挙) の際には,政党がネット上で発信するメッセージがどの ように拡散していったかを分析し,NHK の番組で結果 が放送された.
5.災害情報分析から災害対応活動へ
災害情報に関して分析の研究を進めるうちに,著者は 研究者として分析を行うことに限界を感じるようになっ た.そもそも,災害時に分析した結果は誰が使うものな のだろうか? 分析して興味深いとしても,利用されな ければ意味がないのではないか? そう考えるうちに, 生きた情報を災害発生時に被災地,あるいは被災地をサ ポートする団体が使えるように,と,研究の枠を超えて 行動をできないかと考えるようになった. そこで,IT を用いた災害対応への貢献を考えるさま ざまなコミュニティに参加するようになった.ついに, 2015年には,災害時に IT を使って被災地あるいは被災 地をサポートする団体に適切な情報を届けるという目的 で,一般社団法人情報支援レスキュー隊(IT DART)[情 報支援レスキュー隊 ] を設立した(図 3).この団体の目 的は,発災時における情報支援を,現地あるいはリモー トで行うものである.この活動を通して,いつか,自身 の研究が実際に災害時に役に立てるようになれるように 願っている.6.Watson 開発リーダーとして
入社して 16 年,一貫して基礎研究所で研究を行って 図 3 情報支援レスキュー隊の隊員として 2015 年 9 月に 鬼怒川水害の被災地に入りヒヤリングする著者きた著者だが,現在は東京ソフトウェア開発研究所に異 動し,Watson の Watson Knowledge Studio というソフ トウェアの開発リーダーをしている.Watson といえば Jeopardy ! というクイズ番組で活躍した QA システムが 有名であるが,日本アイ・ビー・エム(株)ではその技 術を AI(人工知能)ではなく Cognitive Computing(認 知コンピューティング)として,さまざまなツールやソ リューションとして展開をしている.著者が担当する製 品はその中でもかなり基盤に近い,テキストからの情報 抽出をカスタマイズすることのできる製品である.一般 的な AI は,例えばテキストから一般用語のカテゴリー 付きの語(エンティティと呼ばれることもある)を抽出 することが可能である(例えば人名や地名などの固有名 詞のようなもの).しかし,それだと例えば専門分野の 用語であるとか,社内での独自の用語は扱えなくなって しまう.そのため,Watson にそのような分野独自の知 識を教える仕組みが必要なのである. 自分の研究と関係の深い製品の開発のリーダーをする ことは,著者にとってとても興奮する体験である.研究 者であったときは,いわゆる抽出ロジックのところにし か興味がなく,スケーラビリティや,モデルのライフタ イム,コストなどのようなことを考えたことがなかった. しかし,今では開発のリーダーとして,運用やインフラ も含めた総合的な目で見るようになった.製品としてリ リースするにはいかに多くの労力が必要であるのか,メ インの機能以外も他社との差別化となり得るのかなど, 多くのことを学んでいる. 開発の現場にいて思うのは,近年の開発と研究の急激 な接近である.Watson の開発現場(図 4)では,最近 に研究所で生まれた研究を元に製品開発をすることも珍 しくない.エンジニアは最新のコーディングに関する資 料のほかに,最新の論文も読み込み,そして実装する. あるいは,自身で考えたロジックでプロトタイプをつく り,特許を取得することもある.日本アイ・ビー・エム (株)は今まで良い意味で開発と研究が分かれていたが, 今後この境目がどんどんなくなっていくように感じてい る.開発者が最新の論文に触れて刺激を受けるように, 研究者は最先端の開発の手法を見て,研究のきっかけを つくってもよいのでは,と考えている.
8.さ い ご に
今回,本稿を書くに当たり,自分の研究内容を棚卸し した際に,自分の興味が「人の行動」にあるということ を痛感した.専門は自然言語処理なのであるが,もっぱ らその自然言語が生まれる背景であるとか,人の行動で あるとか,そういったものを抽出し役に立てたいという 思いが背景にあるのだと思う.おそらく,今後も何らか の形でそういった研究や開発の活動を続けていければと 思っている.◇ 参 考 文 献 ◇
[情報支援レスキュー隊 ] 一般社団法人情報支援レスキュー隊(IT DART):http://itdart.org [経済産業省 10] 経済産業省:アイデアボックス,http://www. meti.go.jp/policy/it_policy/open-meti/[Murakami 04] Murakami, A. and Nasukawa, Term Aggregation: Mining synonymous expressions using personal stylistic variations, Proc. 20th Int. Conf. on Computational Linguistics (2004)
[村上 06] 村上明子,渡辺日出雄:時系列情報を利用した複合語キー ワードの抽出,情処学研報自然言語処理(NL), Vol. 2006, No. 36(2006-NL-172), pp. 1-8, ISSN09196072(2006)
[Murakami 07] Murakami, A., Nasukawa, T., Nakamura, F., Takeuchi, H., Nishiyama, R., Veisberg, P. and Watanabe, H.: InnovationJam: Analysis of online discussion records using text mining technology, International Workshop on
Intercultural Collaboration 2007(IWIC2007)(2007) [Murakami 10] Murakami, A. and Raymond, R.: Support or
oppose?: Classifying positions in online debates from reply activities and opinion expressions, Proc. 23rd Int. Conf. on
Computational Linguistics(2010)
[Murakami 12] Murakami, A. and Nasukawa, T.: Tweeting about the tsunami?: Mining twitter for information on the Tohoku earthquake and tsunami, Proc. 21st Int. Conf. Companion on
World Wide Web, pp. 709-710(2012)
[村上 15] 村上明子,伊川洋平:オープンデータに基づく地域オン トロジを用いたソーシャル分析,第 29 回人工知能学会全国大会 論文集 2015, Vol. 29, pp. 1-3(2015) 2016年 12 月 8 日 受理 図 4 開発研究所でのリリースのケーキパーティの様子 村上 明子(正会員) 1999年早稲田大学大学院理工学研究科物理及び応 用物理学専攻修士課程修了.同年,日本アイ・ビー・ エム株式会社入社以後,同社東京基礎研究所におい て自然言語処理の研究に従事.テキストマイニング ツール日本アイ・ビー・エム株式会社 TAKMI の研 究開発において,品詞管理や辞書作成などを担当し た.2016 年 1 月より同社ワトソン開発に異動,知 識処理の学習データなどを作成する製品の開発リードを担当.2015 年に は一般社団法人情報支援レスキュー隊を設立,理事に就任.著書として 「チャンス発見の情報技術(東京電機大学出版,2003)(共著)」,訳書と して「情報検索の基礎(共立出版,2012)(共訳)」,「Google Hacks 第 2 版, 第 3 版(オライリージャパン,2005,2007)(共訳)」がある.情報処理 学会,言語処理学会各会員.