自然言語処理で人と人の交流を読み解く　─ディスカッションからソーシャルメディアまで─(<レクチャーシリーズ>つながりが創発するイノベーション〔第10回〕)

(1)

1．人の経験の知識化に興味をもつきっかけと

なった物理学

著者の現在の興味は，いかにしてテキスト情報から知識を取り出すか，そしてその知識を実際の生活の役に立てるか，というところにある．しかも，単純なテキストではなく，人と人が交流した際に生成されるテキストからの情報収集に興味をもつことが多い．そのような文書は，返答などの構造やソーシャルでのシェアなどの行動情報が含まれている．最初にそのような情報に興味をもったきっかけは，初めて論文というものに触れた学部時代まで遡る．著者は大学で応用物理学科に進学し，当初は理論物理を志そうとしていた．高校ではホーキングの著書にいたく感動し，「ご冗談でしょう，ファインマンさん」などのファインマンシリーズを愉しみ，高校の物理の教科書では飽き足らず受験勉強そっちのけでファインマン物理学シリーズを読み漁っていたのである．そんな著者は学部 1 年の実験の X 線解析の実験に感心し，その担当教員に質問に行ったところ複数の論文を紹介された．このとき，論文には「引用」があることを知り，その論文にある引用文献に感心したのを覚えている．高校時代，無知な著者は，研究者とは「過去にとらわれず」，「自分の道を突き進んで学問を探求するものだ」と勝手に思い込んでいたのだが，研究者が系統だって過去の論文を読み，自分との研究の差分を示すことで効率良く研究を行うことに関心をもったのである．その後，金属物性の研究室に進み，過去の論文がまとめられ，無限ともいえる組合せを生む合金の研究が効率的に行われていることに感心した（合金とは二つ以上の金属の組合せでつくられるが，割合が異なると性質が全く異なるためその組合せは膨大になる）．このとき，物理を研究しながらも「この大勢の人が書いた論文を分析するとおそらく新しい知見が得られるのではないか」と感じ，教授と議論したことを覚えている．この経験が，その後「人間の行動を伴ったテキストから情報を取り出し，活用すること」が一貫して著者の興味となっているのではないかと思う．

2．テキストマイニングとの出合い

大学院での専攻を離れ，その後日本アイ・ビー・エム（株）の基礎研究所に入った著者は自然言語処理に出合った．大量の文書から知識を抽出するテキストマイニングの研究を行っていたグループに配属されたのであるが，この技術を使って何か実現したいことを考えたときに，著者のやりたいことは「知識の整理とそれによる効率化」であった．最初に取り掛かったのは，メーリングリスト（ML）の知識の体系化の取組みである．現在のようなソーシャルがない時代，人と人がネット上で交流をするといえば，掲示板か ML であった．ML は誰かのメールを受けて返答をするのであるが，その時代はメールのスレッドを可視化するようなツールはさほど存在しておらず，多くのメーラは過去のメールを「>」という文字を先頭に入れて後ろに添付するだけの機能しかもち合わせていなかった．そのため，誰かの話を引用したい人は，そのトピックのところだけをコピーして，その後に自分の意見を書き込むことが多かった．一つのメールで複数のトピックに分かれることも多いため，後からメールを読み直すとトピックが分かれて意味を取りにくい．そのため，ヒューリスティックではあるが，メールの構造からそれらの返答構造を抜き出し，トピックごとの要約を行った．著者が対象とした二つの ML ではある程度の要約が行えたが，すべての人が同じようにメールの引用を「>」の文字を用いて示し，ML 上で会話をしていないとうまくいかないという欠点があった．また，分析結果の利用の目的もはっきりしておらず，分析の結果は自然な形でシステムと一体化しテキストに組み込む必要があるというこ「つながりが創発するイノベーション」〔第 10 回〕

自然言語処理で人と人の交流を読み解く

─ディスカッションからソーシャルメディアまで─

Communication Analysis Using Natural Language Processing

村上　明子

日本アイ・ビー・エム株式会社東京ソフトウェア開発研究所ワトソン開発

Akiko Murakami Watson Development, Tokyo Software Development Laboratory, IBM Japan Ltd. [email protected]

(2)

とを，この研究の反省を通して学んだ．

3．自然言語処理との出合いと語彙収集の話

入社して始めた研究は人の議論を分析し，その中身を要約したり可視化したりといったものであった．しかし，まだそれは表層の文字列（「>」のような記号）を用いて整理するやり方であり，本来の言語の意味を理解し，整理しようとしたものではなかった．そこで，まずはちゃんと内容を理解しようと，自然言語処理の勉強を始めた． 3･1　人の「書き癖」を利用した同義語の収集広い自然言語処理の分野の中で著者が最初に興味をもったのは，人ごとに違う文章の書き癖であった．小説などの筆者推定の研究などを興味深いと思い，いつか同じような研究ができないかと考えたものである．そのような興味の中で考えた研究が，「書き癖」を用いた同義語収集である．これは，同じ意味の語であっても，人ごとに異なる表層語を使うというところに着目した研究 [Murakami 04] である．コールセンタでコールテーカーによって書き起こしをされた文書は，そのコールテーカーごとにさまざまな表層文字列が使われる．例えば，顧客を意味する customerは「cust」と略す人もいれば「cus」と略す人もいる．このような表記の揺れは，テキストマイニングなど統計的にテキストデータを処理したいときに問題となる．一般の同義語であれば同義語辞書を用いて正規化すればよいのであるが，このような語は人の数だけバリエーションをもつため事前に用意することは難しい．しかし，このような表現は，その人の中では統一される傾向にある．例えば，customer を「cus」と略す人はずっとその表現を使い続けている．そのため，さまざまな表層文字列がある同義語であっても，同じ筆者であれば同じ表層を用いていることが多い．また，同じ組織の中では統一されていても，組織ごとに表記が揺れるということもあり得る．この性質を用いて，語の異表記表現を収集する．ステップは以下のようである．まず，その語がどのような用言と係り受けをもつかの情報をもとに特徴ベクトルを作成し，ベクタスペースモデルを用いて異表記表現の候補を収集する．さらに，データを筆者ごと（あるいは組織ごと）に分類したものでも同様に異表記表現の候補を得，各個人（組織）の中で上位の候補には加点を，下位の候補には減点を行うことで，異表記表現取得の精度を上げる．これは非常にシンプルなモデルであるが，人間が文書を作成するときの習性を利用した良いモデルであり，精度の向上が見込めるものであった． 3･2　テキストマイニングの単位としての複合語判定次にもった興味は，書かれたテキストの外の一般事象が，文書にもたらす影響であった．「時系列情報を利用した複合語キーワードの抽出」[村上 06] という研究では，話題が変換していくに従ってどのような語を一つの「単位」として見ればよいのかを考えた研究である．時系列的にどのような事象が特徴的に現れるのかということを理解するのはテキストマイニングの目的の一つなのであるが，このときに時系列特徴量を計算する語の単位で結果が異なってしまう．例えば，「鳥インフルエンザ」が流行し多くの文書に急に現れ始めたという現象を見たいのに，「鳥」と「インフルエンザ」を分けてしまうと，冬季における人間のインフルエンザの流行を示した文書に埋もれてしまうこともある．また，海外への自衛隊の派遣が話題になったときには，「自衛隊派遣」，「自衛隊撤退」と連結する語が変わること自体が，話題を捉えることにほかならない．この研究では，まず，文を形態素の最小単位に分割し，発生頻度の時系列的な変化が類似していて，かつ連結をすることが多い語のシーケンスを分析の単位の候補として抽出した．評価などが難しく，この研究は正直，中途半端なところで終わってしまった．しかし，現在の Twitter のトレンドなどで単語分割が明らかに失敗している例を見ると，もう少し踏み込んで考えれば面白いテーマになったのではないかと今でも思っている． 3･3　掲示板からの情報抽出自然言語処理という道具を手に入れた著者は，その後もう一度「知識の整理とそれによる効率化」に取り組んだ．取り掛かったのはネット掲示板からの情報抽出である．著者が所属する日本アイ・ビー・エム（株）では， Jamというオンライン上で全世界にいる社員，ときにはお客様まで巻き込んで，さまざまなテーマで議論するネット掲示板があった．これは，期間を限定（数日間であることが多い）し，決められたテーマで議論するもので，ある発言に対しての返答を入力することができるシステムが用意されていた．発言には複数の返答が付けられるので，最初の発言を頂点とした話の流れを示すメッセージの木構造のスレッドが生成される．その発言に対して，「賛同した人が多い発言には価値があり，否定した人が多い発言は価値が低い」として，発言の重要度を求めた [Murakami 07]．これは発言中の表現から賛同と否定の表現を抽出し，それにより前の返答のリンクに重みを加え，PageRank と同様の方法で発言の重要度を計算するものである．通常，負の値をもつリンク構造があると PageRank は収束しないが，木構造であれば負の値をもっていても数値が収束することがわかっている．単なるリンク構造ではなく，内容を利用した重要度の計算は，自分以外の参加者の意図も同時に理解できるものであり，参加者には有用であると考えた．最初の研究の反省から，分析結果はシステムに取り込

(3)

んでユーザに利用してもらうことを目標とした．そこで，求めた重要度を可視化して参加者に提示し，どの発言を優先的に読むかを補助するシステムを作成した．図 1 は求められた重要度とともに発言のスレッドを可視化して議論の参加者に提示したものである．

4．テキスト分析とネットワーク分析の融合：

TENA

InnovationJamの分析は，文書同士の関係構造を，文書の内容を加味して分析したものであった．これは，テキストのみではなく，構造も同時に扱うことで，より現実に役に立つ情報を抽出することができるのではないかと考えた．さらに，著者の所属するテキストチームと，数理的な観点から研究を行っている数理科学チームとで協業をできないかという話が研究所内でもち上がり，ちょうどその頃グラフ理論に傾倒していた著者は，「テキスト分析とネットワーク分析を合わせて，ソーシャルメディアの分析をしたらどうだろう」という提案を行った．提案した 2007 年はちょうど Facebook が MySpace を抜いて世界 1 位のソーシャルメディアとなった年ではあったものの，まだ一般の人にはソーシャルメディアは浸透しておらず，日本では Mixi がやっと広まってきた頃であった．その頃にはすでにネットワーク分析によるソーシャルメディアの分析の研究は数多くあったが，テキスト分析との組合せはまだほとんど手を付けられていなかった．そこで，その二つの分析技術の融合としてテキスト・ネットワーク分析技術（TENA：TExt and Network Analytics）として研究を始めた． TENAは，単にネットワーク分析とテキスト分析を組み合わせただけではない，変わったコンセプトがあった．それは「人の行動まで含め，すべてをネットワークで表す」ことである．例えば，どの単語がどの文書に出てくるのか，どの文書がどの文書と関係（返答など）をもっているのか，さらに誰がどの文書を記述したのか，誰がどの文書を読んだのか，という行動履歴まで含めてネットワーク化するのである． TENAはこのように，ユーザの行動履歴とコンテンツをこのようなデータ構造をもつグラフデータベースに格納した．このデータベースをもとにして，さまざまな分析ソリューションを提供できるのが TENA の特徴だった．一般的なグラフ DB は速度の問題があるが，TENA ではグラフ DB のアクセス問題を解決するために簡潔データ構造（Succinct Data Structure）と呼ばれるデータ構造を用いた．簡潔データ構造とは，検索に対してなるべく小さい索引で短い応答時間を実現するためのデータ構造であり，索引データが小さいため，主記憶上でのアクセスが可能となる．そのため 1 日に数百万に及ぶユーザの行動履歴などを，グラフ構造のデータベースで扱うことも可能とするものであった． 4･1　サイバーエージェント様との実証実験 TENAの研究を進めるにあたり，二つほど困ったことがあった．一つ目の問題は「データがない」ということである．せっかくユーザの行動履歴を含めたテキスト情報を格納するデータベースを作成しても，その中に入れるデータをもっていなかったのである．先にあげた InnovationJamのデータは，残念ながら誰がどの発言を行ったかの情報はあったが，読んだという情報はなかった．二つ目の問題は，この TENA を活用できる「有効なソリューションは何か」がわからなかったことである．そこで，当社内の「First of A Kind（FOAK）」という制度を利用し，アメーバ blog で有名なサイバーエージェント様と協業を行うことになった．この FOAK という制度は，まだ一度もソリューションとして世の中に出たことのない技術を，データや知見をお持ちの企業様と一緒に実証実験を行う，というものである．サイバーエージェント様からは blog のテキストデータとともに，ユー図 1 オンラインディスカッション「InnovationJam」における重要発言の可視化図 2 TENA における抽象化された行動とコンテンツ，ユーザからなるデータ構造

(4)

ザ情報ならびにユーザの行動履歴情報をいただき，数多くの議論のあと，私達研究者は TENA を利用したソリューション二つを提案・実装した．一つは行動履歴に基づいた blog 推薦であり，もう一つは有名人 blog の読者を対象にした blog サポーター（熱心度）ランキングである．この二つのサービスは実際のアメーバ blog のユーザにも提供された． 4･2　ディベート文書分析 TENAではグラフ DB に構造を含むテキストデータを入れることで，分析の基盤の共通化を図ろうとしたものであった．分析基盤としての TENA を研究する一方で，その基盤上での分析そのものの研究も進めていた．その一つが，ディベート文書の分析である．ディベートとはあるテーマに対し対立する立場に属する人同士が議論を戦わせることである．例えば，銃規制に対して賛成の立場と反対の立場の人達で，どのような利益・不利益があるかを議論するなどの例がある．フォーマルなディベートでは自らの立場を宣言して（例であれば銃規制賛成であるか反対であるか）から議論を行うが，例えば掲示板などではそのような宣言はない．そのため，あるテーマで議論をしている掲示板で，そのテーマにおいて賛成・反対の立場の人がどれくらいいるのかというのはすぐには理解できない．そこで，あるテーマに沿って話し合っている掲示板から，そのテーマに賛成・反対の人がどれくらいいるのかを推し量るという研究を行った [Murakami 10]．まず，隣り合う発言において，その直前の発言に対して賛成なのか反対なのかを，言語処理を用いて判定する．さらに，二つの発言ペアをもとに，ユーザのネットワークをつくる．発言者は，そのテーマ全体に対するスタンス（賛成あるいは反対）は議論中に変更がないと仮定し，二つの発言間に賛成か反対かでスコアを割り振り，ユーザを max cutを用いて最適な二つのグループに分割した．これにより，そのテーマに対し賛成と反対が何人いるか（あるいは割合）が明確になる．これは，経済産業省の行ったアイディアボックス [経済産業省 10] というデータを用いて実験を行った．のちに，著者がオープンデータに興味をもち始めたのは，このときの実験がきっかけとなっている． 4･3　Twitter 分析と災害情報分析 TENAを始めたとき，データ分析はそのデータの持ち主によって実施されることが普通だったのだが，その後時代は大きく変わり，公開の API によりデータを取得しそのデータを分析・活用するといったいわゆるデータ公開やオープンデータの方向に向かっている．ソーシャルの世界では，Twitter がデータ公開の中心的存在であり， Twitterの API を利用したデータ分析のソリューションや研究が花盛りとなった．著者も 2007 年頃から少しずつ Twitter データを分析していたが，本格的に分析を始めたのは 2011 年の東日本大震災の頃からである．テキストマイニングを用いてソーシャル上のデータから足りないもの，買えないものを発見する試み [Murakami 12] や，ソーシャル上での風評被害の測定などを行っていた．さらに，住民の不安の時間変化を測定して避難計画の意思決定をサポートするシステムなどの提案 [村上 15] も行った．また，2012 年の初めてのネット選挙（ネットでの選挙活動解禁選挙）の際には，政党がネット上で発信するメッセージがどのように拡散していったかを分析し，NHK の番組で結果が放送された．

5．災害情報分析から災害対応活動へ

災害情報に関して分析の研究を進めるうちに，著者は研究者として分析を行うことに限界を感じるようになった．そもそも，災害時に分析した結果は誰が使うものなのだろうか？分析して興味深いとしても，利用されなければ意味がないのではないか？そう考えるうちに，生きた情報を災害発生時に被災地，あるいは被災地をサポートする団体が使えるように，と，研究の枠を超えて行動をできないかと考えるようになった．そこで，IT を用いた災害対応への貢献を考えるさまざまなコミュニティに参加するようになった．ついに， 2015年には，災害時に IT を使って被災地あるいは被災地をサポートする団体に適切な情報を届けるという目的で，一般社団法人情報支援レスキュー隊（IT DART）[情報支援レスキュー隊 ] を設立した（図 3）．この団体の目的は，発災時における情報支援を，現地あるいはリモートで行うものである．この活動を通して，いつか，自身の研究が実際に災害時に役に立てるようになれるように願っている．

6．Watson 開発リーダーとして

入社して 16 年，一貫して基礎研究所で研究を行って図 3 情報支援レスキュー隊の隊員として 2015 年 9 月に鬼怒川水害の被災地に入りヒヤリングする著者

(5)

きた著者だが，現在は東京ソフトウェア開発研究所に異動し，Watson の Watson Knowledge Studio というソフトウェアの開発リーダーをしている．Watson といえば Jeopardy ! というクイズ番組で活躍した QA システムが有名であるが，日本アイ・ビー・エム（株）ではその技術を AI（人工知能）ではなく Cognitive Computing（認知コンピューティング）として，さまざまなツールやソリューションとして展開をしている．著者が担当する製品はその中でもかなり基盤に近い，テキストからの情報抽出をカスタマイズすることのできる製品である．一般的な AI は，例えばテキストから一般用語のカテゴリー付きの語（エンティティと呼ばれることもある）を抽出することが可能である（例えば人名や地名などの固有名詞のようなもの）．しかし，それだと例えば専門分野の用語であるとか，社内での独自の用語は扱えなくなってしまう．そのため，Watson にそのような分野独自の知識を教える仕組みが必要なのである．自分の研究と関係の深い製品の開発のリーダーをすることは，著者にとってとても興奮する体験である．研究者であったときは，いわゆる抽出ロジックのところにしか興味がなく，スケーラビリティや，モデルのライフタイム，コストなどのようなことを考えたことがなかった．しかし，今では開発のリーダーとして，運用やインフラも含めた総合的な目で見るようになった．製品としてリリースするにはいかに多くの労力が必要であるのか，メインの機能以外も他社との差別化となり得るのかなど，多くのことを学んでいる．開発の現場にいて思うのは，近年の開発と研究の急激な接近である．Watson の開発現場（図 4）では，最近に研究所で生まれた研究を元に製品開発をすることも珍しくない．エンジニアは最新のコーディングに関する資料のほかに，最新の論文も読み込み，そして実装する．あるいは，自身で考えたロジックでプロトタイプをつくり，特許を取得することもある．日本アイ・ビー・エム（株）は今まで良い意味で開発と研究が分かれていたが，今後この境目がどんどんなくなっていくように感じている．開発者が最新の論文に触れて刺激を受けるように，研究者は最先端の開発の手法を見て，研究のきっかけをつくってもよいのでは，と考えている．

8．さ　い　ご　に

今回，本稿を書くに当たり，自分の研究内容を棚卸しした際に，自分の興味が「人の行動」にあるということを痛感した．専門は自然言語処理なのであるが，もっぱらその自然言語が生まれる背景であるとか，人の行動であるとか，そういったものを抽出し役に立てたいという思いが背景にあるのだと思う．おそらく，今後も何らかの形でそういった研究や開発の活動を続けていければと思っている．

◇　参　考　文　献　◇

[情報支援レスキュー隊 ] 一般社団法人情報支援レスキュー隊（IT DART）：http://itdart.org [経済産業省 10] 経済産業省：アイデアボックス，http://www. meti.go.jp/policy/it_policy/open-meti/

[Murakami 04] Murakami, A. and Nasukawa, Term Aggregation: Mining synonymous expressions using personal stylistic variations, Proc. 20th Int. Conf. on Computational Linguistics （2004）

[村上 06] 村上明子，渡辺日出雄：時系列情報を利用した複合語キーワードの抽出，情処学研報自然言語処理（NL）, Vol. 2006, No. 36（2006-NL-172）, pp. 1-8, ISSN09196072（2006）

[Murakami 07] Murakami, A., Nasukawa, T., Nakamura, F., Takeuchi, H., Nishiyama, R., Veisberg, P. and Watanabe, H.: InnovationJam: Analysis of online discussion records using text mining technology, International Workshop on

Intercultural Collaboration 2007（IWIC2007）（2007） [Murakami 10] Murakami, A. and Raymond, R.: Support or

oppose?: Classifying positions in online debates from reply activities and opinion expressions, Proc. 23rd Int. Conf. on

Computational Linguistics（2010）

[Murakami 12] Murakami, A. and Nasukawa, T.: Tweeting about the tsunami?: Mining twitter for information on the Tohoku earthquake and tsunami, Proc. 21st Int. Conf. Companion on

World Wide Web, pp. 709-710（2012）

[村上 15] 村上明子，伊川洋平：オープンデータに基づく地域オントロジを用いたソーシャル分析，第 29 回人工知能学会全国大会論文集 2015, Vol. 29, pp. 1-3（2015） 2016年 12 月 8 日受理図 4　開発研究所でのリリースのケーキパーティの様子村上　明子（正会員） 1999年早稲田大学大学院理工学研究科物理及び応用物理学専攻修士課程修了．同年，日本アイ・ビー・エム株式会社入社以後，同社東京基礎研究所において自然言語処理の研究に従事．テキストマイニングツール日本アイ・ビー・エム株式会社 TAKMI の研究開発において，品詞管理や辞書作成などを担当した．2016 年 1 月より同社ワトソン開発に異動，知識処理の学習データなどを作成する製品の開発リードを担当．2015 年には一般社団法人情報支援レスキュー隊を設立，理事に就任．著書として「チャンス発見の情報技術（東京電機大学出版，2003）（共著）」，訳書として「情報検索の基礎（共立出版，2012）（共訳）」，「Google Hacks 第 2 版，第 3 版（オライリージャパン，2005，2007）（共訳）」がある．情報処理学会，言語処理学会各会員．

自然言語処理で人と人の交流を読み解く ─ディスカッションからソーシャルメディアまで─(<レクチャーシリーズ>つながりが創発するイノベーション〔第10回〕)