非構造化データを対象とする知的情報処理(<特集>企業におけるAI研究の最前線)

(1)

1．は　じ　め　に

富士ゼロックス研究技術開発本部コミュニケーション技術研究所では，計算機による取扱いが難しいテキスト，画像，動画，音声などの非構造化データを対象としてデータ分析の研究を行っている．非構造化データを分析の対象とするためには，まずそれらのデータを構造化する必要がある．そのため，テキストや画像から所望の情報を抽出し正規化する，あるいは，自動分類，クラスタリングする技術の研究を行っている．このように非構造化データを整理，分類することにより，数値データなどのあらかじめ構造化されているデータと同様に分析の対象とすることが可能となる．本稿の 2 章では，非構造化データを構造化するための要素技術として富士ゼロックスが保有する自然言語処理技術および画像認識技術の特徴を述べる．また，データ分析の要素技術として，ネットワーク分析および集合知活用の研究を紹介する．3 章では，これらの要素技術を用いた応用研究として，Sales Force Automation（SFA）， Voice of Customer（VOC），Social Networking Service （SNS）などの非構造化データを対象とする分析の事例について概説する．

2．要　素　技　術

2･1　自然言語処理 § 1 専門用語抽出テキストを構造化するための要素技術として専門用語抽出をあげることができる．専門用語は文書を代表するキーワードとして用いることができる．例えば，技術文書であれば，技術領域名や法則名，理論名，手法名などの専門用語を抽出しキーワードとしてデータベースに格納することで文書の検索や分類を効率的に実施できる．また，医療テキストから病名，薬品名，検査名，手術名などの専門用語を抽出してデータベースに蓄積することで疫学調査などのデータ分析が実現できる．我々は専門用語抽出を，系列ラベリング問題として定式化し機械学習手法を適用することによって実現している．既存の専門用語辞書を利用して大規模な学習データを自動構築する点が我々の手法の特徴である．[Miura 13a] では，電子カルテテキストから病名を抽出する手法およびシステムの提案を行っている．本システムは 2013年に行われたNTCIR-10 MedNLPタスクにおいて，参加システム中 1 位の成績をおさめている [Morita 13]．以下，専門用語抽出に関連する技術の中で，我々が取り組んでいる略語展開，事実性判定，正規化の各技術について述べる．

非構造化データを対象とする知的情報処理

Intelligent Information Processing for Unstructured Data

増市　　博

富士ゼロックス株式会社研究技術開発本部

Hiroshi Masuichi Research & Technology Group, Fuji Xerox Co., Ltd. [email protected]

加藤　典司

（同上）

Noriji Kato [email protected]

大熊　智子

（同上）

Tomoko Ohkuma [email protected]

大西　健司

（同上）

Takeshi Onishi [email protected]

小林　健一

（同上）

Kenichi Kobayashi [email protected]

Keywords:

natural language processing, image recognition, network analysis, collective intelligence, data mining, unstructured data.

(2)

略語展開　略語は多くの場合複数の正式名称候補をもつ．例えば「CA」は「calcium」，「California」，「cabin attendant」など多くの正式名称候補をもつ．文中の略語がどの正式名称の省略形であるかは文脈から判断する必要がある．[Shinohara 13] では，機械学習手法を使って文脈から自動的に略語の正式名称を推定するシステムを提案している．本システムでは機械学習に必要な学習データを自動的に生成することで精度の向上を図っている [篠原 11a]．事実性判定　事実性判定は，抽出された用語が実際に起こった事実であるかどうかを判定する技術である．例えば「内部監査は行われていない」，「内部監査は来週行われる予定である」といった記述中の「内部監査」は実際には起こった事実ではない．[Aramaki 09] では，事実性判定の手法を提案している．要約や検索などのアプリケーションでは用語の事実性が重要な情報になる． [外池 09] では，事実性判定結果を用いた要約システムの構築と評価を行った．本研究では，抽出した用語だけでなくその事実性も併せて要約に表示することで，原文の内容をより正確に把握できるという効果を評価実験によって確認している．正規化　専門用語の抽出結果をデータ分析で利用するためには，表現の異なる同義語を標準形に統一する正規化処理が必須である．[杉原 10] は，表記揺れ解消手法を利用して既存の同義語辞書を効率的に拡張する手法を提案している． § 2 関　係　抽　出抽出された専門用語は元々の文脈と切り離されてしまうことで，他の専門用語との関係が失われる．例えば，「アスピリン」（医薬品）と「頭痛」（病名）の二つの専門用語が抽出されたとき，下記の（A）では「アスピリン」の効用として「頭痛」が記述されているのに対し，（B）では「アスピリン」の投与によって引き起こされた副作用として記述されている．（A）頭痛が強くなったためアスピリンを投与した．（B）アスピリンを投与後，頭痛が強くなったため，投薬を中止した． [大熊 11] のように電子カルテから副作用の発生件数を自動集計するシステムでは，副作用と効用を区別する必要がある．[Miura 10, 大熊 12, 篠原 11b] は，専門用語間の関係を機械学習あるいは構文パターンルールによって判定する手法を提案している．[三浦 11] では，二つの専門用語がテキスト中で遠く離れた位置に出現している場合でも，構文情報を機械学習の素性として用いることで高い関係抽出精度を実現している． § 3 評判情報抽出近年，twitter や facebook などの SNS テキストから商品やブランドに対する印象，意見を抽出してマーケティングやリスク管理に活用したいというニーズが高まっている．[Miura 14a] は twitter を対象にして

投稿内容がポジティブかネガティブか中立かを推定する極性判定システムを提案している．本システムは SemEval2014 Task9における twitter の極性判定コンテストで 46 チーム中 1 位の成績をおさめた． [三浦 14b] では極性判定手法に多言語対応辞書である WordNetを利用している．本手法を利用して，今後は極性判定の多言語化を目指している．[Miura 13b] では，投稿内容の極性を個別の tweet ごとに判定するのではなく，複数の tweet を対象にしたトピックモデリングを行い，トピックとそれに対する極性を同時に判定する手法を提案している．本手法を適用すれば，例えば，ある商品に対して，価格というトピックに対してはポジティブであるが品質に対してはネガティブであるなど，極性をより詳細な粒度で特定することが可能となる．これらの評判情報抽出結果をマーケティングの分析に用いる際には，投稿者の年代，性別，居住地などのプロファイル情報が必要になる．[榊 14] は，過去の投稿データから twitter ユーザの年齢，性別，居住地域などを自動的に推定する手法を提案している．本手法では，熟練した作業者によって作成された正解コーパスとクラウドソーシングによって不特定多数の作業者が作成した正解コーパスを統合して学習データを構築することにより高い推定精度を得ている． 2･2　画　像　認　識画像から抽出できる情報は，画像中に存在する物体の名称，種類，数，位置などの属性や，画像全体が表すシーン，トピックなどの意味情報など多岐にわたる．我々は，抽出したい情報に応じて物体検出，特定物体認識，画像アノテーションの各技術の研究開発を行っている．さらに，複数の画像特徴抽出アルゴリズムや認識アルゴリズムをモジュール化し，自由に組み合わせることが容易なアーキテクチャを開発することにより，抽出対象に応じた柔軟なシステム構築を実現している．以下，我々が取り組んできた画像認識技術を紹介する． § 1 物　体　検　出物体検出とは，特定の種類の物体を画像中から検出する技術であり，顔検出が良く知られている．富士ゼロックスでも顔検出の黎明期からこの技術に取り組んできた [Ikeda 04, Kato 03, 加藤 05]．工業製品の欠陥検査や医療分野など，画像から特定の物体を目視で探す労働集約的な作業は数多く存在し，顔以外への対象に物体検出の適用範囲を広げることが重要であると考えている．物体検出は AdaBoost 識別器のカスケードを用いる手法がデファクトとなっており [Viola 01]，これをベースとして対象物体に適切な特徴量抽出や高速化の研究を行っている．例えば [尾崎 13] では多量の顕微鏡画像から 1 億個に 1 個程度しか存在しない希少細胞を精度良く検出する技術を実現している．

(3)

§ 2 特定物体認識特定物体認識とは，あらかじめ登録された個体と同一の個体を認識する技術である．物体検出の例が顔検出であるのに対して，個人認証が特定物体認識技術の例である．特定物体認識は，事前に学習することなく登録画像と同一の個体を認識可能である一方，同じ種類の物体でも登録画像と異なる個体は認識できない．特定物体認識の利用シーンとして，企業の画像リポジトリの検索機能や設計図面の版管理支援への応用を考えている．いずれも高速化が重要であり，独自に高速な局所特徴量抽出技術を開発している [Liu 09]． § 3 画像アノテーション物体検出および特定物体認識が画像内の物体に関する情報を抽出するための技術であるのに対して，画像アノテーションは画像全体の意味を特定する技術である．我々は，画像の意味を表す数十∼数百種類のラベルを対象画像に自動的に付与する画像アノテーション技術の研究に取り組んでいる．我々が画像アノテーションで目指す技術の方向性は，少量の学習画像で高い認識精度を達成することと，短時間で処理できる高速性の実現である．前者は，アプリケーションごとに異なるラベルを学習させる必要があり，多量の学習画像を入手することは著作権などの理由で多くの場合困難であるからである．後者は，スマートフォンで撮影された写真に対してリアルタイムでラベルを付けるといった幅広い用途を考えた場合に必要な条件である．画像認識で広く用いられる手法として局所特徴を量子化し，量子化された特徴のヒストグラムを特徴として用いる，いわゆる bag of visual words（BOW）[Csurka

04]の手法があるが，多量の学習画像を必要とする．例えば BOW は画像全体から一つの特徴を生成するため，同じ物体が写っていても背景が違う画像についてはそれぞれの学習画像が必要となる．そこで我々は，画像を複数の領域に分割し，画像の生成過程を各領域からの確率生成モデルとして扱う識別方式を導入している．具体的には各領域の生起確率を独立と仮定しナイーブベイズモデルとして表現する [Tsuboshita 12]．これにより図 1 に示すように，BOW モデルに比べて少ない学習画像で同等の性能が達成できる．我々のモデルでは 1 画像当たり約 1 000 個の部分領域に対して確率密度推定を行う必要がある．そこで領域特徴の確率モデルとして高速な処理が可能であるランダムフォレスト識別器を導入することにより，1 秒程度の処理時間での認識を可能としている [Fukui 11]． 2･3　ネットワーク分析相互の関係が定義されていないデータに対して，2･1 節および 2･2 節で述べた自然言語処理技術や画像認識技術を用いることにより，データ間にリンクを付与し，データ全体をネットワークとして構造化することができる．例えば，専門用語抽出によって同じ専門用語が抽出されたテキストの間や，画像アノテーション技術によって同じアノテーションが付与された画像の間にリンクを付与する．また，文書分類を行うことによって同一のカテゴリーに分類された文書同士をリンク付けることもできる．あるいは，文書管理システムから得られるユーザ操作ログを解析し，同じ人物によって頻繁にアクセスされた文書の間にリンクを付与することも可能である．我々はこのようなさまざまな方法でデータ間にリンクを付与することにより，非構造化データをネットワークとして構造化している．本章では，このようにして構築した大規模ネットワークから，「ユーザ課題」に応じた「コミュニティ」を抽出する手法，およびコミュニティに属する個々のノードの重要度を計算する手法を概説する．ここで，ユーザ課題とはユーザが詳しく知りたいトピックであり，コミュニティとはユーザ課題に関連する部分ネットワークである．本ネットワーク分析は，脳の神経細胞のネットワークが，ある事象から関連する他の事象を連想想起する機構をモデルに考案したアルゴリズムに基づくことを特徴とする [Okamoto 07, Okamoto 09, Tsuboshita 07, Tsuboshita 09]． § 1 コミュニティ抽出本手法では，ユーザ課題をネットワークの初期活性で表す．すなわち，初期の時点でユーザが知る知識に対応するノードに「活性」を与える．例えば文書をノードとするネットワークの場合であれば，ある課題に対してユーザが初期の時点で知る関連文書に対応するノードに活性を与える．すると，活性はリンクを伝わってネットワーク中を伝搬し，初期活性に依存した定常状態に収束する．この過程は，脳が手掛かりに依存して特定の記憶を想起する過程を模している．定常状態において活性を付与されたノード群がユーザ課題に関連する情報を表すと考える．活性伝搬を通じて，リンク関係から不要とみなされたノードは活性を失って削除される．一方，リンク関係から必要とみなされたノードは高い活性を得て付図 1 画像アノテーション性能．

評価コーパスは PASCAL VOC2007 [Everingham 07] を使用．上位 5 ラベルをアノテーション結果とした

(4)

加される．このような削除，付加を通じて，ユーザがもつ不完全な知識から，ユーザが本来知るべき知識，すなわちコミュニティを抽出できる [Okamoto 11, Okamoto 13a, Okamoto 13b]． § 2 ノード重要度活性伝搬の定常状態において個々のノードが獲得した活性を，これらのノードのユーザ課題に応じた重要度と考え，それらの大きさに従ってノードをランク付けする．なお，Google 検索エンジンが利用している PageRank アルゴリズムもネットワーク（WWW）中の活性伝搬に基づき個々のノード（Web ページ）の重要度を定める．ただし，PageRank アルゴリズムによる重要度はネットワークの構造から一意に定められ，個別のユーザ課題を反映しない．一方，脳における手掛かり依存的な記憶想起の機構を模した我々の方法では，重要度はユーザ課題に応じて変化するものとして定められる．我々は，特許審査時に審査官が参照する引用関係に基づいた特許ネットワークや，文書管理システムのユーザ操作ログの情報に基づいて構成されるオフィスドキュメントネットワークに本手法を適用し，ユーザが知りたい知識の発見を支援するシステムを構築している [岡本 08, 園田 08]．図 2 に特許ネットワークの分析結果例を示す．図 2 は 2010 年までに公開された特許のうち審査官引用が付与されたものを対象にした特許ネットワークから二足歩行ロボットに関するコミュニティを抽出した結果であり，当該分野を代表する特許群を俯瞰することが可能である [園田 08]． 2･4　集合知活用データ分析では前節までに述べた ICT 領域の技術が重要な役割を果たすが，「人」の果たす役割も同様に重要である．データ分析においては，分析の目的や解決すべき課題が明確でないままに分析を行っても有用な分析結果が得られることは少ない．分析の目的，解決すべき課題を定めたうえで適切な分析手法を適用することが必要である．また，有用な分析結果が得られたとしても，それを解釈し実行施策につなげることができなければ，その分析結果は意味をもたない．分析の目的や解決すべき課題を定め，分析結果を実行施策につなげるのは人であり，ICT 領域の分析技術と人はデータ分析の両輪である．我々は人間科学的な観点から，効率的に課題を発見し実行施策につなげるための集合知活用の研究を行っている．具体的には，ゲーミフィケーションを利用した行動支援プラットフォーム [根本 14a]，クラウドソーシングによる集合知システム [高橋 13]，ワールドカフェ型対話 [根本 12, Takahashi 14]，集合的フィールドワーク [堀田 13, 涌井 14] といった手法および方法論の研究を行っている．

3．応　　　　　用

我々が分析の対象とするデータは，三種のカテゴリーに大別できる．「企業内データ」，「顧客接点データ」，「オープンデータ」の三種である．企業内データは，企業活動を通して生み出され企業内に蓄積される，経理，財務，法務，営業などに関する機密性の高い基幹データである．顧客接点データは，VOC データや店舗内の動画データのように顧客の言動や行動が起点となって生成されるデータである．オープンデータは，twitter や facebook などの SNS データや Linked Open Data 関連データのように，一般に公開され誰もが入手可能なデータである．以下，3･1 ∼ 3･3 節では，三種のカテゴリーの代表的な非構造化データである SFA データ，VOC データ，SNS データを対象とした応用研究事例を概説し，3･4 節でカテゴリーをまたがる横断分析について述べる． 3･1　SFA 分　析富士ゼロックスは 2012 年から SFA を国内営業部門に展開し，現在，月に数十万件のペースで全国の営業日報データを蓄積している．蓄積された営業日報データを活用することによって顧客満足度を向上させるとともに営業力を強化することが SFA 導入の狙いの一つである．我々は，この背景のもと SFA データの活用を目的とした活動を進めている [谷口 14]．我々は営業日報に含まれる「顧客課題」を有用な情報であると考え，営業日報テキストに含まれる顧客の困り事や要望など顧客が抱える課題に関する記述（課題記述文）を自動抽出する技術を開発した [杉原 12]．本技術は， 2･1 節で述べた専門用語抽出と類似の機械学習手法に基づく技術である．我々は課題記述文抽出機能を利用した営業日報検索システムを構築した．本システムは，営業日報テキストを対象にしたキーワード検索および訪問した顧客の業種や規模などの各種属性による検索を行うことが可能であり，参照したい営業日報を効率良く絞り込むことができる．抽出された課題記述文は営業日報の要約として表示され，ユーザはその日報に含まれる重要なエッセンスを図 2 特許ネットワーク分析結果例

(5)

即座に把握することができる．現在は，営業日報検索システムを用いて絞り込まれた営業日報のテキスト情報と，顧客や商談に関する属性情報を統合し，営業分析，顧客分析，売上分析など種々のデータ分析を行っている． 3･2　VOC 分　析顧客接点データである VOC は，ホームページやコールセンター，保守担当者を介してテキストとして入力され，システムによって自動付与される顧客の属性や背景情報とともに企業内のデータベースに蓄積されている． VOCには自社商品に対する苦情，クレームや意見，要望のほか，顧客課題も含まれており，VOC データを分析して問題解決や再発防止，新商品の企画，開発など，企業内の多様な業務プロセスへ活用できる．富士ゼロックスでは，年間数十万件の VOC が入力，蓄積されており，企画部門，開発部門，生産部門，営業部門で活用されている．ただし，時々刻々と変化する多量の VOC を整理分類し，多様な部門で活用できる分析結果を自動的な処理で得ることは困難であり，現在は各部門で多大な労力を要して分析を行っている．我々が開発したデータ分析システム [根本 14b] は， VOCデータを対象とするシステムである．対話的なインタフェースを通して VOC の最適な分類体系を効率良く発見し，各部門の労力を軽減することを目的としている．これらのシステムの支援により，例えば，富士ゼロックスが提供する Web サービスに関連する VOC を継続的に分析することによって過去のトレンドと異なる傾向を示すサービスカテゴリーの早期発見が可能となり，サービスや顧客対応をタイムリーに改善することができた． 3･3　SNS 分　析 SNSには広く個人の意見が投稿されるが，その中には商品の評判も多く含まれる．その投稿を分析することで商品に対するリアルタイムで率直な意見を得ることができ，マーケティングに活用できると考えている．2･1 節でも述べたとおり，我々は投稿がポジティブな意見かネガティブな意見かの極性を判定し，さらに投稿したユーザの性別，年齢などのプロファイル情報を推定している．これにより商品がどのセグメントに受け入れられているかのマーケティング情報を得ることができる． SNS分析におけるプロファイル推定では，自然言語処理技術と画像認識技術の両者を要素技術として用いている．自然言語処理に基づく手法だけでなく，ユーザが投稿した画像から 2･2 節で述べた画像アノテーション技術でプロファイルを推定する手法 [Ma 14] を併用している点が特徴である．図 3 は，分析の対象を twitter とし，小売店で売られている商品の分析を行った結果の例である．また，図 4 に特定の twitter ユーザが発信した一連のメッセージからそのユーザのプロファイルを推定した結果の例を示す．このように SNS の分析によって商品ごとの評判をリアルタイムに知り，さらにプロファイル推定結果からそのセグメント情報を得ることが可能になる． 3･4　横　断　分　析上記に述べた「企業内データ」，「顧客接点データ」，「オープンデータ」の三種のカテゴリーにおいて，カテゴリーが異なるデータは機密性の違いなどの理由で，多くの場合物理的論理的に互いに切り離された状態でデータベースに格納されており，データ間のひも付けもない．したがって，これまでカテゴリーをまたがるデータ分析は十分行われてこなかった．しかし，このような横断分析は有用な分析結果を生み出すことが多い．富士ゼロックスでは，例えば，顧客先の各コピー機の稼働状況を顧客の承諾を得たうえで企業内データとして蓄積し分析を行っているが，稼働状況の変化はわかっても変化の理由はわからない．一方で，顧客接点データである VOC テ図 3　tweet から推定された商品の評判情報例図 4　twitter ユーザのプロファイル推定結果例アウトドア

(6)

キストとひも付けて分析することにより，稼働状況の特異的な変化の理由を発見することが可能である．また，企業内データである POS データは顧客が商品を購買する際に得られるデータであり，顧客が購買しなかった場合のデータは含まれていない．一方で店舗内のビデオカメラ映像を分析することで購買に至らなかった顧客の行動情報（欲しい商品がなかったのか，商品はあったが気に入らなかったのかなど）を得ることが可能である．さらに，顧客接点データとオープンデータの組合せも重要である．例えば，VOC テキストの多くを占めるクレーム情報から商品の問題点を分析することは可能であるが，商品の長所を把握することは容易でない．オープンデータである SNS データを感情分析することにより商品の長所を補完することが可能である．このような，カテゴリーをまたがる横断分析からこれまでにない分析結果を得ることは，我々のデータ分析研究が目指す重要な方向性の一つである．

4．お　わ　り　に

本稿では，富士ゼロックス研究技術開発本部コミュニケーション技術研究所のデータ分析に関連する研究活動を紹介した．本活動は非構造化データを対象とする点が特徴であり，非構造化データを構造化するための要素技術として自然言語処理技術および画像認識技術の研究を行っている．自然言語処理技術と画像認識技術を利用してデータをネットワークとして構造化したうえで，ネットワーク分析技術を適用し分析を実現する．また，このような ICT 領域の分析技術が果たす役割と「人」が果たす役割はデータ分析において同等に重要だと考え，人間科学的な観点から，分析すべき課題を効率的に発見し，分析結果を実行施策につなげるための方法論，手法の研究を行っている．富士ゼロックスでは「企業内データ」，「顧客接点データ」，「オープンデータ」の三種のカテゴリーをデータ分析の対象とし，SFA，VOC，SNS などのさまざまな非構造化データと構造化データを合わせて統合的な分析を実施している．本文中の登録商標および商標はそれぞれの所有者に帰属します．

◇　参　考　文　献　◇

[Aramaki 09] Aramaki, E., Miura, Y., Tonoike, M., Ohkuma, T., Mashuichi, H. and Ohe, K.: TEXT2TABLE: Medical text summarization system based on named entity recognition and modality identification, Proc. Human Language Technology

Conf. and the North American chapter of the Association for Computational Linguistics （HLT-NAACL 2009），Workshop on

BioNLP, pp. 185-192 （2009）

[Csurka 04] Csurka, G., Dance, C. R., Fan, L., Willamowski, J. and Bray, C.: Visual categorization with bags of keypoints,

Workshop on Statistical Learning in Computer Vision, ECCV,

pp. 1-22 （2004）

[Everingham 07] Everingham, M., Gool, L. V., Williams, C. K. I., Winn, J. and Zisserman, A.: The PASCAL Visual Object Classes Challenge 2007 （VOC2007），Results, http://www. p a s c a l - n e t w o r k . o r g / c h a l l e n g e s / V O C / v o c2007/ workshop/index.html

[Fukui 11] Fukui, M., Kato, N. and Qi, W.: Multi-class labeling improved by random forest for automatic image annotation,

IAPR Conf. of Machine Visual Application, pp. 202-205 （2011） [堀田 13] 堀田竜士，涌井美帆子，三井実，高橋正道：集合的フィールドワーク─「群衆の叡智」を活用した地域づくり支援のための一手法の提案─ , 情報処理学会グループウェアとネットワー クサービスワークショップ 2013 （GN Workshop 2013）論文集， pp. 16-17 （2013）

[Ikeda 04] Ikeda, H., Maeda, M., Kato, N. and Kashimura, H.: Classification of human actions using face and hands detection, 12th Annual ACM Int. Conf. on Multimedia, pp. 484-487 （2004）

[Kato 03] Kato, N., Ikeda, H., Kashimura, H. and Shimizu, M.: Scaling, rotation, and translation invariant image recognition using competing multiple subspaces, Int. Joint Conf. on Neural

Networks, Vol. 2, pp. 1268-1273 （2003）

[加藤 05] 加藤典司，福井基文，鹿志村洋次：XYI 空間における面特徴を用いた顔認識，信学論（D-Ⅱ），Vol. 88, No. 8, pp. 1634-1642 （2005）

[Liu 09] Liu, Q., Yano, H., Kimber, D., Liao, C. and Wilcox, L.: High accuracy and language independent document retrieval with a fast invariant transform, IEEE Int. Conf. on

Multimedia and Expo, pp. 386-389 （2009）

[Ma 14] Ma, X., Tsuboshita, Y. and Kato, N.: Gender estimation for SNS user proﬁling using automatic image annotation, Int.

Workshop on Cross-media Analysis for Social Multimedia,

ICME （2014）

[Miura 10] Miura, M., Aramaki, E., Ohkuma, T., Tonoike, M., Sugihara, D., Masuichi, H. and Ohe, K.: Adverse-effect relations extraction from massive clinical records, COLING

2010 Workshop （In cooperation with Info-plosion），2nd Int.

Workshop on NLP Challenges in the Information Explosion Era （NLPIX 2010），pp. 75-83 （2010）

[三浦 11] 三浦康秀，外池昌嗣，大熊智子，増市博，篠原（山田）恵美子，荒牧英治，大江和彦：複数文にまたがる関係抽出における構文情報の効果，言語処理学会第 17 回年次大会，pp. 516-519 （2011）

[Miura 13a] Miura, M., Ohkuma, T., Masuichi, H., Yamada, E., Aramaki, E. and Ohe, K.: Incorporating knowledge resources to enhance medical information extraction, IJCNLP2013

1st Workshop on Natural Language Proc. for Medical and Healthcare Fields, pp. 1-6 （2013）

[Miura 13b] Miura, M., Hattori, K., Ohkuma, T. and Masuichi, H.: Topic modeling with sentiment clues and relaxed labeling schema, SAIIP 2013, pp. 6-14 （2013）

[Miura 14a] Miura, M., Hattori, K., Sakaki, S. and Hattori, K.: TeamX: A sentiment analyzer with enhanced lexicon mapping and weighting scheme for unbalanced data, SemEval2014 （2014）

[三浦 14b] 三浦康秀，榊茂之，服部圭悟，大熊智子：語義の曖昧性を考慮した極性判定，言語処理学会第 20 回年次大会，pp. 1107-1110 （2014）

[Morita 13] Morita, M., Kano Y., Ohkuma, T., Miyabe, M. and Aramaki, E.: Overview of the NTCIR-10 MedNLP task, Proc.

NTCIR-10 （2013） [根本 12] 根本啓一，高橋正道，林直樹，堀田竜士：ワールドカフェ型のダイアログにおけるターンテイキング構造と参加者の理解度の関係性の分析，情処学研報告グループウェアとネットワークサービス（GN），2012-GN-84（20），pp. 1-8 （2012） [根本 14a] 根本啓一，高橋正道，林直樹，水谷美由起，堀田竜士，井上明人：ゲーミフィケーションを活用した自発的・持続的行動支援プラットフォームの試作と実践，情処学論，Vol. 55, No. 6, pp. 1600-1613 （2014） [根本 14b] 根本啓一，大西健司，増市博：テキストデータの構造

(7)

化を支援する対話的マイニングシステム，第 28 回人工知能学会全国大会（2014） [大熊 11] 大熊智子，三浦康秀，外池昌嗣，増市博，篠原（山田）恵美子，荒牧英治，大江和彦 : 医薬品の副作用調査を目的とした統合的言語処理システム，言語処理学会第 17 回年次大会 , pp.85-88 （2011） [大熊 12] 大熊智子，小山田由紀，外池昌嗣，三浦康秀，増市博，荒牧英治，篠原恵美子，大江和彦：カルテの文章における副作用表現の分析，言語処理学会第 18 回年次大会，pp. 735-738 （2012） [Okamoto 07] Okamoto, H., Isomura, Y., Takada, M. and Fukai,

T.：Temporal integration by stochastic recurrent network dynamics with bimodal neurons, J. Neurophysiology, Vol. 97, pp. 3859-3867 （2007）

[岡本 08] 岡本洋，坪下幸寛：特許引用ネットワーク分析：企業競争力源泉としての知的財産権の強化に向けて，情処学論，Vol. 49, No. 3, pp. 74-75（2008）

[Okamoto 09] Okamoto, H. and Fukai, T.：Recurrent network models for perfect temporal integration of fluctuating correlated inputs, PLoS Computational Biology, Vol. 5, e1000404 （2009）

[Okamoto 11] Okamoto, H.: Topic-dependent document ranking: Citation network analysis by analogy to memory retrieval in the brain, Lecture Notes in Computer Science, Vol. 6791, pp. 371-378 （2011）

[Okamoto 13a] Okamoto, H.：Local detection of communities by an analogy to memory recall in the brain, Biologically Inspired

Cognitive Architectures, Vol. 6, pp. 12-17 （2013）

[Okamoto 13b] Okamoto, H.: Local Detection of communities by neural-network dynamics, Lecture Notes in Computer Science, Vol. 7223, pp. 50-57 （2013） [尾崎 13] 尾崎良太，織田英人，薄葉亮子，熊澤幸夫，加藤典司，北美紀子，高林晴夫：Cell-HOG 特徴量を用いた顕微鏡画像からの有核赤血球自動検出，精密工学会誌，Vol. 79, No. 11, pp. 1074-1077 （ 2013） [榊 14] 榊茂之，三浦康秀，服部圭悟，坪下幸寛，大熊智子：クラウドソーシングを用いて作成した教師データによる SNS ユーザーのプロフィール判定，言語処理学会第 20 回年次大会，pp. 1091-1094 （2014） [篠原 11a] 篠原（山田）恵美子，三浦康秀，外池昌嗣，大熊智子，増市博，荒牧英治，大江和彦 : 共起・連接頻度グラフに基づいた略語展開語候補生成，言語処理学会第 17 回年次大会 , pp. 733-736 （2011） [篠原 11b] 篠原（山田）恵美子，服部圭悟，三浦康秀，外池昌嗣，大熊智子，増市博，荒牧英治，大江和彦 : 構文パターンに基づく薬剤副作用情報の自動抽出，第 31 回医療情報学連合大会（2011） [Shinohara 13] Shinohara, E., Aramaki, E., Imai, T., Miura,

M., Tonoike, M., Ohkuma, T., Masuichi, H. and Ohe, K.: An easily implemented method for abbreviation expansion for the medical domain in Japanese text: A preliminary study,

Methods of Inf. Medicine 2013, Vol. 52, No. 1, pp. 51-61 （2013） [園田 08] 園田隆志，岡本洋，坪下幸寛：大規模ネットワークからの関連情報抽出：富士ゼロックステクニカルレポート，第 18 号， pp. 88-98 （2008） [杉原 10] 杉原大悟，大熊智子，三浦康秀，外池昌嗣，増市博，山田恵美子，荒牧英治，大江和彦 : 表記ゆれ解消手法を利用した副作用表現の獲得，第 30 回医療情報学連合大会（2010） [杉原 12] 杉原大悟，大熊智子，佐竹功次，三浦康秀，服部圭悟，増市博：営業支援システム内に蓄積されたテキストデータからの課題記述文抽出，信学技報，Vol. 112, No. 196, NLC2012-11, pp. 7-12 （2012） [高橋 13] 高橋正道，三井実，涌井美帆子，堀田竜士 : クラウドソーシング×対話×フィールドワーク─集合知を使った地域活性化策の抽出のトライアル実験─，情報処理学会グループウェ アとネットワークサービスワークショップ 2013 （GN Workshop 2013）論文集，pp. 18-19 （2013）

[Takahashi 14] Takahashi, M., Nemoto, K., Hayashi, N. and Horita, R.: The measurement of dialogue: From a case study of the workshop using world cafe as a collective dialogue method,

J. Inf. Proc., Vol. 22, No. 1, pp. 88-95 （2014）

[谷口 14] 谷口元樹，杉原大悟，三浦康秀，大熊智子：ルールを用いた教師データ自動獲得による競合企業名抽出，言語処理学会第 20 回年次大会，pp. 551-554 （2014） [外池 09] 外池昌嗣，大熊智子，荒牧英治，三浦康秀，増市博，大江和彦：自然言語表現の現病歴情報を時系列表形式で表示するシステムとその評価，第 29 回医療情報学連合大会（2009）

[Tsuboshita 07] Tsuboshita, Y. and Okamoto, H.: Context-dependent retrieval of information by neural-network dynamics with continuous attractors, Neural Networks, Vol. 20, pp. 705-713 （2007）

[Tsuboshita 09] Tsuboshita, Y. and Okamoto, H.: Information extraction by neural-network dynamics with multi-hysteretic neurons, Neural Networks, Vol. 22, pp. 922-930 （2009） [Tsuboshita 12] Tsuboshita, Y., Kato, N. and Okada, M.: Image

annotation using adapted gaussian mixture model, Int. Conf.

on Pattern Recognition, pp. 1346-1350 （2012）

[Viola 01] Viola, P. and Jones, M.: Rapid object detection using a boosted cascade of simple features, IEEE Computer Society

Conf. on Computer Vision and Pattern Recognition, pp. 511-518

（2001） [涌井 14] 涌井美帆子，高橋正道，堀田竜士，青谷実知代：地域共創プロセスの設計と実践─大学生と地域住民によるお土産づくり─，地域活性学会研究論文集「地域活性研究」，Vol. 5, pp. 443-449 （2014） 2014年 7 月 5 日受理

著　者　紹　介

増市　　博（正会員） 1989年京都大学工学部卒業．1991 年同大学院工学研究科修士課程修了．同年，富士ゼロックス株式会社入社．1998 ∼ 2000 年スタンフォード大学 CSLI 訪問研究員および Xerox PARC コンサルタント研究員．現在，富士ゼロックス株式会社研究技術開発本部コミュニケーション技術研究所研究主席．博士（工学）．自然言語処理，知識処理の研究開発に従事．加藤　典司 1987年東京工業大学理学部物理学科卒業．1989 年同大学院理工学研究科物理学専攻修士課程修了．同年，富士ゼロックス株式会社入社．現在，同社研究技術開発本部コミュニケーション技術研究所研究主席．画像認識技術の研究開発に従事．大熊　智子 1994年東京女子大学文理学部日本文学科卒業． 1996年慶應義塾大学政策・メディア研究科修士課程修了．同年，富士ゼロックス株式会社入社．2009 ∼ 13 年東京女子大学非常勤講師．現在，富士ゼロックス株式会社研究技術開発本部コミュニケーション技術研究所研究主査．博士（学術）．自然言語処理の研究開発に従事．大西　健司 1994年法政大学大学院工学研究科システム工学修士課程修了．同年，富士ゼロックス株式会社入社．印刷用電子透かし，ディジタルペン用画像処理などの研究開発を経て，現在データマイニング，機械学習，ユーザインタラクションに基づくデータ分析システム構築の研究に従事．富士ゼロックス研究技術開発本部コミュニケーション技術研究所研究主査．電子情報通信学会会員．小林　健一 1983年東北大学工学部卒業．同年，富士ゼロックス株式会社入社．半導体デバイス，イメージセンサの研究開発，光システム事業開発に従事．ドキュメントコミュニケーションプラットホーム開発プロジェクトリーダーを経て，現在，富士ゼロックス株式会社研究技術開発本部コミュニケーション技術研究所長．

非構造化データを対象とする知的情報処理(<特集>企業におけるAI研究の最前線)

1．は じ め に

2．要 素 技 術

非構造化データを対象とする知的情報処理

Intelligent Information Processing for Unstructured Data

増市 博

加藤 典司

大熊 智子

大西 健司

小林 健一

Keywords:

3．応 用

4．お わ り に

◇ 参 考 文 献 ◇

著 者 紹 介

1．は　じ　め　に

2．要　素　技　術

増市　　博

加藤　典司

大熊　智子

大西　健司

小林　健一

3．応　　　　　用

4．お　わ　り　に

◇　参　考　文　献　◇

著　者　紹　介