1.は じ め に
富士ゼロックス研究技術開発本部コミュニケーション 技術研究所では,計算機による取扱いが難しいテキスト, 画像,動画,音声などの非構造化データを対象としてデー タ分析の研究を行っている.非構造化データを分析の対 象とするためには,まずそれらのデータを構造化する必 要がある.そのため,テキストや画像から所望の情報を 抽出し正規化する,あるいは,自動分類,クラスタリン グする技術の研究を行っている.このように非構造化 データを整理,分類することにより,数値データなどの あらかじめ構造化されているデータと同様に分析の対象 とすることが可能となる. 本稿の 2 章では,非構造化データを構造化するための 要素技術として富士ゼロックスが保有する自然言語処理 技術および画像認識技術の特徴を述べる.また,データ 分析の要素技術として,ネットワーク分析および集合知 活用の研究を紹介する.3 章では,これらの要素技術を 用いた応用研究として,Sales Force Automation(SFA), Voice of Customer(VOC),Social Networking Service (SNS)などの非構造化データを対象とする分析の事例 について概説する.2.要 素 技 術
2・1 自 然 言 語 処 理 § 1 専 門 用 語 抽 出 テキストを構造化するための要素技術として専門用語 抽出をあげることができる.専門用語は文書を代表する キーワードとして用いることができる.例えば,技術文 書であれば,技術領域名や法則名,理論名,手法名など の専門用語を抽出しキーワードとしてデータベースに格 納することで文書の検索や分類を効率的に実施できる. また,医療テキストから病名,薬品名,検査名,手術名 などの専門用語を抽出してデータベースに蓄積すること で疫学調査などのデータ分析が実現できる. 我々は専門用語抽出を,系列ラベリング問題として定 式化し機械学習手法を適用することによって実現してい る.既存の専門用語辞書を利用して大規模な学習データ を自動構築する点が我々の手法の特徴である.[Miura 13a] では,電子カルテテキストから病名を抽出する手 法およびシステムの提案を行っている.本システムは 2013年に行われたNTCIR-10 MedNLPタスクにおいて, 参加システム中 1 位の成績をおさめている [Morita 13]. 以下,専門用語抽出に関連する技術の中で,我々が取 り組んでいる略語展開,事実性判定,正規化の各技術に ついて述べる.非構造化データを対象とする知的情報処理
Intelligent Information Processing for Unstructured Data
増市 博
富士ゼロックス株式会社 研究技術開発本部Hiroshi Masuichi Research & Technology Group, Fuji Xerox Co., Ltd. [email protected]
加藤 典司
(同 上)Noriji Kato [email protected]
大熊 智子
(同 上)Tomoko Ohkuma [email protected]
大西 健司
(同 上)Takeshi Onishi [email protected]
小林 健一
(同 上)Kenichi Kobayashi [email protected]
Keywords:
natural language processing, image recognition, network analysis, collective intelligence, data mining, unstructured data.略語展開 略語は多くの場合複数の正式名称候補をも つ.例えば「CA」は「calcium」,「California」,「cabin attendant」など多くの正式名称候補をもつ.文中の略 語がどの正式名称の省略形であるかは文脈から判断する 必要がある.[Shinohara 13] では,機械学習手法を使っ て文脈から自動的に略語の正式名称を推定するシステム を提案している.本システムでは機械学習に必要な学習 データを自動的に生成することで精度の向上を図ってい る [篠原 11a]. 事実性判定 事実性判定は,抽出された用語が実際に 起こった事実であるかどうかを判定する技術である.例 えば「内部監査は行われていない」,「内部監査は来週行 われる予定である」といった記述中の「内部監査」は実 際には起こった事実ではない.[Aramaki 09] では,事 実性判定の手法を提案している.要約や検索などのア プリケーションでは用語の事実性が重要な情報になる. [外池 09] では,事実性判定結果を用いた要約システム の構築と評価を行った.本研究では,抽出した用語だけ でなくその事実性も併せて要約に表示することで,原文 の内容をより正確に把握できるという効果を評価実験に よって確認している. 正規化 専門用語の抽出結果をデータ分析で利用する ためには,表現の異なる同義語を標準形に統一する正規 化処理が必須である.[杉原 10] は,表記揺れ解消手法 を利用して既存の同義語辞書を効率的に拡張する手法を 提案している. § 2 関 係 抽 出 抽出された専門用語は元々の文脈と切り離されてしま うことで,他の専門用語との関係が失われる.例えば, 「アスピリン」(医薬品)と「頭痛」(病名)の二つの専 門用語が抽出されたとき,下記の(A)では「アスピリン」 の効用として「頭痛」が記述されているのに対し,(B) では「アスピリン」の投与によって引き起こされた副作 用として記述されている. (A)頭痛が強くなったためアスピリンを投与した. (B)アスピリンを投与後,頭痛が強くなったため,投 薬を中止した. [大熊 11] のように電子カルテから副作用の発生件数 を自動集計するシステムでは,副作用と効用を区別す る必要がある.[Miura 10, 大熊 12, 篠原 11b] は,専門 用語間の関係を機械学習あるいは構文パターンルール によって判定する手法を提案している.[三浦 11] では, 二つの専門用語がテキスト中で遠く離れた位置に出現し ている場合でも,構文情報を機械学習の素性として用い ることで高い関係抽出精度を実現している. § 3 評 判 情 報 抽 出 近 年,twitter や facebook な ど の SNS テ キ ス ト か ら商品やブランドに対する印象,意見を抽出してマー ケティングやリスク管理に活用したいというニーズが 高まっている.[Miura 14a] は twitter を対象にして
投稿内容がポジティブかネガティブか中立かを推定 する極性判定システムを提案している.本システムは SemEval2014 Task9における twitter の極性判定コンテ ストで 46 チーム中 1 位の成績をおさめた. [三浦 14b] では極性判定手法に多言語対応辞書である WordNetを利用している.本手法を利用して,今後は 極性判定の多言語化を目指している.[Miura 13b] では, 投稿内容の極性を個別の tweet ごとに判定するのではな く,複数の tweet を対象にしたトピックモデリングを行 い,トピックとそれに対する極性を同時に判定する手法 を提案している.本手法を適用すれば,例えば,ある商 品に対して,価格というトピックに対してはポジティブ であるが品質に対してはネガティブであるなど,極性を より詳細な粒度で特定することが可能となる. これらの評判情報抽出結果をマーケティングの分析に 用いる際には,投稿者の年代,性別,居住地などのプロ ファイル情報が必要になる.[榊 14] は,過去の投稿デー タから twitter ユーザの年齢,性別,居住地域などを自 動的に推定する手法を提案している.本手法では,熟練 した作業者によって作成された正解コーパスとクラウド ソーシングによって不特定多数の作業者が作成した正解 コーパスを統合して学習データを構築することにより高 い推定精度を得ている. 2・2 画 像 認 識 画像から抽出できる情報は,画像中に存在する物体の 名称,種類,数,位置などの属性や,画像全体が表すシー ン,トピックなどの意味情報など多岐にわたる.我々は, 抽出したい情報に応じて物体検出,特定物体認識,画像 アノテーションの各技術の研究開発を行っている.さら に,複数の画像特徴抽出アルゴリズムや認識アルゴリズ ムをモジュール化し,自由に組み合わせることが容易な アーキテクチャを開発することにより,抽出対象に応じ た柔軟なシステム構築を実現している.以下,我々が取 り組んできた画像認識技術を紹介する. § 1 物 体 検 出 物体検出とは,特定の種類の物体を画像中から検出す る技術であり,顔検出が良く知られている.富士ゼロッ クスでも顔検出の黎明期からこの技術に取り組んできた [Ikeda 04, Kato 03, 加藤 05].工業製品の欠陥検査や医 療分野など,画像から特定の物体を目視で探す労働集約 的な作業は数多く存在し,顔以外への対象に物体検出の 適用範囲を広げることが重要であると考えている.物体 検出は AdaBoost 識別器のカスケードを用いる手法がデ ファクトとなっており [Viola 01],これをベースとして 対象物体に適切な特徴量抽出や高速化の研究を行ってい る.例えば [尾崎 13] では多量の顕微鏡画像から 1 億個 に 1 個程度しか存在しない希少細胞を精度良く検出する 技術を実現している.
§ 2 特 定 物 体 認 識 特定物体認識とは,あらかじめ登録された個体と同一 の個体を認識する技術である.物体検出の例が顔検出で あるのに対して,個人認証が特定物体認識技術の例であ る.特定物体認識は,事前に学習することなく登録画像 と同一の個体を認識可能である一方,同じ種類の物体で も登録画像と異なる個体は認識できない.特定物体認識 の利用シーンとして,企業の画像リポジトリの検索機能 や設計図面の版管理支援への応用を考えている.いずれ も高速化が重要であり,独自に高速な局所特徴量抽出技 術を開発している [Liu 09]. § 3 画像アノテーション 物体検出および特定物体認識が画像内の物体に関す る情報を抽出するための技術であるのに対して,画像ア ノテーションは画像全体の意味を特定する技術である. 我々は,画像の意味を表す数十∼数百種類のラベルを対 象画像に自動的に付与する画像アノテーション技術の研 究に取り組んでいる. 我々が画像アノテーションで目指す技術の方向性は, 少量の学習画像で高い認識精度を達成することと,短時 間で処理できる高速性の実現である.前者は,アプリケー ションごとに異なるラベルを学習させる必要があり,多 量の学習画像を入手することは著作権などの理由で多く の場合困難であるからである.後者は,スマートフォン で撮影された写真に対してリアルタイムでラベルを付け るといった幅広い用途を考えた場合に必要な条件である. 画像認識で広く用いられる手法として局所特徴を量子 化し,量子化された特徴のヒストグラムを特徴として用 いる,いわゆる bag of visual words(BOW)[Csurka
04]の手法があるが,多量の学習画像を必要とする.例 えば BOW は画像全体から一つの特徴を生成するため, 同じ物体が写っていても背景が違う画像についてはそれ ぞれの学習画像が必要となる.そこで我々は,画像を複 数の領域に分割し,画像の生成過程を各領域からの確率 生成モデルとして扱う識別方式を導入している.具体的 には各領域の生起確率を独立と仮定しナイーブベイズモ デルとして表現する [Tsuboshita 12].これにより図 1 に示すように,BOW モデルに比べて少ない学習画像で 同等の性能が達成できる. 我々のモデルでは 1 画像当たり約 1 000 個の部分領域 に対して確率密度推定を行う必要がある.そこで領域特 徴の確率モデルとして高速な処理が可能であるランダム フォレスト識別器を導入することにより,1 秒程度の処 理時間での認識を可能としている [Fukui 11]. 2・3 ネットワーク分析 相互の関係が定義されていないデータに対して,2・1 節および 2・2 節で述べた自然言語処理技術や画像認識技 術を用いることにより,データ間にリンクを付与し,デー タ全体をネットワークとして構造化することができる. 例えば,専門用語抽出によって同じ専門用語が抽出され たテキストの間や,画像アノテーション技術によって同 じアノテーションが付与された画像の間にリンクを付与 する.また,文書分類を行うことによって同一のカテゴ リーに分類された文書同士をリンク付けることもでき る.あるいは,文書管理システムから得られるユーザ操 作ログを解析し,同じ人物によって頻繁にアクセスされ た文書の間にリンクを付与することも可能である.我々 はこのようなさまざまな方法でデータ間にリンクを付与 することにより,非構造化データをネットワークとして 構造化している. 本章では,このようにして構築した大規模ネットワー クから,「ユーザ課題」に応じた「コミュニティ」を抽 出する手法,およびコミュニティに属する個々のノード の重要度を計算する手法を概説する.ここで,ユーザ課 題とはユーザが詳しく知りたいトピックであり,コミュ ニティとはユーザ課題に関連する部分ネットワークであ る.本ネットワーク分析は,脳の神経細胞のネットワー クが,ある事象から関連する他の事象を連想想起する 機構をモデルに考案したアルゴリズムに基づくことを 特徴とする [Okamoto 07, Okamoto 09, Tsuboshita 07, Tsuboshita 09]. § 1 コミュニティ抽出 本手法では,ユーザ課題をネットワークの初期活性 で表す.すなわち,初期の時点でユーザが知る知識に対 応するノードに「活性」を与える.例えば文書をノード とするネットワークの場合であれば,ある課題に対して ユーザが初期の時点で知る関連文書に対応するノードに 活性を与える.すると,活性はリンクを伝わってネット ワーク中を伝搬し,初期活性に依存した定常状態に収束 する.この過程は,脳が手掛かりに依存して特定の記憶 を想起する過程を模している.定常状態において活性を 付与されたノード群がユーザ課題に関連する情報を表す と考える.活性伝搬を通じて,リンク関係から不要とみ なされたノードは活性を失って削除される.一方,リン ク関係から必要とみなされたノードは高い活性を得て付 図 1 画像アノテーション性能.
評価コーパスは PASCAL VOC2007 [Everingham 07] を使用.上位 5 ラベルをアノテーション結果とした
加される.このような削除,付加を通じて,ユーザがも つ不完全な知識から,ユーザが本来知るべき知識,すな わちコミュニティを抽出できる [Okamoto 11, Okamoto 13a, Okamoto 13b]. § 2 ノ ー ド 重 要 度 活性伝搬の定常状態において個々のノードが獲得した 活性を,これらのノードのユーザ課題に応じた重要度と 考え,それらの大きさに従ってノードをランク付けする. なお,Google 検索エンジンが利用している PageRank アルゴリズムもネットワーク(WWW)中の活性伝搬に 基づき個々のノード(Web ページ)の重要度を定める. ただし,PageRank アルゴリズムによる重要度はネット ワークの構造から一意に定められ,個別のユーザ課題を 反映しない.一方,脳における手掛かり依存的な記憶想 起の機構を模した我々の方法では,重要度はユーザ課題 に応じて変化するものとして定められる. 我々は,特許審査時に審査官が参照する引用関係に基 づいた特許ネットワークや,文書管理システムのユーザ 操作ログの情報に基づいて構成されるオフィスドキュメ ントネットワークに本手法を適用し,ユーザが知りたい 知識の発見を支援するシステムを構築している [岡本 08, 園田 08].図 2 に特許ネットワークの分析結果例を示す. 図 2 は 2010 年までに公開された特許のうち審査官引用 が付与されたものを対象にした特許ネットワークから二 足歩行ロボットに関するコミュニティを抽出した結果で あり,当該分野を代表する特許群を俯瞰することが可能 である [園田 08]. 2・4 集 合 知 活 用 データ分析では前節までに述べた ICT 領域の技術が重 要な役割を果たすが,「人」の果たす役割も同様に重要 である.データ分析においては,分析の目的や解決すべ き課題が明確でないままに分析を行っても有用な分析結 果が得られることは少ない.分析の目的,解決すべき課 題を定めたうえで適切な分析手法を適用することが必要 である.また,有用な分析結果が得られたとしても,そ れを解釈し実行施策につなげることができなければ,そ の分析結果は意味をもたない.分析の目的や解決すべき 課題を定め,分析結果を実行施策につなげるのは人であ り,ICT 領域の分析技術と人はデータ分析の両輪である. 我々は人間科学的な観点から,効率的に課題を発見 し実行施策につなげるための集合知活用の研究を行って いる.具体的には,ゲーミフィケーションを利用した行 動支援プラットフォーム [根本 14a],クラウドソーシン グによる集合知システム [高橋 13],ワールドカフェ型 対話 [根本 12, Takahashi 14],集合的フィールドワーク [堀田 13, 涌井 14] といった手法および方法論の研究を 行っている.
3.応 用
我々が分析の対象とするデータは,三種のカテゴリー に大別できる.「企業内データ」,「顧客接点データ」,「オー プンデータ」の三種である.企業内データは,企業活動 を通して生み出され企業内に蓄積される,経理,財務, 法務,営業などに関する機密性の高い基幹データであ る.顧客接点データは,VOC データや店舗内の動画デー タのように顧客の言動や行動が起点となって生成される データである.オープンデータは,twitter や facebook などの SNS データや Linked Open Data 関連データの ように,一般に公開され誰もが入手可能なデータである. 以下,3・1 ∼ 3・3 節では,三種のカテゴリーの代表的な 非構造化データである SFA データ,VOC データ,SNS データを対象とした応用研究事例を概説し,3・4 節でカ テゴリーをまたがる横断分析について述べる. 3・1 SFA 分 析 富士ゼロックスは 2012 年から SFA を国内営業部門 に展開し,現在,月に数十万件のペースで全国の営業日 報データを蓄積している.蓄積された営業日報データを 活用することによって顧客満足度を向上させるとともに 営業力を強化することが SFA 導入の狙いの一つである. 我々は,この背景のもと SFA データの活用を目的とし た活動を進めている [谷口 14]. 我々は営業日報に含まれる「顧客課題」を有用な情報 であると考え,営業日報テキストに含まれる顧客の困り 事や要望など顧客が抱える課題に関する記述(課題記述 文)を自動抽出する技術を開発した [杉原 12].本技術は, 2・1 節で述べた専門用語抽出と類似の機械学習手法に基 づく技術である. 我々は課題記述文抽出機能を利用した営業日報検索 システムを構築した.本システムは,営業日報テキスト を対象にしたキーワード検索および訪問した顧客の業種 や規模などの各種属性による検索を行うことが可能であ り,参照したい営業日報を効率良く絞り込むことができ る.抽出された課題記述文は営業日報の要約として表示 され,ユーザはその日報に含まれる重要なエッセンスを 図 2 特許ネットワーク分析結果例即座に把握することができる. 現在は,営業日報検索システムを用いて絞り込まれた 営業日報のテキスト情報と,顧客や商談に関する属性情 報を統合し,営業分析,顧客分析,売上分析など種々の データ分析を行っている. 3・2 VOC 分 析 顧客接点データである VOC は,ホームページやコー ルセンター,保守担当者を介してテキストとして入力さ れ,システムによって自動付与される顧客の属性や背景 情報とともに企業内のデータベースに蓄積されている. VOCには自社商品に対する苦情,クレームや意見,要 望のほか,顧客課題も含まれており,VOC データを分 析して問題解決や再発防止,新商品の企画,開発など, 企業内の多様な業務プロセスへ活用できる. 富士ゼロックスでは,年間数十万件の VOC が入力, 蓄積されており,企画部門,開発部門,生産部門,営業 部門で活用されている.ただし,時々刻々と変化する多 量の VOC を整理分類し,多様な部門で活用できる分析 結果を自動的な処理で得ることは困難であり,現在は各 部門で多大な労力を要して分析を行っている. 我々が開発したデータ分析システム [根本 14b] は, VOCデータを対象とするシステムである.対話的なイ ンタフェースを通して VOC の最適な分類体系を効率良 く発見し,各部門の労力を軽減することを目的としてい る.これらのシステムの支援により,例えば,富士ゼロッ クスが提供する Web サービスに関連する VOC を継続的 に分析することによって過去のトレンドと異なる傾向を 示すサービスカテゴリーの早期発見が可能となり,サー ビスや顧客対応をタイムリーに改善することができた. 3・3 SNS 分 析 SNSには広く個人の意見が投稿されるが,その中に は商品の評判も多く含まれる.その投稿を分析すること で商品に対するリアルタイムで率直な意見を得ることが でき,マーケティングに活用できると考えている.2・1 節でも述べたとおり,我々は投稿がポジティブな意見 かネガティブな意見かの極性を判定し,さらに投稿した ユーザの性別,年齢などのプロファイル情報を推定して いる.これにより商品がどのセグメントに受け入れられ ているかのマーケティング情報を得ることができる. SNS分析におけるプロファイル推定では,自然言語 処理技術と画像認識技術の両者を要素技術として用いて いる.自然言語処理に基づく手法だけでなく,ユーザが 投稿した画像から 2・2 節で述べた画像アノテーション技 術でプロファイルを推定する手法 [Ma 14] を併用してい る点が特徴である. 図 3 は,分析の対象を twitter とし,小売店で売られ ている商品の分析を行った結果の例である.また,図 4 に特定の twitter ユーザが発信した一連のメッセージか らそのユーザのプロファイルを推定した結果の例を示 す.このように SNS の分析によって商品ごとの評判を リアルタイムに知り,さらにプロファイル推定結果から そのセグメント情報を得ることが可能になる. 3・4 横 断 分 析 上記に述べた「企業内データ」,「顧客接点データ」, 「オープンデータ」の三種のカテゴリーにおいて,カテ ゴリーが異なるデータは機密性の違いなどの理由で,多 くの場合物理的論理的に互いに切り離された状態でデー タベースに格納されており,データ間のひも付けもない. したがって,これまでカテゴリーをまたがるデータ分析 は十分行われてこなかった.しかし,このような横断分 析は有用な分析結果を生み出すことが多い.富士ゼロッ クスでは,例えば,顧客先の各コピー機の稼働状況を顧 客の承諾を得たうえで企業内データとして蓄積し分析を 行っているが,稼働状況の変化はわかっても変化の理由 はわからない.一方で,顧客接点データである VOC テ 図 3 tweet から推定された商品の評判情報例 図 4 twitter ユーザのプロファイル推定結果例 アウトドア
キストとひも付けて分析することにより,稼働状況の特 異的な変化の理由を発見することが可能である. また,企業内データである POS データは顧客が商品を 購買する際に得られるデータであり,顧客が購買しなかっ た場合のデータは含まれていない.一方で店舗内のビデ オカメラ映像を分析することで購買に至らなかった顧客 の行動情報(欲しい商品がなかったのか,商品はあった が気に入らなかったのかなど)を得ることが可能である. さらに,顧客接点データとオープンデータの組合せも 重要である.例えば,VOC テキストの多くを占めるク レーム情報から商品の問題点を分析することは可能であ るが,商品の長所を把握することは容易でない.オープ ンデータである SNS データを感情分析することにより 商品の長所を補完することが可能である.このような, カテゴリーをまたがる横断分析からこれまでにない分析 結果を得ることは,我々のデータ分析研究が目指す重要 な方向性の一つである.
4.お わ り に
本稿では,富士ゼロックス研究技術開発本部コミュニ ケーション技術研究所のデータ分析に関連する研究活動 を紹介した.本活動は非構造化データを対象とする点が 特徴であり,非構造化データを構造化するための要素技 術として自然言語処理技術および画像認識技術の研究を 行っている.自然言語処理技術と画像認識技術を利用し てデータをネットワークとして構造化したうえで,ネッ トワーク分析技術を適用し分析を実現する.また,この ような ICT 領域の分析技術が果たす役割と「人」が果 たす役割はデータ分析において同等に重要だと考え,人 間科学的な観点から,分析すべき課題を効率的に発見し, 分析結果を実行施策につなげるための方法論,手法の研 究を行っている.富士ゼロックスでは「企業内データ」, 「顧客接点データ」,「オープンデータ」の三種のカテゴ リーをデータ分析の対象とし,SFA,VOC,SNS など のさまざまな非構造化データと構造化データを合わせて 統合的な分析を実施している. 本文中の登録商標および商標はそれぞれの所有者に帰 属します.◇ 参 考 文 献 ◇
[Aramaki 09] Aramaki, E., Miura, Y., Tonoike, M., Ohkuma, T., Mashuichi, H. and Ohe, K.: TEXT2TABLE: Medical text summarization system based on named entity recognition and modality identification, Proc. Human Language Technology
Conf. and the North American chapter of the Association for Computational Linguistics (HLT-NAACL 2009),Workshop on
BioNLP, pp. 185-192 (2009)
[Csurka 04] Csurka, G., Dance, C. R., Fan, L., Willamowski, J. and Bray, C.: Visual categorization with bags of keypoints,
Workshop on Statistical Learning in Computer Vision, ECCV,
pp. 1-22 (2004)
[Everingham 07] Everingham, M., Gool, L. V., Williams, C. K. I., Winn, J. and Zisserman, A.: The PASCAL Visual Object Classes Challenge 2007 (VOC2007),Results, http://www. p a s c a l - n e t w o r k . o r g / c h a l l e n g e s / V O C / v o c2007/ workshop/index.html
[Fukui 11] Fukui, M., Kato, N. and Qi, W.: Multi-class labeling improved by random forest for automatic image annotation,
IAPR Conf. of Machine Visual Application, pp. 202-205 (2011) [堀田 13] 堀田竜士,涌井美帆子,三井 実,高橋正道:集合的フィー ルドワーク─「群衆の叡智」を活用した地域づくり支援のため の一手法の提案─ , 情報処理学会グループウェアとネットワー クサービスワークショップ 2013 (GN Workshop 2013)論文集, pp. 16-17 (2013)
[Ikeda 04] Ikeda, H., Maeda, M., Kato, N. and Kashimura, H.: Classification of human actions using face and hands detection, 12th Annual ACM Int. Conf. on Multimedia, pp. 484-487 (2004)
[Kato 03] Kato, N., Ikeda, H., Kashimura, H. and Shimizu, M.: Scaling, rotation, and translation invariant image recognition using competing multiple subspaces, Int. Joint Conf. on Neural
Networks, Vol. 2, pp. 1268-1273 (2003)
[加藤 05] 加藤典司,福井基文,鹿志村洋次:XYI 空間における面 特徴を用いた顔認識,信学論(D-Ⅱ),Vol. 88, No. 8, pp. 1634-1642 (2005)
[Liu 09] Liu, Q., Yano, H., Kimber, D., Liao, C. and Wilcox, L.: High accuracy and language independent document retrieval with a fast invariant transform, IEEE Int. Conf. on
Multimedia and Expo, pp. 386-389 (2009)
[Ma 14] Ma, X., Tsuboshita, Y. and Kato, N.: Gender estimation for SNS user profiling using automatic image annotation, Int.
Workshop on Cross-media Analysis for Social Multimedia,
ICME (2014)
[Miura 10] Miura, M., Aramaki, E., Ohkuma, T., Tonoike, M., Sugihara, D., Masuichi, H. and Ohe, K.: Adverse-effect relations extraction from massive clinical records, COLING
2010 Workshop (In cooperation with Info-plosion),2nd Int.
Workshop on NLP Challenges in the Information Explosion Era (NLPIX 2010),pp. 75-83 (2010)
[三浦 11] 三浦康秀,外池昌嗣,大熊智子,増市 博,篠原(山田) 恵美子,荒牧英治,大江和彦:複数文にまたがる関係抽出におけ る構文情報の効果,言語処理学会第 17 回年次大会,pp. 516-519 (2011)
[Miura 13a] Miura, M., Ohkuma, T., Masuichi, H., Yamada, E., Aramaki, E. and Ohe, K.: Incorporating knowledge resources to enhance medical information extraction, IJCNLP2013
1st Workshop on Natural Language Proc. for Medical and Healthcare Fields, pp. 1-6 (2013)
[Miura 13b] Miura, M., Hattori, K., Ohkuma, T. and Masuichi, H.: Topic modeling with sentiment clues and relaxed labeling schema, SAIIP 2013, pp. 6-14 (2013)
[Miura 14a] Miura, M., Hattori, K., Sakaki, S. and Hattori, K.: TeamX: A sentiment analyzer with enhanced lexicon mapping and weighting scheme for unbalanced data, SemEval2014 (2014)
[三浦 14b] 三浦康秀,榊 茂之,服部圭悟,大熊智子:語義の曖昧性 を考慮した極性判定,言語処理学会第 20 回年次大会,pp. 1107-1110 (2014)
[Morita 13] Morita, M., Kano Y., Ohkuma, T., Miyabe, M. and Aramaki, E.: Overview of the NTCIR-10 MedNLP task, Proc.
NTCIR-10 (2013) [根本 12] 根本啓一,高橋正道,林 直樹,堀田竜士:ワールドカフェ 型のダイアログにおけるターンテイキング構造と参加者の理解 度の関係性の分析,情処学研報告グループウェアとネットワー クサービス(GN),2012-GN-84(20),pp. 1-8 (2012) [根本 14a] 根本啓一,高橋正道,林 直樹,水谷美由起,堀田竜士, 井上明人:ゲーミフィケーションを活用した自発的・持続的行 動支援プラットフォームの試作と実践,情処学論,Vol. 55, No. 6, pp. 1600-1613 (2014) [根本 14b] 根本啓一,大西健司,増市 博:テキストデータの構造
化を支援する対話的マイニングシステム,第 28 回人工知能学会 全国大会 (2014) [大熊 11] 大熊智子,三浦康秀,外池昌嗣,増市 博,篠原(山田) 恵美子,荒牧英治,大江和彦 : 医薬品の副作用調査を目的とし た統合的言語処理システム,言語処理学会第 17 回年次大会 , pp.85-88 (2011) [大熊 12] 大熊智子,小山田由紀,外池昌嗣,三浦康秀,増市 博,荒 牧英治,篠原恵美子,大江和彦: カルテの文章における副作用表 現の分析, 言語処理学会第 18 回年次大会,pp. 735-738 (2012) [Okamoto 07] Okamoto, H., Isomura, Y., Takada, M. and Fukai,
T.:Temporal integration by stochastic recurrent network dynamics with bimodal neurons, J. Neurophysiology, Vol. 97, pp. 3859-3867 (2007)
[岡本 08] 岡本 洋,坪下幸寛:特許引用ネットワーク分析:企業 競争力源泉としての知的財産権の強化に向けて,情処学論,Vol. 49, No. 3, pp. 74-75(2008)
[Okamoto 09] Okamoto, H. and Fukai, T.:Recurrent network models for perfect temporal integration of fluctuating correlated inputs, PLoS Computational Biology, Vol. 5, e1000404 (2009)
[Okamoto 11] Okamoto, H.: Topic-dependent document ranking: Citation network analysis by analogy to memory retrieval in the brain, Lecture Notes in Computer Science, Vol. 6791, pp. 371-378 (2011)
[Okamoto 13a] Okamoto, H.:Local detection of communities by an analogy to memory recall in the brain, Biologically Inspired
Cognitive Architectures, Vol. 6, pp. 12-17 (2013)
[Okamoto 13b] Okamoto, H.: Local Detection of communities by neural-network dynamics, Lecture Notes in Computer Science, Vol. 7223, pp. 50-57 (2013) [尾崎 13] 尾崎良太,織田英人,薄葉亮子,熊澤幸夫,加藤典司,北 美紀子,高林晴夫:Cell-HOG 特徴量を用いた顕微鏡画像からの 有核赤血球自動検出,精密工学会誌,Vol. 79, No. 11, pp. 1074-1077 ( 2013) [榊 14] 榊 茂之,三浦康秀,服部圭悟,坪下幸寛,大熊智子:クラ ウドソーシングを用いて作成した教師データによる SNS ユー ザーのプロフィール判定,言語処理学会第 20 回年次大会,pp. 1091-1094 (2014) [篠原 11a] 篠原(山田)恵美子,三浦康秀,外池昌嗣,大熊智子, 増市 博,荒牧英治,大江和彦 : 共起・連接頻度グラフに基づいた 略語展開語候補生成,言語処理学会第 17 回年次大会 , pp. 733-736 (2011) [篠原 11b] 篠原(山田)恵美子,服部圭悟,三浦康秀,外池昌嗣,大 熊智子,増市 博,荒牧英治,大江和彦 : 構文パターンに基づく薬 剤副作用情報の自動抽出,第 31 回医療情報学連合大会 (2011) [Shinohara 13] Shinohara, E., Aramaki, E., Imai, T., Miura,
M., Tonoike, M., Ohkuma, T., Masuichi, H. and Ohe, K.: An easily implemented method for abbreviation expansion for the medical domain in Japanese text: A preliminary study,
Methods of Inf. Medicine 2013, Vol. 52, No. 1, pp. 51-61 (2013) [園田 08] 園田隆志,岡本 洋,坪下幸寛:大規模ネットワークから の関連情報抽出:富士ゼロックステクニカルレポート,第 18 号, pp. 88-98 (2008) [杉原 10] 杉原大悟,大熊智子,三浦康秀,外池昌嗣,増市 博,山 田恵美子,荒牧英治,大江 和彦 : 表記ゆれ解消手法を利用した副 作用表現の獲得,第 30 回医療情報学連合大会 (2010) [杉原 12] 杉原大悟,大熊智子,佐竹功次,三浦康秀,服部圭悟,増 市 博:営業支援システム内に蓄積されたテキストデータからの 課題記述文抽出,信学技報,Vol. 112, No. 196, NLC2012-11, pp. 7-12 (2012) [高橋 13] 高橋正道,三井 実,涌井美帆子,堀田竜士 : クラウド ソーシング×対話×フィールドワーク─集合知を使った地域活 性化策の抽出のトライアル実験─,情報処理学会グループウェ アとネットワークサービスワークショップ 2013 (GN Workshop 2013)論文集,pp. 18-19 (2013)
[Takahashi 14] Takahashi, M., Nemoto, K., Hayashi, N. and Horita, R.: The measurement of dialogue: From a case study of the workshop using world cafe as a collective dialogue method,
J. Inf. Proc., Vol. 22, No. 1, pp. 88-95 (2014)
[谷口 14] 谷口元樹,杉原大悟,三浦康秀,大熊智子:ルールを用 いた教師データ自動獲得による競合企業名抽出,言語処理学会 第 20 回年次大会,pp. 551-554 (2014) [外池 09] 外池昌嗣,大熊智子,荒牧英治,三浦康秀,増市 博,大江和彦: 自然言語表現の現病歴情報を時系列表形式で表示するシステム とその評価,第 29 回医療情報学連合大会 (2009)
[Tsuboshita 07] Tsuboshita, Y. and Okamoto, H.: Context-dependent retrieval of information by neural-network dynamics with continuous attractors, Neural Networks, Vol. 20, pp. 705-713 (2007)
[Tsuboshita 09] Tsuboshita, Y. and Okamoto, H.: Information extraction by neural-network dynamics with multi-hysteretic neurons, Neural Networks, Vol. 22, pp. 922-930 (2009) [Tsuboshita 12] Tsuboshita, Y., Kato, N. and Okada, M.: Image
annotation using adapted gaussian mixture model, Int. Conf.
on Pattern Recognition, pp. 1346-1350 (2012)
[Viola 01] Viola, P. and Jones, M.: Rapid object detection using a boosted cascade of simple features, IEEE Computer Society
Conf. on Computer Vision and Pattern Recognition, pp. 511-518
(2001) [涌井 14] 涌井美帆子,高橋正道,堀田竜士,青谷実知代:地域共創 プロセスの設計と実践─大学生と地域住民によるお土産づくり─, 地域活性学会研究論文集「地域活性研究」,Vol. 5, pp. 443-449 (2014) 2014年 7 月 5 日 受理