• 検索結果がありません。

非構造化データを対象とする知的情報処理(<特集>企業におけるAI研究の最前線)

N/A
N/A
Protected

Academic year: 2021

シェア "非構造化データを対象とする知的情報処理(<特集>企業におけるAI研究の最前線)"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

1.は じ め に

富士ゼロックス研究技術開発本部コミュニケーション 技術研究所では,計算機による取扱いが難しいテキスト, 画像,動画,音声などの非構造化データを対象としてデー タ分析の研究を行っている.非構造化データを分析の対 象とするためには,まずそれらのデータを構造化する必 要がある.そのため,テキストや画像から所望の情報を 抽出し正規化する,あるいは,自動分類,クラスタリン グする技術の研究を行っている.このように非構造化 データを整理,分類することにより,数値データなどの あらかじめ構造化されているデータと同様に分析の対象 とすることが可能となる. 本稿の 2 章では,非構造化データを構造化するための 要素技術として富士ゼロックスが保有する自然言語処理 技術および画像認識技術の特徴を述べる.また,データ 分析の要素技術として,ネットワーク分析および集合知 活用の研究を紹介する.3 章では,これらの要素技術を 用いた応用研究として,Sales Force Automation(SFA), Voice of Customer(VOC),Social Networking Service (SNS)などの非構造化データを対象とする分析の事例 について概説する.

2.要 素 技 術

2・1 自 然 言 語 処 理 § 1 専 門 用 語 抽 出 テキストを構造化するための要素技術として専門用語 抽出をあげることができる.専門用語は文書を代表する キーワードとして用いることができる.例えば,技術文 書であれば,技術領域名や法則名,理論名,手法名など の専門用語を抽出しキーワードとしてデータベースに格 納することで文書の検索や分類を効率的に実施できる. また,医療テキストから病名,薬品名,検査名,手術名 などの専門用語を抽出してデータベースに蓄積すること で疫学調査などのデータ分析が実現できる. 我々は専門用語抽出を,系列ラベリング問題として定 式化し機械学習手法を適用することによって実現してい る.既存の専門用語辞書を利用して大規模な学習データ を自動構築する点が我々の手法の特徴である.[Miura 13a] では,電子カルテテキストから病名を抽出する手 法およびシステムの提案を行っている.本システムは 2013年に行われたNTCIR-10 MedNLPタスクにおいて, 参加システム中 1 位の成績をおさめている [Morita 13]. 以下,専門用語抽出に関連する技術の中で,我々が取 り組んでいる略語展開,事実性判定,正規化の各技術に ついて述べる.

非構造化データを対象とする知的情報処理

Intelligent Information Processing for Unstructured Data

増市  博

富士ゼロックス株式会社 研究技術開発本部

Hiroshi Masuichi Research & Technology Group, Fuji Xerox Co., Ltd. [email protected]

加藤 典司

(同  上)

Noriji Kato [email protected]

大熊 智子

(同  上)

Tomoko Ohkuma [email protected]

大西 健司

(同  上)

Takeshi Onishi [email protected]

小林 健一

(同  上)

Kenichi Kobayashi [email protected]

Keywords:

natural language processing, image recognition, network analysis, collective intelligence, data mining, unstructured data.

(2)

略語展開 略語は多くの場合複数の正式名称候補をも つ.例えば「CA」は「calcium」,「California」,「cabin attendant」など多くの正式名称候補をもつ.文中の略 語がどの正式名称の省略形であるかは文脈から判断する 必要がある.[Shinohara 13] では,機械学習手法を使っ て文脈から自動的に略語の正式名称を推定するシステム を提案している.本システムでは機械学習に必要な学習 データを自動的に生成することで精度の向上を図ってい る [篠原 11a]. 事実性判定 事実性判定は,抽出された用語が実際に 起こった事実であるかどうかを判定する技術である.例 えば「内部監査は行われていない」,「内部監査は来週行 われる予定である」といった記述中の「内部監査」は実 際には起こった事実ではない.[Aramaki 09] では,事 実性判定の手法を提案している.要約や検索などのア プリケーションでは用語の事実性が重要な情報になる. [外池 09] では,事実性判定結果を用いた要約システム の構築と評価を行った.本研究では,抽出した用語だけ でなくその事実性も併せて要約に表示することで,原文 の内容をより正確に把握できるという効果を評価実験に よって確認している. 正規化 専門用語の抽出結果をデータ分析で利用する ためには,表現の異なる同義語を標準形に統一する正規 化処理が必須である.[杉原 10] は,表記揺れ解消手法 を利用して既存の同義語辞書を効率的に拡張する手法を 提案している. § 2 関 係 抽 出 抽出された専門用語は元々の文脈と切り離されてしま うことで,他の専門用語との関係が失われる.例えば, 「アスピリン」(医薬品)と「頭痛」(病名)の二つの専 門用語が抽出されたとき,下記の(A)では「アスピリン」 の効用として「頭痛」が記述されているのに対し,(B) では「アスピリン」の投与によって引き起こされた副作 用として記述されている. (A)頭痛が強くなったためアスピリンを投与した. (B)アスピリンを投与後,頭痛が強くなったため,投 薬を中止した. [大熊 11] のように電子カルテから副作用の発生件数 を自動集計するシステムでは,副作用と効用を区別す る必要がある.[Miura 10, 大熊 12, 篠原 11b] は,専門 用語間の関係を機械学習あるいは構文パターンルール によって判定する手法を提案している.[三浦 11] では, 二つの専門用語がテキスト中で遠く離れた位置に出現し ている場合でも,構文情報を機械学習の素性として用い ることで高い関係抽出精度を実現している. § 3 評 判 情 報 抽 出 近 年,twitter や facebook な ど の SNS テ キ ス ト か ら商品やブランドに対する印象,意見を抽出してマー ケティングやリスク管理に活用したいというニーズが 高まっている.[Miura 14a] は twitter を対象にして

投稿内容がポジティブかネガティブか中立かを推定 する極性判定システムを提案している.本システムは SemEval2014 Task9における twitter の極性判定コンテ ストで 46 チーム中 1 位の成績をおさめた. [三浦 14b] では極性判定手法に多言語対応辞書である WordNetを利用している.本手法を利用して,今後は 極性判定の多言語化を目指している.[Miura 13b] では, 投稿内容の極性を個別の tweet ごとに判定するのではな く,複数の tweet を対象にしたトピックモデリングを行 い,トピックとそれに対する極性を同時に判定する手法 を提案している.本手法を適用すれば,例えば,ある商 品に対して,価格というトピックに対してはポジティブ であるが品質に対してはネガティブであるなど,極性を より詳細な粒度で特定することが可能となる. これらの評判情報抽出結果をマーケティングの分析に 用いる際には,投稿者の年代,性別,居住地などのプロ ファイル情報が必要になる.[榊 14] は,過去の投稿デー タから twitter ユーザの年齢,性別,居住地域などを自 動的に推定する手法を提案している.本手法では,熟練 した作業者によって作成された正解コーパスとクラウド ソーシングによって不特定多数の作業者が作成した正解 コーパスを統合して学習データを構築することにより高 い推定精度を得ている. 2・2 画 像 認 識 画像から抽出できる情報は,画像中に存在する物体の 名称,種類,数,位置などの属性や,画像全体が表すシー ン,トピックなどの意味情報など多岐にわたる.我々は, 抽出したい情報に応じて物体検出,特定物体認識,画像 アノテーションの各技術の研究開発を行っている.さら に,複数の画像特徴抽出アルゴリズムや認識アルゴリズ ムをモジュール化し,自由に組み合わせることが容易な アーキテクチャを開発することにより,抽出対象に応じ た柔軟なシステム構築を実現している.以下,我々が取 り組んできた画像認識技術を紹介する. § 1 物 体 検 出 物体検出とは,特定の種類の物体を画像中から検出す る技術であり,顔検出が良く知られている.富士ゼロッ クスでも顔検出の黎明期からこの技術に取り組んできた [Ikeda 04, Kato 03, 加藤 05].工業製品の欠陥検査や医 療分野など,画像から特定の物体を目視で探す労働集約 的な作業は数多く存在し,顔以外への対象に物体検出の 適用範囲を広げることが重要であると考えている.物体 検出は AdaBoost 識別器のカスケードを用いる手法がデ ファクトとなっており [Viola 01],これをベースとして 対象物体に適切な特徴量抽出や高速化の研究を行ってい る.例えば [尾崎 13] では多量の顕微鏡画像から 1 億個 に 1 個程度しか存在しない希少細胞を精度良く検出する 技術を実現している.

(3)

§ 2 特 定 物 体 認 識 特定物体認識とは,あらかじめ登録された個体と同一 の個体を認識する技術である.物体検出の例が顔検出で あるのに対して,個人認証が特定物体認識技術の例であ る.特定物体認識は,事前に学習することなく登録画像 と同一の個体を認識可能である一方,同じ種類の物体で も登録画像と異なる個体は認識できない.特定物体認識 の利用シーンとして,企業の画像リポジトリの検索機能 や設計図面の版管理支援への応用を考えている.いずれ も高速化が重要であり,独自に高速な局所特徴量抽出技 術を開発している [Liu 09]. § 3 画像アノテーション 物体検出および特定物体認識が画像内の物体に関す る情報を抽出するための技術であるのに対して,画像ア ノテーションは画像全体の意味を特定する技術である. 我々は,画像の意味を表す数十∼数百種類のラベルを対 象画像に自動的に付与する画像アノテーション技術の研 究に取り組んでいる. 我々が画像アノテーションで目指す技術の方向性は, 少量の学習画像で高い認識精度を達成することと,短時 間で処理できる高速性の実現である.前者は,アプリケー ションごとに異なるラベルを学習させる必要があり,多 量の学習画像を入手することは著作権などの理由で多く の場合困難であるからである.後者は,スマートフォン で撮影された写真に対してリアルタイムでラベルを付け るといった幅広い用途を考えた場合に必要な条件である. 画像認識で広く用いられる手法として局所特徴を量子 化し,量子化された特徴のヒストグラムを特徴として用 いる,いわゆる bag of visual words(BOW)[Csurka

04]の手法があるが,多量の学習画像を必要とする.例 えば BOW は画像全体から一つの特徴を生成するため, 同じ物体が写っていても背景が違う画像についてはそれ ぞれの学習画像が必要となる.そこで我々は,画像を複 数の領域に分割し,画像の生成過程を各領域からの確率 生成モデルとして扱う識別方式を導入している.具体的 には各領域の生起確率を独立と仮定しナイーブベイズモ デルとして表現する [Tsuboshita 12].これにより図 1 に示すように,BOW モデルに比べて少ない学習画像で 同等の性能が達成できる. 我々のモデルでは 1 画像当たり約 1 000 個の部分領域 に対して確率密度推定を行う必要がある.そこで領域特 徴の確率モデルとして高速な処理が可能であるランダム フォレスト識別器を導入することにより,1 秒程度の処 理時間での認識を可能としている [Fukui 11]. 2・3 ネットワーク分析 相互の関係が定義されていないデータに対して,2・1 節および 2・2 節で述べた自然言語処理技術や画像認識技 術を用いることにより,データ間にリンクを付与し,デー タ全体をネットワークとして構造化することができる. 例えば,専門用語抽出によって同じ専門用語が抽出され たテキストの間や,画像アノテーション技術によって同 じアノテーションが付与された画像の間にリンクを付与 する.また,文書分類を行うことによって同一のカテゴ リーに分類された文書同士をリンク付けることもでき る.あるいは,文書管理システムから得られるユーザ操 作ログを解析し,同じ人物によって頻繁にアクセスされ た文書の間にリンクを付与することも可能である.我々 はこのようなさまざまな方法でデータ間にリンクを付与 することにより,非構造化データをネットワークとして 構造化している. 本章では,このようにして構築した大規模ネットワー クから,「ユーザ課題」に応じた「コミュニティ」を抽 出する手法,およびコミュニティに属する個々のノード の重要度を計算する手法を概説する.ここで,ユーザ課 題とはユーザが詳しく知りたいトピックであり,コミュ ニティとはユーザ課題に関連する部分ネットワークであ る.本ネットワーク分析は,脳の神経細胞のネットワー クが,ある事象から関連する他の事象を連想想起する 機構をモデルに考案したアルゴリズムに基づくことを 特徴とする [Okamoto 07, Okamoto 09, Tsuboshita 07, Tsuboshita 09]. § 1 コミュニティ抽出 本手法では,ユーザ課題をネットワークの初期活性 で表す.すなわち,初期の時点でユーザが知る知識に対 応するノードに「活性」を与える.例えば文書をノード とするネットワークの場合であれば,ある課題に対して ユーザが初期の時点で知る関連文書に対応するノードに 活性を与える.すると,活性はリンクを伝わってネット ワーク中を伝搬し,初期活性に依存した定常状態に収束 する.この過程は,脳が手掛かりに依存して特定の記憶 を想起する過程を模している.定常状態において活性を 付与されたノード群がユーザ課題に関連する情報を表す と考える.活性伝搬を通じて,リンク関係から不要とみ なされたノードは活性を失って削除される.一方,リン ク関係から必要とみなされたノードは高い活性を得て付 図 1 画像アノテーション性能.

評価コーパスは PASCAL VOC2007 [Everingham 07] を使用.上位 5 ラベルをアノテーション結果とした

(4)

加される.このような削除,付加を通じて,ユーザがも つ不完全な知識から,ユーザが本来知るべき知識,すな わちコミュニティを抽出できる [Okamoto 11, Okamoto 13a, Okamoto 13b]. § 2 ノ ー ド 重 要 度 活性伝搬の定常状態において個々のノードが獲得した 活性を,これらのノードのユーザ課題に応じた重要度と 考え,それらの大きさに従ってノードをランク付けする. なお,Google 検索エンジンが利用している PageRank アルゴリズムもネットワーク(WWW)中の活性伝搬に 基づき個々のノード(Web ページ)の重要度を定める. ただし,PageRank アルゴリズムによる重要度はネット ワークの構造から一意に定められ,個別のユーザ課題を 反映しない.一方,脳における手掛かり依存的な記憶想 起の機構を模した我々の方法では,重要度はユーザ課題 に応じて変化するものとして定められる. 我々は,特許審査時に審査官が参照する引用関係に基 づいた特許ネットワークや,文書管理システムのユーザ 操作ログの情報に基づいて構成されるオフィスドキュメ ントネットワークに本手法を適用し,ユーザが知りたい 知識の発見を支援するシステムを構築している [岡本 08, 園田 08].図 2 に特許ネットワークの分析結果例を示す. 図 2 は 2010 年までに公開された特許のうち審査官引用 が付与されたものを対象にした特許ネットワークから二 足歩行ロボットに関するコミュニティを抽出した結果で あり,当該分野を代表する特許群を俯瞰することが可能 である [園田 08]. 2・4 集 合 知 活 用 データ分析では前節までに述べた ICT 領域の技術が重 要な役割を果たすが,「人」の果たす役割も同様に重要 である.データ分析においては,分析の目的や解決すべ き課題が明確でないままに分析を行っても有用な分析結 果が得られることは少ない.分析の目的,解決すべき課 題を定めたうえで適切な分析手法を適用することが必要 である.また,有用な分析結果が得られたとしても,そ れを解釈し実行施策につなげることができなければ,そ の分析結果は意味をもたない.分析の目的や解決すべき 課題を定め,分析結果を実行施策につなげるのは人であ り,ICT 領域の分析技術と人はデータ分析の両輪である. 我々は人間科学的な観点から,効率的に課題を発見 し実行施策につなげるための集合知活用の研究を行って いる.具体的には,ゲーミフィケーションを利用した行 動支援プラットフォーム [根本 14a],クラウドソーシン グによる集合知システム [高橋 13],ワールドカフェ型 対話 [根本 12, Takahashi 14],集合的フィールドワーク [堀田 13, 涌井 14] といった手法および方法論の研究を 行っている.

3.応     用

我々が分析の対象とするデータは,三種のカテゴリー に大別できる.「企業内データ」,「顧客接点データ」,「オー プンデータ」の三種である.企業内データは,企業活動 を通して生み出され企業内に蓄積される,経理,財務, 法務,営業などに関する機密性の高い基幹データであ る.顧客接点データは,VOC データや店舗内の動画デー タのように顧客の言動や行動が起点となって生成される データである.オープンデータは,twitter や facebook などの SNS データや Linked Open Data 関連データの ように,一般に公開され誰もが入手可能なデータである. 以下,3・1 ∼ 3・3 節では,三種のカテゴリーの代表的な 非構造化データである SFA データ,VOC データ,SNS データを対象とした応用研究事例を概説し,3・4 節でカ テゴリーをまたがる横断分析について述べる. 3・1 SFA 分  析 富士ゼロックスは 2012 年から SFA を国内営業部門 に展開し,現在,月に数十万件のペースで全国の営業日 報データを蓄積している.蓄積された営業日報データを 活用することによって顧客満足度を向上させるとともに 営業力を強化することが SFA 導入の狙いの一つである. 我々は,この背景のもと SFA データの活用を目的とし た活動を進めている [谷口 14]. 我々は営業日報に含まれる「顧客課題」を有用な情報 であると考え,営業日報テキストに含まれる顧客の困り 事や要望など顧客が抱える課題に関する記述(課題記述 文)を自動抽出する技術を開発した [杉原 12].本技術は, 2・1 節で述べた専門用語抽出と類似の機械学習手法に基 づく技術である. 我々は課題記述文抽出機能を利用した営業日報検索 システムを構築した.本システムは,営業日報テキスト を対象にしたキーワード検索および訪問した顧客の業種 や規模などの各種属性による検索を行うことが可能であ り,参照したい営業日報を効率良く絞り込むことができ る.抽出された課題記述文は営業日報の要約として表示 され,ユーザはその日報に含まれる重要なエッセンスを 図 2 特許ネットワーク分析結果例

(5)

即座に把握することができる. 現在は,営業日報検索システムを用いて絞り込まれた 営業日報のテキスト情報と,顧客や商談に関する属性情 報を統合し,営業分析,顧客分析,売上分析など種々の データ分析を行っている. 3・2 VOC 分  析 顧客接点データである VOC は,ホームページやコー ルセンター,保守担当者を介してテキストとして入力さ れ,システムによって自動付与される顧客の属性や背景 情報とともに企業内のデータベースに蓄積されている. VOCには自社商品に対する苦情,クレームや意見,要 望のほか,顧客課題も含まれており,VOC データを分 析して問題解決や再発防止,新商品の企画,開発など, 企業内の多様な業務プロセスへ活用できる. 富士ゼロックスでは,年間数十万件の VOC が入力, 蓄積されており,企画部門,開発部門,生産部門,営業 部門で活用されている.ただし,時々刻々と変化する多 量の VOC を整理分類し,多様な部門で活用できる分析 結果を自動的な処理で得ることは困難であり,現在は各 部門で多大な労力を要して分析を行っている. 我々が開発したデータ分析システム [根本 14b] は, VOCデータを対象とするシステムである.対話的なイ ンタフェースを通して VOC の最適な分類体系を効率良 く発見し,各部門の労力を軽減することを目的としてい る.これらのシステムの支援により,例えば,富士ゼロッ クスが提供する Web サービスに関連する VOC を継続的 に分析することによって過去のトレンドと異なる傾向を 示すサービスカテゴリーの早期発見が可能となり,サー ビスや顧客対応をタイムリーに改善することができた. 3・3 SNS 分  析 SNSには広く個人の意見が投稿されるが,その中に は商品の評判も多く含まれる.その投稿を分析すること で商品に対するリアルタイムで率直な意見を得ることが でき,マーケティングに活用できると考えている.2・1 節でも述べたとおり,我々は投稿がポジティブな意見 かネガティブな意見かの極性を判定し,さらに投稿した ユーザの性別,年齢などのプロファイル情報を推定して いる.これにより商品がどのセグメントに受け入れられ ているかのマーケティング情報を得ることができる. SNS分析におけるプロファイル推定では,自然言語 処理技術と画像認識技術の両者を要素技術として用いて いる.自然言語処理に基づく手法だけでなく,ユーザが 投稿した画像から 2・2 節で述べた画像アノテーション技 術でプロファイルを推定する手法 [Ma 14] を併用してい る点が特徴である. 図 3 は,分析の対象を twitter とし,小売店で売られ ている商品の分析を行った結果の例である.また,図 4 に特定の twitter ユーザが発信した一連のメッセージか らそのユーザのプロファイルを推定した結果の例を示 す.このように SNS の分析によって商品ごとの評判を リアルタイムに知り,さらにプロファイル推定結果から そのセグメント情報を得ることが可能になる. 3・4 横 断 分 析 上記に述べた「企業内データ」,「顧客接点データ」, 「オープンデータ」の三種のカテゴリーにおいて,カテ ゴリーが異なるデータは機密性の違いなどの理由で,多 くの場合物理的論理的に互いに切り離された状態でデー タベースに格納されており,データ間のひも付けもない. したがって,これまでカテゴリーをまたがるデータ分析 は十分行われてこなかった.しかし,このような横断分 析は有用な分析結果を生み出すことが多い.富士ゼロッ クスでは,例えば,顧客先の各コピー機の稼働状況を顧 客の承諾を得たうえで企業内データとして蓄積し分析を 行っているが,稼働状況の変化はわかっても変化の理由 はわからない.一方で,顧客接点データである VOC テ 図 3 tweet から推定された商品の評判情報例 図 4 twitter ユーザのプロファイル推定結果例 アウトドア

(6)

キストとひも付けて分析することにより,稼働状況の特 異的な変化の理由を発見することが可能である. また,企業内データである POS データは顧客が商品を 購買する際に得られるデータであり,顧客が購買しなかっ た場合のデータは含まれていない.一方で店舗内のビデ オカメラ映像を分析することで購買に至らなかった顧客 の行動情報(欲しい商品がなかったのか,商品はあった が気に入らなかったのかなど)を得ることが可能である. さらに,顧客接点データとオープンデータの組合せも 重要である.例えば,VOC テキストの多くを占めるク レーム情報から商品の問題点を分析することは可能であ るが,商品の長所を把握することは容易でない.オープ ンデータである SNS データを感情分析することにより 商品の長所を補完することが可能である.このような, カテゴリーをまたがる横断分析からこれまでにない分析 結果を得ることは,我々のデータ分析研究が目指す重要 な方向性の一つである.

4.お わ り に

本稿では,富士ゼロックス研究技術開発本部コミュニ ケーション技術研究所のデータ分析に関連する研究活動 を紹介した.本活動は非構造化データを対象とする点が 特徴であり,非構造化データを構造化するための要素技 術として自然言語処理技術および画像認識技術の研究を 行っている.自然言語処理技術と画像認識技術を利用し てデータをネットワークとして構造化したうえで,ネッ トワーク分析技術を適用し分析を実現する.また,この ような ICT 領域の分析技術が果たす役割と「人」が果 たす役割はデータ分析において同等に重要だと考え,人 間科学的な観点から,分析すべき課題を効率的に発見し, 分析結果を実行施策につなげるための方法論,手法の研 究を行っている.富士ゼロックスでは「企業内データ」, 「顧客接点データ」,「オープンデータ」の三種のカテゴ リーをデータ分析の対象とし,SFA,VOC,SNS など のさまざまな非構造化データと構造化データを合わせて 統合的な分析を実施している. 本文中の登録商標および商標はそれぞれの所有者に帰 属します.

◇ 参 考 文 献 ◇

[Aramaki 09] Aramaki, E., Miura, Y., Tonoike, M., Ohkuma, T., Mashuichi, H. and Ohe, K.: TEXT2TABLE: Medical text summarization system based on named entity recognition and modality identification, Proc. Human Language Technology

Conf. and the North American chapter of the Association for Computational Linguistics (HLT-NAACL 2009),Workshop on

BioNLP, pp. 185-192 (2009)

[Csurka 04] Csurka, G., Dance, C. R., Fan, L., Willamowski, J. and Bray, C.: Visual categorization with bags of keypoints,

Workshop on Statistical Learning in Computer Vision, ECCV,

pp. 1-22 (2004)

[Everingham 07] Everingham, M., Gool, L. V., Williams, C. K. I., Winn, J. and Zisserman, A.: The PASCAL Visual Object Classes Challenge 2007 (VOC2007),Results, http://www. p a s c a l - n e t w o r k . o r g / c h a l l e n g e s / V O C / v o c2007/ workshop/index.html

[Fukui 11] Fukui, M., Kato, N. and Qi, W.: Multi-class labeling improved by random forest for automatic image annotation,

IAPR Conf. of Machine Visual Application, pp. 202-205 (2011) [堀田 13] 堀田竜士,涌井美帆子,三井 実,高橋正道:集合的フィー ルドワーク─「群衆の叡智」を活用した地域づくり支援のため の一手法の提案─ , 情報処理学会グループウェアとネットワー クサービスワークショップ 2013 (GN Workshop 2013)論文集, pp. 16-17 (2013)

[Ikeda 04] Ikeda, H., Maeda, M., Kato, N. and Kashimura, H.: Classification of human actions using face and hands detection, 12th Annual ACM Int. Conf. on Multimedia, pp. 484-487 (2004)

[Kato 03] Kato, N., Ikeda, H., Kashimura, H. and Shimizu, M.: Scaling, rotation, and translation invariant image recognition using competing multiple subspaces, Int. Joint Conf. on Neural

Networks, Vol. 2, pp. 1268-1273 (2003)

[加藤 05] 加藤典司,福井基文,鹿志村洋次:XYI 空間における面 特徴を用いた顔認識,信学論(D-Ⅱ),Vol. 88, No. 8, pp. 1634-1642 (2005)

[Liu 09] Liu, Q., Yano, H., Kimber, D., Liao, C. and Wilcox, L.: High accuracy and language independent document retrieval with a fast invariant transform, IEEE Int. Conf. on

Multimedia and Expo, pp. 386-389 (2009)

[Ma 14] Ma, X., Tsuboshita, Y. and Kato, N.: Gender estimation for SNS user profiling using automatic image annotation, Int.

Workshop on Cross-media Analysis for Social Multimedia,

ICME (2014)

[Miura 10] Miura, M., Aramaki, E., Ohkuma, T., Tonoike, M., Sugihara, D., Masuichi, H. and Ohe, K.: Adverse-effect relations extraction from massive clinical records, COLING

2010 Workshop (In cooperation with Info-plosion),2nd Int.

Workshop on NLP Challenges in the Information Explosion Era (NLPIX 2010),pp. 75-83 (2010)

[三浦 11] 三浦康秀,外池昌嗣,大熊智子,増市 博,篠原(山田) 恵美子,荒牧英治,大江和彦:複数文にまたがる関係抽出におけ る構文情報の効果,言語処理学会第 17 回年次大会,pp. 516-519 (2011)

[Miura 13a] Miura, M., Ohkuma, T., Masuichi, H., Yamada, E., Aramaki, E. and Ohe, K.: Incorporating knowledge resources to enhance medical information extraction, IJCNLP2013

1st Workshop on Natural Language Proc. for Medical and Healthcare Fields, pp. 1-6 (2013)

[Miura 13b] Miura, M., Hattori, K., Ohkuma, T. and Masuichi, H.: Topic modeling with sentiment clues and relaxed labeling schema, SAIIP 2013, pp. 6-14 (2013)

[Miura 14a] Miura, M., Hattori, K., Sakaki, S. and Hattori, K.: TeamX: A sentiment analyzer with enhanced lexicon mapping and weighting scheme for unbalanced data, SemEval2014 (2014)

[三浦 14b] 三浦康秀,榊 茂之,服部圭悟,大熊智子:語義の曖昧性 を考慮した極性判定,言語処理学会第 20 回年次大会,pp. 1107-1110 (2014)

[Morita 13] Morita, M., Kano Y., Ohkuma, T., Miyabe, M. and Aramaki, E.: Overview of the NTCIR-10 MedNLP task, Proc.

NTCIR-10 (2013) [根本 12] 根本啓一,高橋正道,林 直樹,堀田竜士:ワールドカフェ 型のダイアログにおけるターンテイキング構造と参加者の理解 度の関係性の分析,情処学研報告グループウェアとネットワー クサービス(GN),2012-GN-84(20),pp. 1-8 (2012) [根本 14a] 根本啓一,高橋正道,林 直樹,水谷美由起,堀田竜士, 井上明人:ゲーミフィケーションを活用した自発的・持続的行 動支援プラットフォームの試作と実践,情処学論,Vol. 55, No. 6, pp. 1600-1613 (2014) [根本 14b] 根本啓一,大西健司,増市 博:テキストデータの構造

(7)

化を支援する対話的マイニングシステム,第 28 回人工知能学会 全国大会 (2014) [大熊 11] 大熊智子,三浦康秀,外池昌嗣,増市 博,篠原(山田) 恵美子,荒牧英治,大江和彦 : 医薬品の副作用調査を目的とし た統合的言語処理システム,言語処理学会第 17 回年次大会 , pp.85-88 (2011) [大熊 12] 大熊智子,小山田由紀,外池昌嗣,三浦康秀,増市 博,荒 牧英治,篠原恵美子,大江和彦: カルテの文章における副作用表 現の分析, 言語処理学会第 18 回年次大会,pp. 735-738 (2012) [Okamoto 07] Okamoto, H., Isomura, Y., Takada, M. and Fukai,

T.:Temporal integration by stochastic recurrent network dynamics with bimodal neurons, J. Neurophysiology, Vol. 97, pp. 3859-3867 (2007)

[岡本 08] 岡本 洋,坪下幸寛:特許引用ネットワーク分析:企業 競争力源泉としての知的財産権の強化に向けて,情処学論,Vol. 49, No. 3, pp. 74-75(2008)

[Okamoto 09] Okamoto, H. and Fukai, T.:Recurrent network models for perfect temporal integration of fluctuating correlated inputs, PLoS Computational Biology, Vol. 5, e1000404 (2009)

[Okamoto 11] Okamoto, H.: Topic-dependent document ranking: Citation network analysis by analogy to memory retrieval in the brain, Lecture Notes in Computer Science, Vol. 6791, pp. 371-378 (2011)

[Okamoto 13a] Okamoto, H.:Local detection of communities by an analogy to memory recall in the brain, Biologically Inspired

Cognitive Architectures, Vol. 6, pp. 12-17 (2013)

[Okamoto 13b] Okamoto, H.: Local Detection of communities by neural-network dynamics, Lecture Notes in Computer Science, Vol. 7223, pp. 50-57 (2013) [尾崎 13] 尾崎良太,織田英人,薄葉亮子,熊澤幸夫,加藤典司,北 美紀子,高林晴夫:Cell-HOG 特徴量を用いた顕微鏡画像からの 有核赤血球自動検出,精密工学会誌,Vol. 79, No. 11, pp. 1074-1077 ( 2013) [榊 14] 榊 茂之,三浦康秀,服部圭悟,坪下幸寛,大熊智子:クラ ウドソーシングを用いて作成した教師データによる SNS ユー ザーのプロフィール判定,言語処理学会第 20 回年次大会,pp. 1091-1094 (2014) [篠原 11a] 篠原(山田)恵美子,三浦康秀,外池昌嗣,大熊智子, 増市 博,荒牧英治,大江和彦 : 共起・連接頻度グラフに基づいた 略語展開語候補生成,言語処理学会第 17 回年次大会 , pp. 733-736 (2011) [篠原 11b] 篠原(山田)恵美子,服部圭悟,三浦康秀,外池昌嗣,大 熊智子,増市 博,荒牧英治,大江和彦 : 構文パターンに基づく薬 剤副作用情報の自動抽出,第 31 回医療情報学連合大会 (2011) [Shinohara 13] Shinohara, E., Aramaki, E., Imai, T., Miura,

M., Tonoike, M., Ohkuma, T., Masuichi, H. and Ohe, K.: An easily implemented method for abbreviation expansion for the medical domain in Japanese text: A preliminary study,

Methods of Inf. Medicine 2013, Vol. 52, No. 1, pp. 51-61 (2013) [園田 08] 園田隆志,岡本 洋,坪下幸寛:大規模ネットワークから の関連情報抽出:富士ゼロックステクニカルレポート,第 18 号, pp. 88-98 (2008) [杉原 10] 杉原大悟,大熊智子,三浦康秀,外池昌嗣,増市 博,山 田恵美子,荒牧英治,大江 和彦 : 表記ゆれ解消手法を利用した副 作用表現の獲得,第 30 回医療情報学連合大会 (2010) [杉原 12] 杉原大悟,大熊智子,佐竹功次,三浦康秀,服部圭悟,増 市 博:営業支援システム内に蓄積されたテキストデータからの 課題記述文抽出,信学技報,Vol. 112, No. 196, NLC2012-11, pp. 7-12 (2012) [高橋 13] 高橋正道,三井 実,涌井美帆子,堀田竜士 : クラウド ソーシング×対話×フィールドワーク─集合知を使った地域活 性化策の抽出のトライアル実験─,情報処理学会グループウェ アとネットワークサービスワークショップ 2013 (GN Workshop 2013)論文集,pp. 18-19 (2013)

[Takahashi 14] Takahashi, M., Nemoto, K., Hayashi, N. and Horita, R.: The measurement of dialogue: From a case study of the workshop using world cafe as a collective dialogue method,

J. Inf. Proc., Vol. 22, No. 1, pp. 88-95 (2014)

[谷口 14] 谷口元樹,杉原大悟,三浦康秀,大熊智子:ルールを用 いた教師データ自動獲得による競合企業名抽出,言語処理学会 第 20 回年次大会,pp. 551-554 (2014) [外池 09] 外池昌嗣,大熊智子,荒牧英治,三浦康秀,増市 博,大江和彦: 自然言語表現の現病歴情報を時系列表形式で表示するシステム とその評価,第 29 回医療情報学連合大会 (2009)

[Tsuboshita 07] Tsuboshita, Y. and Okamoto, H.: Context-dependent retrieval of information by neural-network dynamics with continuous attractors, Neural Networks, Vol. 20, pp. 705-713 (2007)

[Tsuboshita 09] Tsuboshita, Y. and Okamoto, H.: Information extraction by neural-network dynamics with multi-hysteretic neurons, Neural Networks, Vol. 22, pp. 922-930 (2009) [Tsuboshita 12] Tsuboshita, Y., Kato, N. and Okada, M.: Image

annotation using adapted gaussian mixture model, Int. Conf.

on Pattern Recognition, pp. 1346-1350 (2012)

[Viola 01] Viola, P. and Jones, M.: Rapid object detection using a boosted cascade of simple features, IEEE Computer Society

Conf. on Computer Vision and Pattern Recognition, pp. 511-518

(2001) [涌井 14] 涌井美帆子,高橋正道,堀田竜士,青谷実知代:地域共創 プロセスの設計と実践─大学生と地域住民によるお土産づくり─, 地域活性学会研究論文集「地域活性研究」,Vol. 5, pp. 443-449 (2014) 2014年 7 月 5 日 受理

著 者 紹 介

増市  博(正会員) 1989年京都大学工学部卒業.1991 年同大学院工学 研究科修士課程修了.同年,富士ゼロックス株式会 社入社.1998 ∼ 2000 年スタンフォード大学 CSLI 訪問研究員および Xerox PARC コンサルタント研究 員.現在,富士ゼロックス株式会社研究技術開発本 部コミュニケーション技術研究所研究主席.博士(工 学).自然言語処理,知識処理の研究開発に従事. 加藤 典司 1987年東京工業大学理学部物理学科卒業.1989 年 同大学院理工学研究科物理学専攻修士課程修了.同 年,富士ゼロックス株式会社入社.現在,同社研究 技術開発本部コミュニケーション技術研究所研究主 席.画像認識技術の研究開発に従事. 大熊 智子 1994年 東 京 女 子 大 学 文 理 学 部 日 本 文 学 科 卒 業. 1996年慶應義塾大学政策・メディア研究科修士課 程修了.同年,富士ゼロックス株式会社入社.2009 ∼ 13 年東京女子大学非常勤講師.現在,富士ゼロッ クス株式会社研究技術開発本部コミュニケーション 技術研究所研究主査.博士(学術).自然言語処理 の研究開発に従事. 大西 健司 1994年法政大学大学院工学研究科システム工学修士 課程修了.同年,富士ゼロックス株式会社入社.印 刷用電子透かし,ディジタルペン用画像処理などの 研究開発を経て,現在データマイニング,機械学習, ユーザインタラクションに基づくデータ分析システ ム構築の研究に従事.富士ゼロックス研究技術開発 本部コミュニケーション技術研究所研究主査.電子 情報通信学会会員. 小林 健一 1983年東北大学工学部卒業.同年,富士ゼロックス 株式会社入社.半導体デバイス,イメージセンサの研 究開発,光システム事業開発に従事.ドキュメントコ ミュニケーションプラットホーム開発プロジェクト リーダーを経て,現在,富士ゼロックス株式会社研究 技術開発本部コミュニケーション技術研究所長.

参照

関連したドキュメント

第五章 研究手法 第一節 初期仮説まとめ 本節では、第四章で導出してきた初期仮説のまとめを行う。

研究開発活動  は  ︑企業︵企業に所属する研究所  も  含む︶だけでなく︑各種の専門研究機関や大学  等においても実施 

キュリティ強化を前提に、加盟店におけるカード番号非保持化を徹底し、特

It is inappropriate to evaluate activities for establishment of industrial property rights in small and medium  enterprises (SMEs)

機械物理研究室では,光などの自然現象を 活用した高速・知的情報処理の創成を目指 した研究に取り組んでいます。応用物理学 会の「光

 しかし,李らは,「高業績をつくる優秀な従業員の離職問題が『職能給』制

製造業種における Operational Technology(OT)領域の Digital

(注)