• 検索結果がありません。

繧ス繝シ繧キ繝」繝ォ繝薙ャ繧ー繝繧ソICT騾」謳コ繧サ繝ウ繧ソ繝シ

N/A
N/A
Protected

Academic year: 2021

シェア "繧ス繝シ繧キ繝」繝ォ繝薙ャ繧ー繝繧ソICT騾」謳コ繧サ繝ウ繧ソ繝シ"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

3.14.2 ソーシャル ICT 推進研究センター ソーシャルビッグデータ ICT 連携センター

連携センター長(事務取扱)  木俵 豊 ほか 5 名 ソーシャル・ビッグデータのリアルタイム蓄積・解析基盤の開発 【概 要】 ソーシャルビッグデータ ICT 連携センターでは、ソーシャル・ビッグデータのリアルタイム蓄積・解析基 盤の開発を目指し、(1)超高速・頑健自然言語処理技術、(2)高度データマイニング技術、及び(3)大規模情報 統合可視化技術の研究開発を推進している。(1)については、大規模・大流量となるソーシャルメディアストリー ムの解析の際に問題となる、崩れた表現の正規化、新エンティティの検出、ユーザ位置推定に関する研究開発 を実施し、ソーシャルメディアを多様な観点から解析する基盤手法を構築した。(2)については、ソーシャル グラフ等の大規模なグラフデータを効率的に処理可能な分散グラフデータベースエンジン、並びにイベント時 系列から長期間高頻度に発生するパタンを抽出する手法を開発した。(3)については、様々なソーシャル・ビッ グデータ解析から得られる解析結果を 3 次元空間に統合的に可視化するフレームワークの開発を行った。 【平成 26 年度の成果】 (1) 超高速・頑健自然言語処理技術の研究開発 ソーシャルメディアには、実世界で起こった災害、事故、イベント等の情報がリアルタイムに流れるよ うになっており、災害対策、事故・イベント等による状況把握、トレンド解析等、様々に利活用されている。 Twitter を代表とするリアルタイムソーシャルメディアには 1 日に何億件もの投稿があり、その大半はス マートフォン等のモバイル端末からリアルタイムに投稿されており、書かれた内容を高速かつ頑健に処理 可能とする自然言語処理技術が求められている。今年度は、ソーシャルメディアでなされる崩れた日本語 表記に適応する形態素解析手法、及び新しく現れたエンティティの検出、並びにユーザ位置の推定に関す る研究開発を行った。 ソーシャルメディア上に投稿される文章には文法に従わない崩れた表現が多く、そのまま形態素解析を 行うと精度が大きく悪化することが知られている。そこで、東京大学生産技術研究所において整備された 形態素・正規化情報付きのコーパス(辞書)を用い、形態素解析と表記の正規化処理を同時に実行可能とす る新たなモデルを提案し、崩れた文を解析可能とした(図 1)。 ソーシャルメディア解析の際には、新製品の名称等、新たに出現するエンティティを正しく検出するこ とが重要となる。また、投稿の大半には位置の情報が付加されておらず、イベントの発生位置を把握する ことは難しい。ソーシャルメディアに新たに出現するエンティティの検出に関しては、文字列としての表 層的手がかりと、エンティティ出現位置の周辺に現れる文脈の履歴を共に素性として用いた分類器を提案 した。これにより適合率 67%、再現率 78%で新エンティティをリアルタイムに検出することが可能となっ た(図 2 上)。ユーザ位置の推定に関しては、対象とするユーザの過去の投稿から得られる移動予定などの 手がかりを用いることで、都道府県レベルでの位置推定精度を 7%向上することに成功した(図 2 下)。 形態素解析と表記の正規化処理を同時実行する新モデルを提案し ソーシャルメディア上の崩れた文を解析可能とした。 形態素・正規化情報付コーパス ラティス探索に基づく同時処理モデル 図 2 新エンティティ検出及びユーザ位置推定 図 1 崩れた表記に適応する形態素解析手法 119 Title:03-14-02.indd p119 2015/10/07/ 水 22:13:49 3.14 ソーシャル ICT 推進研究センター

(2)

(2) 高度データマイニング技術の研究開発 ソーシャルメディアにおけるユーザ間のつながりを表すソーシャルグラフや、検索・購買ログのような トランザクションデータ等の非テキストデータに関する高度データマイニング技術に関しても研究開発を 行った。グラフデータマイニングに関しては、クラウド環境に適したスケーラブルな分散グラフデータ ベースエンジンの開発を行った(図 3)。ソーシャルグラフ等、多くのグラフデータは次数分布に偏りがあり、 通常の分散グラフデータベースエンジンでは効率的な処理が難しい。提案する GraphSlice 手法は、次数が 大きいノードを効率的に分散処理可能なデータ構造を導入し、著名なオープンソース分散グラフデータベー スの Apache Giraph と比較して 32 倍のスケーラビリティを実現した。トランザクションデータマイニン グに関しては、スケーラブルな長期間高頻度パタンの抽出手法を開発した(図 4)。検索ログのような多種 イベントが発生する時系列データにおいて、短い間隔で長期間継続するトレンドを表すパタンを高速に抽 出する方法を提案し、データ量に対して処理時間がほぼ線形となるスケーラビリティを実現した。 (3) 大規模情報統合可視化技術の研究開発 ソーシャル・ビッグデータとして得られるテキスト・非テキストデータの解析結果を統合的に可視化す るフレームワークに関する研究開発を行った(図 5)。テキストデータ、画像データ、時系列データ等、多 様なデータの解析結果を 3 次元空間を活用して統合的に可視化するもので、様々な 3 次元可視化部品を整 備し、組み合わせることで時系列的な話題(トピック)可視化を実現するフレームワークを提案した。本フ レームワークを用いて、複数のメディアから得られる画像とテキストから構成されるトピックが解析可能 であることを示した。 画像 テキスト 多メディア・リソース 放送映像 字幕情報 ブログデータ アーカイブ 放送映像データ アーカイブ (ii) 時系列画像の3次元可視化システムの基本要素と全体構成 TimeLineコンポーネント ImageHistogramコンポーネント トピック画像群抽出 トピック画像群 トピック付帯情報抽出 トピック付帯情報 (頻度情報、 係り受け情報) 3次元可視化空間 LineChartコンポーネント TimeSliceコンポーネント 時間軸 オナル情報へのセ ピa ピb ピc トピック毎の画像数、 メディア間の先行指数、 メディア間の類似度、等 選択トピック情報

Parallel Coordinate View ダイアログ ピa ピb ・ ・ ・ ルル Thumbnailコンポーネント ピb c b c (i) 多メディア・リソースからの情報抽出 イベントビュー トピック,時間 (1) トピック画像の時系列変化可視化 (2) 複数トピックの比較 (3) メディア間の比較 (4)特徴のある時系列画像の絞り 込み (3) メディア間の比較 (5) 文脈情報の探索 (5) 文脈情報の探索 時系列トピック3次元可視化統合基盤フレームワーク 時系列画像3次元可視化応用事例 3次元可視化コンポーネントの組み合わせで時系列トピック可視化システムを実現する新たな統合可視化基盤フレームワークの提案 図 5 時系列トピック 3 次元可視化統合基盤フレームワーク 購買・検索ログのようなトランザクションDBから短間隔で長期間継続す るパタンを高速に抽出する手法を提案。データ量に対しほぼ線形なス ケーラビリティを実現。 time 1 2 3 4 5 6 7 8 9 10 11 12 13 14 a a a a a a a a b b b b b b b b c c c c c c c d d d d d d e e e e f f f f a Vertex: G,H,I PreSeperators [G ->E] [H null] [I ->H] PostSeperators [H C ->H] Vertex: D,E,F PreSeperators [D D->E] [E E->F] [F F->H] PostSeperators [D C->D] [E C->E] Vertex: A,B,C PreSeperators [A A->B,A->D] [B B->H] [C Post] PostSeperators [A C->A] [B C->B] GraphSlice 多くのグラフデータは次数分布に偏りがあり、通常の分散グラフDBエン ジンでは効率的に処理できない。GraphSliceは次数が大きいノードを効 率的に分散処理可能なデータ構造を導入し、Apache Giraphと比較して 32倍のスケーラビリティを実現した。 高次数頂点を PostSeparator機構を 用いて多サーバで処理 0 50000000 100000000 150000000 200000000 250000000 300000000 Graph size (Edges) 32 128 512 Number of computing nodes in a cluster (Number of machines) Girpah (Apache) GraphSlice (SocialICT) 2.5億辺のグラフをGiraphの 32倍のスケーラビリティで処理 図 4 スケーラブルな長期間高頻度パタン抽出手法 図 3 GraphSlice:スケーラブルな分散グラフ DB Title:03-14-02.indd p120 2015/10/07/ 水 22:13:49 120

活動状況 3.14 ソーシャル ICT 推進研究センター

参照

関連したドキュメント

Desk Navigator グ ループ 通常業務の設定」で記載されているRidoc Desk Navigator V4への登録 方法に加えて新製品「RICOH Desk

17 委員 石原 美千代 北区保健所長 18 委員 菊池 誠樹 健康福祉課長 19 委員 飯窪 英一 健康推進課長 20 委員 岩田 直子 高齢福祉課長

大曲 貴夫 国立国際医療研究センター病院 早川 佳代子 国立国際医療研究センター病院 松永 展明 国立国際医療研究センター病院 伊藤 雄介

 プログラムの内容としては、①各センターからの報 告・組織のあり方 ②被害者支援の原点を考える ③事例 を通して ④最近の法律等 ⑤関係機関との連携

手話言語研究センター講話会.

LUNA 上に図、表、数式などを含んだ問題と回答を LUNA の画面上に同一で表示する機能の必要性 などについての意見があった。そのため、 LUNA

定を締結することが必要である。 3

[r]