• 検索結果がありません。

PDFファイル 1H4NFC01a 近未来チャレンジセッション「NFC (サバイバル) Total Environment for Text Data Mining 」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 1H4NFC01a 近未来チャレンジセッション「NFC (サバイバル) Total Environment for Text Data Mining 」"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

1H4-NFC-01a-2

PubAnnotation -

テキスト 注釈リ ポジト リ

PubAnnotation - Text Annotation Repository

金 進東

∗1 Jin-Dong Kim

∗1

情報・ システム 研究機構

/

ラ イ フ サイ エン ス統合データ ベースセン タ ー

Rsearch Organization of Information and Systems / Database Center for Life Science

Text annotation is expensive but indispensable for development of text mining technology. While there are a few projects developing text annotation data, their reusability is becoming more and more a serious issue. PubAnno-tation is developed to address the reusability issue. Developed primarily as an annoPubAnno-tation storage system that can easily scale to tera-bytes, PubAnnotation features, among others, text alignment, which enables comparative and integrative use of text annotation. Together with its satellite tools, including PubDictionaries and TextAE, it also serves as a platform of crowd-sourcing annotation.

1.

はじ めに

テキスト マイ ニン グ(text mining)に関する 研究開発におい ては、 人がテキスト を 読むさ いに取得すべき 情報を 、 機械が抽 出し やすいよ う に構造化さ れた形でテキスト に追加する 作業が 行われて おり 、 テキ ス ト 注釈(text annotation)と 呼ばれる 。 テキスト 注釈データ (注釈付き コ ーパス)は手動ある いは自動 で作ら れる が、 自動でテキスト 注釈(以下、 自動注釈)を 高精 度で行う こ と ができ れば、 テキスト マイ ニン グの性能向上が期 待さ れる 。 手動で作ら れた注釈データ は一般的に品質が高く 、 ベン チマ ーク (benchmark)用のデータ と し て 自動注釈の性能 を 測る ため使われたり 、 自動注釈のモデルと し て活用さ れたり と 重要な資源である 。 し かし 、 高品質のテキスト 注釈データ は 生産コ スト が高いこ と から 、 既存データ を 再利用する こ と が期 待さ れる 。

世界的に テキ ス ト 注釈データ を 構築する プロ ジェ ク ト は多 数あ り 、 成果は貴重な 資源と し て 広く 活用さ れて いる 。 し か し 、 注釈データ は各プロ ジェク ト 独自のやり 方で作ら れ、 形式

(format)やテキ ス ト 前処理(pre-processing)方法等がばら ば ら になっ てし ま い互換性が一般的に低く 、 再利用を 困難にする 大き な原因になっ て いる 。 こ れら のテキスト データ を 統一し 、 標準的な手順でアク セスでき る よ う にする こ と でデータ の再利 用性が高ま る と 期待さ れる 。

こ のよ う な状況を 踏ま え、 テキスト 注釈の統合的な管理のた めのス ト ーリ ッ ジシス テム (storage system)と し て PubAn-notationを 開発し た。 本論文では注釈レ ポジト リ (repository)

と ク ラ ウ ド ソ ーシングプラッ ト フォーム(crowd-sourcing plat-form)と し て のPubAnnotationの機能に関し て 紹介する 。

2.

PubAnnotation

2.1

注釈レ ポジト リ

PubAnnotationは標準化さ れたテキスト 注釈データ のレ ポ ジト リ と し て機能でき る よ う 開発し ている 。 そのため複数の研 究グループも し く は個人によ っ て作ら れた様々 な注釈データ に 対応する 必要がある 。 そのため、 以下の機能を 実装し た。

連 絡 先: 金 進 東 , ラ イ フ サ イ エ ン ス 統 合 デ ー タ ベ ー ス セ ン タ ー, 千葉県柏市若柴178-4-4, Tel:04-7135-5508,

Fax:04-7135-5534, e-mail:[email protected]

◦テキ ス ト ア ラ イ メ ン ト: 異な る グループやユーザが作成し

た注釈データ を 集める と 、 そ の中に は同一のテキ ス ト に 付け ら れた 注釈も あ る 。 し かし 、 多く の注釈プロ ジェ ク ト は注釈 作業を 容易に する 目的でテキ ス ト を 前処理する ために テキ ス ト が変わる 場合が多い。 例え ば、 ギリ シャ 文字の展開(「 α」 を 「alpha」 に 変換する な ど)やト ーク ン 化が行われる 。 そ の 結果、 同一テキスト に対し て 作ら れた注釈データ であっ て も 、 異なる プロ ジェク ト で作ら れたも の同士では互換性のない場合 が多い。 こ の問題を 解決する ため、PubAnnotationは Gener-alized LCS algorithm[Kim 2013]を 用いたテキスト アラ イ メ ン ト (text alignment)機能を 実装し て いる 。

◦プロジェ ク ト 管理: 複数のグループ、 ユーザが注釈データ を

登録する 場を 提供する ためにプロ ジェク ト 管理機能は必須であ る 。 PubAnnotationでは誰も がアカ ウ ン ト を 作り 、 注釈プロ ジェク ト を 始める こ と ができ る 。 自身のプロ ジェク ト に自身の 注釈データ を 格納する こ と ができ る だけでなく 、 副管理者を 指 定し て 共同作業する こ と も でき る 。

◦関係データ ベースの利用:PubAnnotationは安定性と スケー

ラ ビリ ティ の面で技術的に熟成さ れている 関係データ ベースを 基盤と し て用いている 。 そのため大量の注釈データ を 効率的に 管理する こ と が可能である 。

◦検索機能: 大量の注釈データ を 格納する ため、 必要な時に必要

な部分にアク セスでき る 仕組みが必要になる 。PubAnnotation

は関係データ ベースに格納し て いる ため、 SQLを 使っ た検索 が行え る 。

◦REST API: 様々 な条件でデータ にアク セス可能なREST APIを 提供し て いる 。

◦形式変換: PubAnnotationは注釈データ を 格納する ために

独自のテーブル形式を 用いて いる が、 様々 な 要求に 対応する ため形式変換機能を 持つ。 現時点での出力可能な 形式は、 プ ロ グラ ミ ン グのためのJSON、 交換形式と し て 広く 使われる

XML、 セマン ティッ ク ウ ェブのためのRDFである 。 形式変換 はよ り 多く の要求に対応する ためPlug-inシステムと し て実装 さ れて いる 。

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

図1: PubAnnotationが格納し て いる 注釈の例。 TextAEの編集イ メ ージ。

2.2

ク ラ ウ ド ソ ーシン グ

PubAnnotationはク ラ ウ ド ソ ーシン グによ る テキスト 注釈 にも 対応する ため以下の機能を 実装し ている 。 こ れら の機能を 使っ て 作ら れた注釈データ はすぐ に誰と でも 共有でき る 。

◦手動注釈作業のためのエディ タ ー: 人が論文を 読みな がら

簡単に 注釈でき る よ う PubAnnotation の連携ツ ールと し て 注釈エディ タ ーである TextAEを 提供し て いる 。 TextAEは

Javascriptで実装さ れたウ ェ ブベースのツ ールで、 グラ フ ィッ ク ユーザイ ン タ フ ェース(GUI)を 使っ て注釈の編集ができ る 。

◦辞書によ る 自動注釈: 人手で注釈を 付け る 作業であっ て も 、

最初に自動的に付け、 その結果の誤り を 人手によ り 修正する こ と が最近の一般的な手順になっ ている 。 特に注釈のための用語 辞書を 用意し 、 それに基づいて自動的に注釈を 付けたいと いう 要求は多い。 こ のため、 PubAnnotationは連携システムと し て辞書の管理と 辞書によ る 自動注釈ができ るPubDictionaries

と いう システム を 提供し て いる 。

◦オープン アーキテク チャ: 自動注釈と 注釈エディ タ ーは人手

によ る 注釈には必須な ツ ールであり 、 PubAnnotationは連携 ツ ールと し てPubDictionariesと TextAEを 提供し ている が、 同様のツ ールを 開発する グループは他にも ある 。 こ のため、 外 部のツ ールも 必要に応じ て PubAnnotationと 一緒に使える よ う REST APIを 公開し て いる 。 PubAnnotationと TextAE

も 当該APIを 通じ て PubAnnotationと 繋がる 仕組みに な っ て いる 。

3.

終わり に

テキスト 注釈データ は構築にコ スト が掛かる も のである が、 信頼でき る テキスト マイ ニン グシステムの開発のためには必須 の資源である 。 従っ て、 構築さ れたデータ を 共有する こ と でテ キスト マイ ニン グ研究開発コ ミ ュ ニティ における 開発コ スト が 軽減でき る と 思われる 。 こ のため、 多様な注釈を 統合的に管理 でき 、 かつ、 スケーラ ブルなレ ポジト リ と し てPubAnnotation

を 開発し た。 連携ツ ールと し て辞書ベースの自動注釈システム であるPubDictionariesやウ ェブベースの注釈エディ タ ーであ るTextAEも 開発し 、 誰も が気軽に注釈データ を 作り 、 共有で き る ク ラ ウ ド 注釈にも 対応し て いる 。 図1はPubAnnotation

に格納さ れて いる 注釈の例である 。 PubAnnotationと その連 携システム は以下のURLから アク セス可能である 。

• PubAnnotation: http://www.pubannotation.org

• PubDictionaries: http://www.pubdictionaries.org

• TextAE:http://textae.dbcls.jp

参考文献

[Kim 2013] Kim, Jin-Dong: A Generalized LCS Algorithm and Its Application to Corpus Alignment (2013), Proceedings of the Sixth International Joint Confer-ence on Natural Language Processing, 1112–1116.

参照

関連したドキュメント

This study proposes a method for strengthening communication using a text chat app as a preparation training of face-to-face practice to improve communication

In order to reduce the phenomenon of katakana word avoidance among Chinese learners of Japanese , I have developed EULIKO (a system for Encouraging Use and Learn of

To solve this problem, we examined the methods that can be collected by non-IT experts and developed general-purpose data warehouse, data analysis methods, and

Relating to the issue of text-cycling, the aforementioned theoretical components can be aligned as follows: Firstly, people are naturally predisposed to favour

The reasons associated with feelings of burden were the following 14 items: “Breastfeeding requires care about what mothers can eat and drink”, “Breastfeeding alone does not

compared to standard laparoscopic cystectomy in women with a dermoid

“We’d like not just text or diagram, but both!”.

DECLARATION BY THE EXPORTER I, the undersigned, declare that the goods described above meet the conditions required for the issue of this certificate. (Note1) If goods are not