The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
1H4-NFC-01a-2
PubAnnotation -
テキスト 注釈リ ポジト リ
PubAnnotation - Text Annotation Repository
金 進東
∗1 Jin-Dong Kim∗1
情報・ システム 研究機構
/
ラ イ フ サイ エン ス統合データ ベースセン タ ー
Rsearch Organization of Information and Systems / Database Center for Life Science
Text annotation is expensive but indispensable for development of text mining technology. While there are a few projects developing text annotation data, their reusability is becoming more and more a serious issue. PubAnno-tation is developed to address the reusability issue. Developed primarily as an annoPubAnno-tation storage system that can easily scale to tera-bytes, PubAnnotation features, among others, text alignment, which enables comparative and integrative use of text annotation. Together with its satellite tools, including PubDictionaries and TextAE, it also serves as a platform of crowd-sourcing annotation.
1.
はじ めに
テキスト マイ ニン グ(text mining)に関する 研究開発におい ては、 人がテキスト を 読むさ いに取得すべき 情報を 、 機械が抽 出し やすいよ う に構造化さ れた形でテキスト に追加する 作業が 行われて おり 、 テキ ス ト 注釈(text annotation)と 呼ばれる 。 テキスト 注釈データ (注釈付き コ ーパス)は手動ある いは自動 で作ら れる が、 自動でテキスト 注釈(以下、 自動注釈)を 高精 度で行う こ と ができ れば、 テキスト マイ ニン グの性能向上が期 待さ れる 。 手動で作ら れた注釈データ は一般的に品質が高く 、 ベン チマ ーク (benchmark)用のデータ と し て 自動注釈の性能 を 測る ため使われたり 、 自動注釈のモデルと し て活用さ れたり と 重要な資源である 。 し かし 、 高品質のテキスト 注釈データ は 生産コ スト が高いこ と から 、 既存データ を 再利用する こ と が期 待さ れる 。
世界的に テキ ス ト 注釈データ を 構築する プロ ジェ ク ト は多 数あ り 、 成果は貴重な 資源と し て 広く 活用さ れて いる 。 し か し 、 注釈データ は各プロ ジェク ト 独自のやり 方で作ら れ、 形式
(format)やテキ ス ト 前処理(pre-processing)方法等がばら ば ら になっ てし ま い互換性が一般的に低く 、 再利用を 困難にする 大き な原因になっ て いる 。 こ れら のテキスト データ を 統一し 、 標準的な手順でアク セスでき る よ う にする こ と でデータ の再利 用性が高ま る と 期待さ れる 。
こ のよ う な状況を 踏ま え、 テキスト 注釈の統合的な管理のた めのス ト ーリ ッ ジシス テム (storage system)と し て PubAn-notationを 開発し た。 本論文では注釈レ ポジト リ (repository)
と ク ラ ウ ド ソ ーシングプラッ ト フォーム(crowd-sourcing plat-form)と し て のPubAnnotationの機能に関し て 紹介する 。
2.
PubAnnotation
2.1
注釈レ ポジト リ
PubAnnotationは標準化さ れたテキスト 注釈データ のレ ポ ジト リ と し て機能でき る よ う 開発し ている 。 そのため複数の研 究グループも し く は個人によ っ て作ら れた様々 な注釈データ に 対応する 必要がある 。 そのため、 以下の機能を 実装し た。
連 絡 先: 金 進 東 , ラ イ フ サ イ エ ン ス 統 合 デ ー タ ベ ー ス セ ン タ ー, 千葉県柏市若柴178-4-4, Tel:04-7135-5508,
Fax:04-7135-5534, e-mail:[email protected]
◦テキ ス ト ア ラ イ メ ン ト: 異な る グループやユーザが作成し
た注釈データ を 集める と 、 そ の中に は同一のテキ ス ト に 付け ら れた 注釈も あ る 。 し かし 、 多く の注釈プロ ジェ ク ト は注釈 作業を 容易に する 目的でテキ ス ト を 前処理する ために テキ ス ト が変わる 場合が多い。 例え ば、 ギリ シャ 文字の展開(「 α」 を 「alpha」 に 変換する な ど)やト ーク ン 化が行われる 。 そ の 結果、 同一テキスト に対し て 作ら れた注釈データ であっ て も 、 異なる プロ ジェク ト で作ら れたも の同士では互換性のない場合 が多い。 こ の問題を 解決する ため、PubAnnotationは Gener-alized LCS algorithm[Kim 2013]を 用いたテキスト アラ イ メ ン ト (text alignment)機能を 実装し て いる 。
◦プロジェ ク ト 管理: 複数のグループ、 ユーザが注釈データ を
登録する 場を 提供する ためにプロ ジェク ト 管理機能は必須であ る 。 PubAnnotationでは誰も がアカ ウ ン ト を 作り 、 注釈プロ ジェク ト を 始める こ と ができ る 。 自身のプロ ジェク ト に自身の 注釈データ を 格納する こ と ができ る だけでなく 、 副管理者を 指 定し て 共同作業する こ と も でき る 。
◦関係データ ベースの利用:PubAnnotationは安定性と スケー
ラ ビリ ティ の面で技術的に熟成さ れている 関係データ ベースを 基盤と し て用いている 。 そのため大量の注釈データ を 効率的に 管理する こ と が可能である 。
◦検索機能: 大量の注釈データ を 格納する ため、 必要な時に必要
な部分にアク セスでき る 仕組みが必要になる 。PubAnnotation
は関係データ ベースに格納し て いる ため、 SQLを 使っ た検索 が行え る 。
◦REST API: 様々 な条件でデータ にアク セス可能なREST APIを 提供し て いる 。
◦形式変換: PubAnnotationは注釈データ を 格納する ために
独自のテーブル形式を 用いて いる が、 様々 な 要求に 対応する ため形式変換機能を 持つ。 現時点での出力可能な 形式は、 プ ロ グラ ミ ン グのためのJSON、 交換形式と し て 広く 使われる
XML、 セマン ティッ ク ウ ェブのためのRDFである 。 形式変換 はよ り 多く の要求に対応する ためPlug-inシステムと し て実装 さ れて いる 。
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
図1: PubAnnotationが格納し て いる 注釈の例。 TextAEの編集イ メ ージ。
2.2
ク ラ ウ ド ソ ーシン グ
PubAnnotationはク ラ ウ ド ソ ーシン グによ る テキスト 注釈 にも 対応する ため以下の機能を 実装し ている 。 こ れら の機能を 使っ て 作ら れた注釈データ はすぐ に誰と でも 共有でき る 。
◦手動注釈作業のためのエディ タ ー: 人が論文を 読みな がら
簡単に 注釈でき る よ う PubAnnotation の連携ツ ールと し て 注釈エディ タ ーである TextAEを 提供し て いる 。 TextAEは
Javascriptで実装さ れたウ ェ ブベースのツ ールで、 グラ フ ィッ ク ユーザイ ン タ フ ェース(GUI)を 使っ て注釈の編集ができ る 。
◦辞書によ る 自動注釈: 人手で注釈を 付け る 作業であっ て も 、
最初に自動的に付け、 その結果の誤り を 人手によ り 修正する こ と が最近の一般的な手順になっ ている 。 特に注釈のための用語 辞書を 用意し 、 それに基づいて自動的に注釈を 付けたいと いう 要求は多い。 こ のため、 PubAnnotationは連携システムと し て辞書の管理と 辞書によ る 自動注釈ができ るPubDictionaries
と いう システム を 提供し て いる 。
◦オープン アーキテク チャ: 自動注釈と 注釈エディ タ ーは人手
によ る 注釈には必須な ツ ールであり 、 PubAnnotationは連携 ツ ールと し てPubDictionariesと TextAEを 提供し ている が、 同様のツ ールを 開発する グループは他にも ある 。 こ のため、 外 部のツ ールも 必要に応じ て PubAnnotationと 一緒に使える よ う REST APIを 公開し て いる 。 PubAnnotationと TextAE
も 当該APIを 通じ て PubAnnotationと 繋がる 仕組みに な っ て いる 。
3.
終わり に
テキスト 注釈データ は構築にコ スト が掛かる も のである が、 信頼でき る テキスト マイ ニン グシステムの開発のためには必須 の資源である 。 従っ て、 構築さ れたデータ を 共有する こ と でテ キスト マイ ニン グ研究開発コ ミ ュ ニティ における 開発コ スト が 軽減でき る と 思われる 。 こ のため、 多様な注釈を 統合的に管理 でき 、 かつ、 スケーラ ブルなレ ポジト リ と し てPubAnnotation
を 開発し た。 連携ツ ールと し て辞書ベースの自動注釈システム であるPubDictionariesやウ ェブベースの注釈エディ タ ーであ るTextAEも 開発し 、 誰も が気軽に注釈データ を 作り 、 共有で き る ク ラ ウ ド 注釈にも 対応し て いる 。 図1はPubAnnotation
に格納さ れて いる 注釈の例である 。 PubAnnotationと その連 携システム は以下のURLから アク セス可能である 。
• PubAnnotation: http://www.pubannotation.org
• PubDictionaries: http://www.pubdictionaries.org
• TextAE:http://textae.dbcls.jp
参考文献
[Kim 2013] Kim, Jin-Dong: A Generalized LCS Algorithm and Its Application to Corpus Alignment (2013), Proceedings of the Sixth International Joint Confer-ence on Natural Language Processing, 1112–1116.