多次元アノテーションに基づく多言語分析ツールの構築

全文

(1)Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 1. はじめに. 多次元アノテーションに基づく多言語分析ツールの構築佐藤大和†. 著者らは，コーパスに基づいた種々の言語研究のため，分析ツールの検討を進めている．このツールは，多言語対応であること，また各言語階層へのアノテーション（タグ付け）が柔軟にできることを目標としており，Multi-Dimensional Annotation System for Language Analysis (MDAS) と名付けている（以後これを MDAS と呼ぶ）．本ツールは，テキストを参照しながら辞書の構築を行うことや，辞書情報（タグ）付きテキスト上で，種々の検索処理や統計情報の取得を可能とするものである．本ツールでは，特別な GUI(Graphic User Interface)を用いていない．基本処理は， CUI(Character User Interface)で行い，その後は，多くの人が使い慣れている表計算ソフト Excel を用いた処理を行う．本稿では，言語分析ツール構築の考え方とこれまでの作成内容について報告する．. 峰岸真琴††. 本論文は，世界の諸言語の分析研究のために作成しているソフトウェア・ツールに関して、その内容を述べたものである．本ツールは広範囲の言語に対応できるばかりでなく，音韻から，形態，単語，語複合に至る階層的な言語分析を可能としている．各言語要素へのアノテーション（タグ付け）は柔軟に設定でき，辞書とテキスト両面からの付与が可能である．また，これらタグとテキストとの混合検索による種々の共起検索や文脈分析を実現している．. 2. 言語分析用ツールに求められる条件コーパスや調査言語資料に基づく言語研究には，以下のような種々の研究目的が考えられるであろう．・言語辞書（inventory）を構築する．・文法や共起関係などの言語法則を見出す．・音韻，形態，語，統語，意味など，対象言語の全体像を明らかにする．・言語運用の多様な実態を明らかにする．・言語を統計・数理的側面から研究する．. Construction of Multi-language Analysis Tool Based on Multi-dimensional Annotation Hirokazu Sato†. and. Makoto Minegishi††. This paper describes a software tool for researches of various languages in the world. The tool is applicable for a wide spectrum of languages, and permits multi-layered analysis of linguistic elements such as phoneme, morph, word and compound. Users can flexibly set tagging fields, and also can annotate the fields on dictionary and on tagged-text. Moreover, several co-occurrence and context analyses based on mixed search of text and tag are incorporated.. こうした言語研究のため，これまで幾つかのソフトウェア・ツールが提供されてきた．ひとつは，フィールド言語学のための SIL で提供している Toolbox [1]等であり，他方はコーパス検索型のツールで，例えば WordSmith [2]，AntConc [3]，CLTOOL[4], などが知られている．後者は，語リストの作成や，KWIC，コロケーションなどの検索を可能とするものである．また，ChaKi [5]のようにタグ情報の検索を可能にしたものなども報告されている．今回報告する言語分析ツールは，大規模なコーパスを対象としたものではなく，フィールド言語学への適用をも考慮に入れた中小規模のコーパスに基づく言語研究を目標に構築を進めているものである．これまでのコーパス検索型のソフトは，多言語を扱うという点で限定的であったり， †. 東京外国語大学 Tokyo University of Foreign Studies †† 東京外国語大学，アジア・アフリカ言語文化研究所 Tokyo University of Foreign Studies, Research Institute for Languages and Cultures of Asia and Africa. 1. ⓒ 2011 Information Processing Society of Japan.

(2) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 語中心の分析に限定されている，タグ項目の設定が利用者によって柔軟に設定できない，などの問題点があった．本分析ツールの作成にあたって，以下の諸点をねらいとしている． (1) 多言語化：広範囲の諸言語の分析研究に対応するため，文字コードは Unicode (UTF-8)とする． (2) 音韻，音節，形態素，語，複合語等の階層的諸要素の分析を可能とする．言語要素のリスト項目（辞書）は自動作成される． (3) タグ項目は研究目的に合わせて利用者が任意に設定できる．また，辞書部分とテキスト表示部分の双方からタグ付与が可能とする． (4) テキストとタグの複合検索を可能とする． (5) テキストの共起分析ばかりでなく，タグの共起分析，文脈分析を可能とする． (6) 音声情報との複合分析を可能とする．. 原コーパス境界記号. 拡張コーパス. タグ付テキスト. 辞書(inventory) 相互更新. アノテーション上記のうち，音韻分析や音声情報とのリンクは現在未搭載であり，本報告ではテキストコーパスを扱う内容に関して報告する．なお，本ツールの動作環境は Windows であり，Ruby 1.8，Microsoft Office Excel 2007 を必要とする．. アノテーション. コーパス検索・分析図 1. MDAS におけるコーパス処理の構成. 3. MDASの基本構成と内容 MDAS を用いたコーパス処理の内容を，図１に示す．コーパス処理は，原コーパスへの区切り記号の挿入による拡張コーパスの作成，語・形態素リストの生成とタグ付けによる辞書の作成，タグ付きテキストの生成とタグの更新，及び各種検索処理から成っている．以下，これらについて順次述べる．. 表1 レベル 1 2 3 4 5 6 7 8 9. 区切り記号（境界記号）とその設定連続した文字テキストを分析するためには，まず階層的な言語要素に分節するための区切り記号を挿入することが必要になる．英語のテキストなどのように、punctuation と（スペース）によって語が区分化されている場合であって，分析が語レベルに止まるときは特に記号の挿入は必要ない．区切り記号の階層は，表１に示すように文や節等は 3 レベル(S1～S3)，語内は 6 レベル(W1～W6) の階層を設定している．このうち，自由形式である語では，3 階層の構造で記述される．特に W1 は，テキストの基本分節境界記号となる．一方，結合形式形態素では 2 レベル（W4, W5）を設けた．統語接辞と造語接辞を想定したものであるが，分析言語により使われ方は自由である．特に，造語接辞境界に相当する W5 で 3.1. 2. 文. 語内. 言語の階層と区切り記号. 記号 S1 S2 S3 W1 W2 W3 W4 W5 W6. 境界の内容. 要素の例. 文末節末（句末）自由形式. 結合形式. 分節基本単位複合語要素１複合語要素２統語接辞造語接辞形式形態素. 語，文節語語助詞，助動詞接頭辞，接尾辞，挿入辞造語成分，音節. ⓒ 2011 Information Processing Society of Japan.

(3) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. はさらに細分化されて，W51 で接頭辞，W52 で接尾辞，W53 で挿入辞の各境界を表す．最後の W6 は，音節など語内の境界としては認められるものの，造語単位として切り出さない場合の境界として用いられる．これらは，すべてを必ずしも使用する必要はない．研究に応じて適宜テキストの分節化のために使用される．なお，S や W のあとの数字を増やすことによって，各レベルで更に深い構造を表現することも可能である（W31, W32 など．3 桁まで可能）．一例として日本語の場合の区切り記号の定義と，それを挿入したテキストの例（拡張テキスト）を示す．（日本語の場合の区切り記号の定義例） S1, 。 S1, ? S2, 、 W1, ＃ W2, － W4, ／ W51, ≠ W52, ＝ W6, ・（日本語拡張テキストの例）私／は＃今日＃初め・て＃この＃学習＝院／と－いう－もの／の＃中／に＃這入り／まし／た．もっとも＃以前／から＃学習＝院／は＃多分＃この＃見当／だろ／う／ぐらい／に＃考え／て－い／た／に／は＃相違－あり／ませ・ん／が，はっきり／とは＃存じ／ませ・ん／でし／た．（夏目漱石）以後の説明では，日本語のテキストを例に取り上げ内容を説明する．図２拡張テキストから辞書ファイルの作成まず，区切り記号付き拡張テキスト(*.txt)から語や形態素のリスト（頻度付き辞書）を作成する．この MDAS プログラムは，Ruby で書かれており，コマンド・プロンプトから起動される．出力は，エクセルのマクロ有効ワークシート( *.xlsm)である．オプションは，上記入出力ファイルのほか，以下のものがある．・区切り記号定義ファイル(*.txt) ・分節化する語内レベル記号（W1, W2, W4, W5 など）：語内階層のどのレベルで分節化してリストを作成するかを指定する．・辞書のタグ付け項目：（part-of-speech(POS)），（発音），（基本形）など．（なお，出力のエクセルシート上で項目を追加してもよい）・必要に応じて，出力語・形態素のソート順（文字順，逆引き文字順，頻度順など）を指定する．結合形式の単位は，default では区切り記号付き（つまり結合手付き）単位として抽出されるが，記号付きとしない場合の選択も指定できる．. 拡張テキストから作成された辞書ファイルの例. 3.2. 作成される辞書ファイルの語・形態素の単位は異なってくる．なお，図中の第 1 行は入力されたコマンドのオプション系列を示している．図２のエクセルシートのタグ付け項目を埋めると辞書が出来上がるが，辞書の構築を目的としない場合であっても，このワークシートはテキストへタグ付けを行うための作業領域として利用される．テキストへの直接のタグ付けは，その作業量が大変になるためである．タグ付きテキストの生成とタグ付きテキストエディタ図２のエクセルシート上でタグ付与をおこない，各項目にタグが入力されて一応の辞書が出来上がると，再び，コマンド・プロンプトから MDAS のソフトを起動する．これによって，辞書ファイルと同一の出力ファイルに，タグ付きのテキストが作成される．（これは図 3 の右半分に相当する．）次に，タグ付きテキストエディタ(TaggedText Editor)を起動すると，出力ファイル (*.xlsm)の辞書シートとタグ付きテキストシートが並んで表示される（図３）． 3.3. 作成された辞書ファイルの例を図２に示す．区切り記号設定のオプションによって， 3. ⓒ 2011 Information Processing Society of Japan.

(4) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. タグ付きテキストシート. 辞書シート. 語彙タグ領域非語彙タグ領域統語タグ領域. 図３. 単語・形態素辞書とタグ付きテキストの表示例. タグ付きテキストシートは，文や節の区切り記号毎に，分節化された単位を 1 セルとして表示される．最初の行は，原テキストであり，その下に辞書シートの語彙タグが表示される．更にその下に，非語彙タグと統語タグを付する 2 行があり，それぞれのセルはうすいピンクと青で表示されている．非語彙タグは，モダリティや意図など辞書項目の内容とは異なる情報を，統語タグは語や句の統語的関係を表す情報を付することを想定したフィールドである．この２行は，辞書シートとリンクはしていないため，研究目的によっては，全く自由な使い方をしてもかまわない．タグ付きテキストエディタは，以下の４つの機能を有する．（１）辞書とタグ付きテキストを同時に編集する機能を持つ．辞書シート上でのタグ付けは，同音あるいは同形の語に異なるタグ付けをすることはむつかしい．また，前後のコンテキストによらなければタグ付けできない場合もある．例えば，図 3 の 2 番目のテキスト中の「／に」は助動詞としてのタグ(aux)が付されている．これは，辞書上で最初にそのようにタグ付けされたためであり，これをタ. グ付きテキスト上で助詞のタグ(p)に書き換えると，助詞「／に」が辞書上にあればその頻度が１追加され，なければ新たに助詞「／に」の項目が追加される．逆に，辞書上でタグを修正すると，それに基づいてタグ付きテキストの対応するタグ部分が書き換えられる．このように，両者を相互に修正することによって，適切な辞書とタグ付きテキストが構成され，両者を維持管理することができる．（２）非語彙タグ，統語タグなど新たなアノテーションを付する．語彙タグは辞書項目と一対一に対応しているため，セルの変更はできない．しかし，非語彙セルと統語セル領域は，後述するように複数セルの統合やその解除が可能である．句や複合語単位でのタグ付けを可能とするためである．（３）テキストとタグに関する各種検索を実行する．（４）タグ付きテキスト，辞書，検索結果の保存機能を有する．以下，（３）と（４）に関して具体的に述べる． 4. ⓒ 2011 Information Processing Society of Japan.

(5) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 図４. タグ付きテキストエディタの機能表示. 表示を外す場合. 3.4 タグ付きテキストエディタの機能タブ. タグ付きテキストエディタによって表示されたエクセルシートの上部における， MDAS リボンを選択すると，図４のタブが表示される．現在のところ，これらのタブは，（表示），（検索），（コンテキスト検索），（コロケーション分析），（n-gram 分析），（シート保存），（XML 保存），（編集）の８項目である．各項目の文字列は，「実行ボタン」，もしくは「ON/OFF」のトグルスイッチとなっている．（表示）タブの[表示項目の選択]ボタンをクリックすると，図 5 の窓が表示される．タグ付きテキストとして必要なもののみ選択すると，他のタグ領域は画面上表示されない（必要なら区切り記号の境界情報もタグとして表示できるが，default では無表示）．また，ここでタグが設定されると，以後の種々の検索の条件設定ウインドウにおいても，設定以外のタグ条件は表示されない．（編集）では，非語彙タグと統語タグ領域のセルの結合とその解除を行う．結合するセルを選択して，[セル結合]ボタンをクリックすると結合され，[セル結合解除]をクリックすると語彙対応のセルに戻る．. 図５. タグ表示選択. 図６. 「検索」条件設定窓. 3.5 各種検索処理とデータの保存. （１）検索（検索）では，通常の検索と KWIC 検索を行う．検索の条件を設定する窓を図６に示す．検索は，2 要素の検索も可能となっている．これは，例えばドイツ語の分離動詞のような 2 要素検索も可能とするためである．KWIC 検索の場合の 2 要素の検索は，連続した 2 要素を Key Word とする検索となる．検索条件は，テキストだけではなくタグとの複合検索も可能であり，これらは AND 検索となる．また，検索ではタグも含めて正規表現が使用できる（これらは，後述する他の検索も同様）．. 図７ 5. 2 要素 KWIC 検索の例（後続テキストでソート） ⓒ 2011 Information Processing Society of Japan.

(6) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 図８. 「コンテキスト検索」の条件設定窓. 図６の例は，助動詞「て」と動詞の連続の KWIC 検索の例であり，オプションとして，後続テキストの文字順のソートと，前後 30 文字（半角）の KWIC 表示が設定されている．検索の表示順に関しては，Key Word の前後とテキスト／各種タグの指定によるソーティングが可能である．図７に図６の指定による KWIC 検索結果の例を示す（指定された 1 番目の語，2 番目の語，およびソート対象のタグ類のセルは着色されており，見やすくしてある）．なお，本検索結果および以下の検索・分析結果は，すべて辞書ファイルとタグ付きテキストのあるエクセルファイル上に，新たなシートを生成して作成される．（２）コンテキスト検索 KWIC 検索は，語等を指定してそのコンテキストを見るものであるが，これは，指定されたコンテキストにおける中心要素を見る機能である．一定の環境条件下での言語要素の出現特性を見るために使用される．図８は，条件入力のウインドウであり，コンテキスト指定は，左コンテキスト 2 要素，右コンテキスト 2 要素から成っている（1 要素指定でもよい）．コンテキスト検索の条件は，テキストの他，表示指定されたタグ類で指定できる．また，コンテキストの中心要素の数は 3 要素までであり，（1 要素），（2 要素），（3 要素），（2 要素まで），（3 要素まで）の 5 条件を選択可能である．図９は，図８の検索条件におけるコンテキスト検索の例を示す．. 図９. コンテキスト検索の例（図 8 の条件に対応）. 図 10 に，条件設定のウインドウを示す．指定事項は以下である．・当該要素指定（テキスト，タグ）・コロケーションを求める位置（当該要素の前（左）／後（右）の別，前方もしくは後方，何要素目の位置か，1～10 要素まで選択）分析結果の出力は，頻度分析結果表示と KWIC 様表示の 2 様式があり，それぞれのボタンで実行し，表示させる． KWIC 様表示では，当該要素と共起位置の要素までの区分を中心に，その前後のテキストをコンテキストとして表示される．. （３）コロケーション分析コロケーション分析は，条件ウインドウで指定した要素を基に，これと共起する要素を，指定された位置で求める機能である． 6. ⓒ 2011 Information Processing Society of Japan.

(7) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 図１０. コロケーション分析用条件設定窓. 図１１. コロケーション分析結果例１（頻度分析）. 図 10 に，コロケーション分析の条件ウインドウを示す．また，図 11 は頻度分析の結果であり，当該要素に POS [noun] を指定したとき，後方 2 要素目に出現する要素の出現数を頻度順に示したものであり，この条件はシートの第 1 行目に表示されている．図 12 は，図 10 に示されている条件でのコロケーションの KWIC 表示の例である．ここでは，基本形[ある]で，かつ POS[verb]である要素から，前方 2 要素目に出現する要素を示したものである．. 図１２. （４）n-gram 分析この機能は，区分化されたテキストの分節要素の n-gram を求める機能である．図 13 は，現在の n-gram 分析条件設定のウインドウである．n-gram は，mono-gram から 5-gram まで求めることができる．ウインドウの（対象項目）では，原テキストだけではなく，各タグについても選択可能である．つまり POS や基本形などタグの n-gram も求めることができる．. コロケーション分析結果例２. 図１３ 7. n-gram 分析. （KWIC 表示）. 条件設定窓 ⓒ 2011 Information Processing Society of Japan.

(8) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 参考文献. （５）データ保存 MDAS では，作成されたデータや分析結果を出力保存するボタンが表示されている．（シート保存）タブでは，タグ付きテキストと辞書ファイルを，エクセルシート(*.xlsx) としてエクスポート保存することができる．特に，辞書ファイルでは，これを MDAS コマンド実行時に，オプションとして指定することにより，Master Dictionary として利用し，辞書内容を拡張するとともに，これを維持管理することが可能である．（XML 保存）は，辞書ファイルとタグ付きテキストをそれぞれ XML 形式のデータとして保存する機能である．XML 形式のコーパスを取り扱う言語分析ソフトを利用するユーザのために設けられた．各種検索や分析のタブには，それぞれ（結果シート保存）のボタンが設けられている．これらは，検索／分析結果を，エクセルシート(*.xlsx)として保存するためのものである．保存されたシート上で，データの加工や統計処理等を行うことができる．. 1) http://www.sil.org/computing/toolbox/ 2) http://www.lexically.net/wordsmith/ 3) http://www.antlab.sci.waseda.ac.jp/antconc_index.htm 4) 佐野洋: Windows PC による日本語研究法－Perl, CLTOOl によるテキストデータ処理－，共立出版 (2003) 5) Matsumoto, Yuji: Corpus Annotation/Management Tools for the Project: Balanced Corpus of Contemporary Written Japanese, Large-Scale Knowledge Resources: Construction and Application, pp.106-115, Springer (2008). 4. おわりに本文では，種々の言語の研究に役立てることを目的として，言語分析ツールに関して報告した．言語の分析では，特に共起性，コンテキスト，連接の特性などが重要と考えているので，テキスト上ばかりでなく，タグ情報上でも同様の現象を調べることができるよう留意した．ここで提案したツールは，英語など，語と語があらかじめ区分化されているテキストでも利用可能ではあるが，むしろ表記上語境界を明示しない言語（タイ語など）や，主格，対格，時制などが接辞によって表現されるような言語（スワヒリ語など）などの分析に有用であるかもしれない．今後は，音韻や音声情報とのリンケージをとるとともに，現在流通している諸言語の形態素解析や品詞付与のソフトとのインタフェースも考慮して，使いやすいものにしていきたいと考えている．また，実際に種々の言語の研究に適用してみることによって，改良や機能強化を図っていかねばならないであろう．現報告は作成途上のものであることから，細部の仕様に変更の可能性があることを付記する．謝辞研究は，グローバルＣＯＥプログラム「コーパスに基づく言語学教育研究拠点」においてなされたものである．本ソフトウェア作成に協力いただいた杉浦功一氏に深謝する．また各種言語研究の立場からご意見をいただいたグローバルＣＯＥプロジェクトの研究員諸氏にお礼申し上げる．. 8. ⓒ 2011 Information Processing Society of Japan.

(9)