多次元アノテーションに基づく多言語分析ツールの構築
8
0
0
全文
(2) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 語中心の分析に限定されている,タグ項目の設定が利用者によって柔軟に設定できな い,などの問題点があった.本分析ツールの作成にあたって,以下の諸点をねらいと している. (1) 多言語化:広範囲の諸言語の分析研究に対応するため,文字コードは Unicode (UTF-8)とする. (2) 音韻,音節,形態素,語,複合語等の階層的諸要素の分析を可能とする. 言語要素のリスト項目(辞書)は自動作成される. (3) タグ項目は研究目的に合わせて利用者が任意に設定できる.また,辞書部分 とテキスト表示部分の双方からタグ付与が可能とする. (4) テキストとタグの複合検索を可能とする. (5) テキストの共起分析ばかりでなく,タグの共起分析,文脈分析を可能とする. (6) 音声情報との複合分析を可能とする.. 原コーパス 境界記号. 拡張コーパス. タグ付テキスト. 辞書(inventory) 相互更新. アノテーション 上記のうち,音韻分析や音声情報とのリンクは現在未搭載であり,本報告ではテキス トコーパスを扱う内容に関して報告する. なお,本ツールの動作環境は Windows であり,Ruby 1.8,Microsoft Office Excel 2007 を必要とする.. アノテーション. コーパス検索・分析 図 1. MDAS におけるコーパス処理の構成. 3. MDASの基本構成と内容 MDAS を用いたコーパス処理の内容を,図1に示す.コーパス処理は,原コーパ スへの区切り記号の挿入による拡張コーパスの作成,語・形態素リストの生成とタ グ付けによる辞書の作成,タグ付きテキストの生成とタグの更新,及び各種検索処 理から成っている.以下,これらについて順次述べる.. 表1 レベル 1 2 3 4 5 6 7 8 9. 区切り記号(境界記号)とその設定 連続した文字テキストを分析するためには,まず階層的な言語要素に分節するため の区切り記号を挿入することが必要になる.英語のテキストなどのように、punctuation と(スペース)によって語が区分化されている場合であって,分析が語レベルに止ま るときは特に記号の挿入は必要ない. 区切り記号の階層は,表1に示すように文や節等は 3 レベル(S1~S3),語内は 6 レ ベル(W1~W6) の階層を設定している.このうち,自由形式である語では,3 階層の 構造で記述される.特に W1 は,テキストの基本分節境界記号となる.一方,結合形 式形態素では 2 レベル(W4, W5)を設けた.統語接辞と造語接辞を想定したものであ るが,分析言語により使われ方は自由である.特に,造語接辞境界に相当する W5 で 3.1. 2. 文. 語内. 言語の階層と区切り記号. 記号 S1 S2 S3 W1 W2 W3 W4 W5 W6. 境界の内容. 要素の例. 文末 節末 (句末) 自由形式. 結合形式. 分節基本単位 複合語要素1 複合語要素2 統語接辞 造語接辞 形式形態素. 語,文節 語 語 助詞,助動詞 接頭辞,接尾辞,挿入辞 造語成分,音節. ⓒ 2011 Information Processing Society of Japan.
(3) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. はさらに細分化されて,W51 で接頭辞,W52 で接尾辞,W53 で挿入辞の各境界を表 す.最後の W6 は,音節など語内の境界としては認められるものの,造語単位として 切り出さない場合の境界として用いられる. これらは,すべてを必ずしも使用する必要はない.研究に応じて適宜テキストの分 節化のために使用される.なお,S や W のあとの数字を増やすことによって,各レベ ルで更に深い構造を表現することも可能である(W31, W32 など.3 桁まで可能). 一例として日本語の場合の区切り記号の定義と,それを挿入したテキストの例(拡 張テキスト)を示す. (日本語の場合の区切り記号の定義例) S1, 。 S1, ? S2, 、 W1, # W2, - W4, / W51, ≠ W52, = W6, ・ (日本語拡張テキストの例) 私/は#今日#初め・て#この#学習=院/と-いう-もの/の#中/に#這入り/ まし/た. もっとも#以前/から#学習=院/は#多分#この #見当/だろ/う/ ぐらい/に#考え/て-い/た /に/は#相違-あり/ませ・ん/が,はっきり / とは#存じ/ませ・ん/でし/た.(夏目漱石) 以後の説明では,日本語のテキストを例に取り上げ内容を説明する. 図 2 拡張テキストから辞書ファイルの作成 まず,区切り記号付き拡張テキスト(*.txt)から語や形態素のリスト(頻度付き辞書) を作成する.この MDAS プログラムは,Ruby で書かれており,コマンド・プロンプ トから起動される.出力は,エクセルのマクロ有効ワークシート( *.xlsm)である.オ プションは,上記入出力ファイルのほか,以下のものがある. ・区切り記号定義ファイル(*.txt) ・分節化する語内レベル記号(W1, W2, W4, W5 など) :語内階層のどのレベルで分 節化してリストを作成するかを指定する. ・辞書のタグ付け項目: (part-of-speech(POS)), (発音), (基本形)など. (なお,出 力のエクセルシート上で項目を追加してもよい) ・必要に応じて,出力語・形態素のソート順(文字順,逆引き文字順,頻度順など) を指定する.結合形式の単位は,default では区切り記号付き(つまり結合手付き) 単位として抽出されるが,記号付きとしない場合の選択も指定できる.. 拡張テキストから作成された辞書ファイルの例. 3.2. 作成される辞書ファイルの語・形態素の単位は異なってくる.なお,図中の第 1 行は 入力されたコマンドのオプション系列を示している. 図2のエクセルシートのタグ付け項目を埋めると辞書が出来上がるが,辞書の構築 を目的としない場合であっても,このワークシートはテキストへタグ付けを行うため の作業領域として利用される.テキストへの直接のタグ付けは,その作業量が大変に なるためである. タグ付きテキストの生成とタグ付きテキストエディタ 図2のエクセルシート上でタグ付与をおこない,各項目にタグが入力されて一応の 辞書が出来上がると,再び,コマンド・プロンプトから MDAS のソフトを起動する. これによって,辞書ファイルと同一の出力ファイルに,タグ付きのテキストが作成さ れる.(これは図 3 の右半分に相当する.) 次に,タグ付きテキストエディタ(TaggedText Editor)を起動すると,出力ファイル (*.xlsm)の辞書シートとタグ付きテキストシートが並んで表示される(図3). 3.3. 作成された辞書ファイルの例を図2に示す.区切り記号設定のオプションによって, 3. ⓒ 2011 Information Processing Society of Japan.
(4) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. タグ付きテキストシート. 辞書シート. 語彙タグ領域 非語彙タグ領域 統語タグ領域. 図 3. 単語・形態素辞書とタグ付きテキストの表示例. タグ付きテキストシートは,文や節の区切り記号毎に,分節化された単位を 1 セル として表示される.最初の行は,原テキストであり,その下に辞書シートの語彙タグ が表示される.更にその下に,非語彙タグと統語タグを付する 2 行があり,それぞれ のセルはうすいピンクと青で表示されている.非語彙タグは,モダリティや意図など 辞書項目の内容とは異なる情報を,統語タグは語や句の統語的関係を表す情報を付す ることを想定したフィールドである.この2行は,辞書シートとリンクはしていない ため,研究目的によっては,全く自由な使い方をしてもかまわない. タグ付きテキストエディタは,以下の4つの機能を有する. (1) 辞書とタグ付きテキストを同時に編集する機能を持つ. 辞書シート上でのタグ付けは,同音あるいは同形の語に異なるタグ付けをすること はむつかしい.また,前後のコンテキストによらなければタグ付けできない場合もあ る.例えば,図 3 の 2 番目のテキスト中の「/に」は助動詞としてのタグ(aux)が付さ れている.これは,辞書上で最初にそのようにタグ付けされたためであり,これをタ. グ付きテキスト上で助詞のタグ(p)に書き換えると,助詞「/に」が辞書上にあればそ の頻度が1追加され,なければ新たに助詞「/に」の項目が追加される.逆に,辞書 上でタグを修正すると,それに基づいてタグ付きテキストの対応するタグ部分が書き 換えられる.このように,両者を相互に修正することによって,適切な辞書とタグ付 きテキストが構成され,両者を維持管理することができる. (2)非語彙タグ,統語タグなど新たなアノテーションを付する. 語彙タグは辞書項目と一対一に対応しているため,セルの変更はできない.しかし, 非語彙セルと統語セル領域は,後述するように複数セルの統合やその解除が可能であ る.句や複合語単位でのタグ付けを可能とするためである. (3)テキストとタグに関する各種検索を実行する. (4)タグ付きテキスト,辞書,検索結果の保存機能を有する. 以下,(3)と(4)に関して具体的に述べる. 4. ⓒ 2011 Information Processing Society of Japan.
(5) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 4. タグ付きテキストエディタの機能表示. 表示を外 す場合. 3.4 タグ付きテキストエディタの機能タブ. タグ付きテキストエディタによって表示されたエクセルシートの上部における, MDAS リボンを選択すると,図4のタブが表示される.現在のところ,これらのタブ は,(表示),(検索),(コンテキスト検索),(コロケーション分析),(n-gram 分析), (シート保存),(XML 保存),(編集)の8項目である.各項目の文字列は,「実行ボ タン」,もしくは「ON/OFF」のトグルスイッチとなっている. (表示)タブの[表示項目の選択]ボタンをクリックすると,図 5 の窓が表示される. タグ付きテキストとして必要なもののみ選択すると,他のタグ領域は画面上表示され ない(必要なら区切り記号の境界情報もタグとして表示できるが,default では無表示). また,ここでタグが設定されると,以後の種々の検索の条件設定ウインドウにおいて も,設定以外のタグ条件は表示されない. (編集)では,非語彙タグと統語タグ領域のセルの結合とその解除を行う.結合す るセルを選択して,[セル結合]ボタンをクリックすると結合され,[セル結合解除]をク リックすると語彙対応のセルに戻る.. 図 5. タグ表示選択. 図 6. 「検索」条件設定窓. 3.5 各種検索処理とデータの保存. (1)検索 (検索)では,通常の検索と KWIC 検索を行う.検索の条件を設定する窓を図6に 示す.検索は,2 要素の検索も可能となっている.これは,例えばドイツ語の分離動 詞のような 2 要素検索も可能とするためである.KWIC 検索の場合の 2 要素の検索は, 連続した 2 要素を Key Word とする検索となる. 検索条件は,テキストだけではなくタグとの複合検索も可能であり,これらは AND 検索となる.また,検索ではタグも含めて正規表現が使用できる(これらは,後述す る他の検索も同様).. 図 7 5. 2 要素 KWIC 検索の例(後続テキストでソート) ⓒ 2011 Information Processing Society of Japan.
(6) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 8. 「コンテキスト検索」の条件設定窓. 図6の例は,助動詞「て」と動詞の連続の KWIC 検索の例であり,オプションとし て,後続テキストの文字順のソートと,前後 30 文字(半角)の KWIC 表示が設定さ れている.検索の表示順に関しては,Key Word の前後とテキスト/各種タグの指定に よるソーティングが可能である.図7に図6の指定による KWIC 検索結果の例を示す (指定された 1 番目の語,2 番目の語,およびソート対象のタグ類のセルは着色され ており,見やすくしてある). なお,本検索結果および以下の検索・分析結果は,すべて辞書ファイルとタグ付き テキストのあるエクセルファイル上に,新たなシートを生成して作成される. (2) コンテキスト検索 KWIC 検索は,語等を指定してそのコンテキストを見るものであるが,これは,指 定されたコンテキストにおける中心要素を見る機能である.一定の環境条件下での言 語要素の出現特性を見るために使用される. 図8は,条件入力のウインドウであり,コンテキスト指定は,左コンテキスト 2 要 素,右コンテキスト 2 要素から成っている(1 要素指定でもよい).コンテキスト検索 の条件は,テキストの他,表示指定されたタグ類で指定できる. また,コンテキストの中心要素の数は 3 要素までであり,(1 要素),(2 要素),(3 要素),(2 要素まで),(3 要素まで)の 5 条件を選択可能である. 図9は,図8の検索条件におけるコンテキスト検索の例を示す.. 図 9. コンテキスト検索の例(図 8 の条件に対応). 図 10 に,条件設定のウインドウを示す.指定事項は以下である. ・当該要素指定(テキスト,タグ) ・コロケーションを求める位置 (当該要素の前(左)/後(右)の別, 前方もしくは後方,何要素目の位置か,1~10 要素まで選択) 分析結果の出力は,頻度分析結果表示と KWIC 様表示の 2 様式があり,それぞれの ボタンで実行し,表示させる. KWIC 様表示では,当該要素と共起位置の要素までの区分を中心に,その前後のテキ ストをコンテキストとして表示される.. (3) コロケーション分析 コロケーション分析は,条件ウインドウで指定した要素を基に,これと共起する要 素を,指定された位置で求める機能である. 6. ⓒ 2011 Information Processing Society of Japan.
(7) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 10. コロケーション分析用 条件設定窓. 図 11. コロケーション分析結果例1 (頻度分析). 図 10 に,コロケーション分析の条件ウインドウを示す.また,図 11 は頻度分析の 結果であり,当該要素に POS [noun] を指定したとき,後方 2 要素目に出現する要素 の出現数を頻度順に示したものであり,この条件はシートの第 1 行目に表示されてい る.図 12 は,図 10 に示されている条件でのコロケーションの KWIC 表示の例である. ここでは,基本形[ある]で,かつ POS[verb]である要素から,前方 2 要素目に出現する 要素を示したものである.. 図 12. (4)n-gram 分析 この機能は,区分化されたテキストの分節要素の n-gram を求める機能である. 図 13 は,現在の n-gram 分析条件設定のウインドウである.n-gram は,mono-gram か ら 5-gram まで求めることができる. ウインドウの(対象項目)では,原テキストだけではなく,各タグについても選択 可能である.つまり POS や基本形などタグの n-gram も求めることができる.. コロケーション分析結果例2. 図 13 7. n-gram 分析. (KWIC 表示). 条件設定窓 ⓒ 2011 Information Processing Society of Japan.
(8) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 参考文献. (5)データ保存 MDAS では,作成されたデータや分析結果を出力保存するボタンが表示されている. (シート保存)タブでは,タグ付きテキストと辞書ファイルを,エクセルシート(*.xlsx) としてエクスポート保存することができる.特に,辞書ファイルでは,これを MDAS コマンド実行時に,オプションとして指定することにより,Master Dictionary として 利用し,辞書内容を拡張するとともに,これを維持管理することが可能である. (XML 保存)は,辞書ファイルとタグ付きテキストをそれぞれ XML 形式のデータ として保存する機能である.XML 形式のコーパスを取り扱う言語分析ソフトを利用す るユーザのために設けられた. 各種検索や分析のタブには,それぞれ(結果シート保存)のボタンが設けられてい る.これらは,検索/分析結果を,エクセルシート(*.xlsx)として保存するためのもの である.保存されたシート上で,データの加工や統計処理等を行うことができる.. 1) http://www.sil.org/computing/toolbox/ 2) http://www.lexically.net/wordsmith/ 3) http://www.antlab.sci.waseda.ac.jp/antconc_index.htm 4) 佐野洋: Windows PC による日本語研究法-Perl, CLTOOl によるテキストデータ処理-,共立 出版 (2003) 5) Matsumoto, Yuji: Corpus Annotation/Management Tools for the Project: Balanced Corpus of Contemporary Written Japanese, Large-Scale Knowledge Resources: Construction and Application, pp.106-115, Springer (2008). 4. おわりに 本文では,種々の言語の研究に役立てることを目的として,言語分析ツールに関 して報告した.言語の分析では,特に共起性,コンテキスト,連接の特性などが重 要と考えているので,テキスト上ばかりでなく,タグ情報上でも同様の現象を調べ ることができるよう留意した.ここで提案したツールは,英語など,語と語があら かじめ区分化されているテキストでも利用可能ではあるが,むしろ表記上語境界を 明示しない言語(タイ語など)や,主格,対格,時制などが接辞によって表現され るような言語(スワヒリ語など)などの分析に有用であるかもしれない. 今後は,音韻や音声情報とのリンケージをとるとともに,現在流通している諸言 語の形態素解析や品詞付与のソフトとのインタフェースも考慮して,使いやすいも のにしていきたいと考えている.また,実際に種々の言語の研究に適用してみるこ とによって,改良や機能強化を図っていかねばならないであろう.現報告は作成途 上のものであることから,細部の仕様に変更の可能性があることを付記する. 謝辞 研究は,グローバルCOEプログラム「コーパスに基づく言語学教育研究拠 点」においてなされたものである.本ソフトウェア作成に協力いただいた杉浦功一氏 に深謝する.また各種言語研究の立場からご意見をいただいたグローバルCOEプロ ジェクトの研究員諸氏にお礼申し上げる.. 8. ⓒ 2011 Information Processing Society of Japan.
(9)
図
関連したドキュメント
「文字詞」の定義というわけにはゆかないとこ ろがあるわけである。いま,仮りに上記の如く
チョウダイは後者の例としてあげることが出来
現地法人または支店の設立の手続きとして、下記の図のとおり通常、最初にオーストラリア証
本学級の児童は,89%の児童が「外国 語活動が好きだ」と回答しており,多く
の総体と言える。事例の客観的な情報とは、事例に関わる人の感性によって多様な色付けが行われ
と言っても、事例ごとに意味がかなり異なるのは、子どもの性格が異なることと同じである。その
編﹁新しき命﹂の最後の一節である︒この作品は弥生子が次男︵茂吉
本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o