• 検索結果がありません。

多次元アノテーションに基づく多言語分析ツールの構築

N/A
N/A
Protected

Academic year: 2021

シェア "多次元アノテーションに基づく多言語分析ツールの構築"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 1. はじめに. 多次元アノテーションに基づく 多言語分析ツールの構築 佐藤大和†. 著者らは,コーパスに基づいた種々の言語研究のため,分析ツールの検討を進めて いる.このツールは,多言語対応であること,また各言語階層へのアノテーション(タ グ付け)が柔軟にできることを目標としており,Multi-Dimensional Annotation System for Language Analysis (MDAS) と名付けている(以後これを MDAS と呼ぶ).本ツール は,テキストを参照しながら辞書の構築を行うことや,辞書情報(タグ)付きテキス ト上で,種々の検索処理や統計情報の取得を可能とするものである. 本ツールでは,特別な GUI(Graphic User Interface)を用いていない.基本処理は, CUI(Character User Interface)で行い,その後は,多くの人が使い慣れている表計算ソフ ト Excel を用いた処理を行う.本稿では,言語分析ツール構築の考え方とこれまでの 作成内容について報告する.. 峰岸真琴††. 本論文は,世界の諸言語の分析研究のために作成しているソフトウェア・ツール に関して、その内容を述べたものである.本ツールは広範囲の言語に対応できる ばかりでなく,音韻から,形態,単語,語複合に至る階層的な言語分析を可能と している.各言語要素へのアノテーション(タグ付け)は柔軟に設定でき,辞書 とテキスト両面からの付与が可能である.また,これらタグとテキストとの混合 検索による種々の共起検索や文脈分析を実現している.. 2. 言語分析用ツールに求められる条件 コーパスや調査言語資料に基づく言語研究には,以下のような種々の研究目的が考 えられるであろう. ・言語辞書(inventory)を構築する. ・文法や共起関係などの言語法則を見出す. ・音韻,形態,語,統語,意味など,対象言語の全体像を明らかにする. ・言語運用の多様な実態を明らかにする. ・言語を統計・数理的側面から研究する.. Construction of Multi-language Analysis Tool Based on Multi-dimensional Annotation Hirokazu Sato†. and. Makoto Minegishi††. This paper describes a software tool for researches of various languages in the world. The tool is applicable for a wide spectrum of languages, and permits multi-layered analysis of linguistic elements such as phoneme, morph, word and compound. Users can flexibly set tagging fields, and also can annotate the fields on dictionary and on tagged-text. Moreover, several co-occurrence and context analyses based on mixed search of text and tag are incorporated.. こうした言語研究のため,これまで幾つかのソフトウェア・ツールが提供されてき た.ひとつは,フィールド言語学のための SIL で提供している Toolbox [1]等であり, 他方はコーパス検索型のツールで,例えば WordSmith [2],AntConc [3],CLTOOL[4], な どが知られている.後者は,語リストの作成や,KWIC,コロケーションなどの検索 を可能とするものである.また,ChaKi [5]のようにタグ情報の検索を可能にしたもの なども報告されている. 今回報告する言語分析ツールは,大規模なコーパスを対象としたものではなく,フ ィールド言語学への適用をも考慮に入れた中小規模のコーパスに基づく言語研究を目 標に構築を進めているものである. これまでのコーパス検索型のソフトは,多言語を扱うという点で限定的であったり, †. 東京外国語大学 Tokyo University of Foreign Studies †† 東京外国語大学,アジア・アフリカ言語文化研究所 Tokyo University of Foreign Studies, Research Institute for Languages and Cultures of Asia and Africa. 1. ⓒ 2011 Information Processing Society of Japan.

(2) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 語中心の分析に限定されている,タグ項目の設定が利用者によって柔軟に設定できな い,などの問題点があった.本分析ツールの作成にあたって,以下の諸点をねらいと している. (1) 多言語化:広範囲の諸言語の分析研究に対応するため,文字コードは Unicode (UTF-8)とする. (2) 音韻,音節,形態素,語,複合語等の階層的諸要素の分析を可能とする. 言語要素のリスト項目(辞書)は自動作成される. (3) タグ項目は研究目的に合わせて利用者が任意に設定できる.また,辞書部分 とテキスト表示部分の双方からタグ付与が可能とする. (4) テキストとタグの複合検索を可能とする. (5) テキストの共起分析ばかりでなく,タグの共起分析,文脈分析を可能とする. (6) 音声情報との複合分析を可能とする.. 原コーパス 境界記号. 拡張コーパス. タグ付テキスト. 辞書(inventory) 相互更新. アノテーション 上記のうち,音韻分析や音声情報とのリンクは現在未搭載であり,本報告ではテキス トコーパスを扱う内容に関して報告する. なお,本ツールの動作環境は Windows であり,Ruby 1.8,Microsoft Office Excel 2007 を必要とする.. アノテーション. コーパス検索・分析 図 1. MDAS におけるコーパス処理の構成. 3. MDASの基本構成と内容 MDAS を用いたコーパス処理の内容を,図1に示す.コーパス処理は,原コーパ スへの区切り記号の挿入による拡張コーパスの作成,語・形態素リストの生成とタ グ付けによる辞書の作成,タグ付きテキストの生成とタグの更新,及び各種検索処 理から成っている.以下,これらについて順次述べる.. 表1 レベル 1 2 3 4 5 6 7 8 9. 区切り記号(境界記号)とその設定 連続した文字テキストを分析するためには,まず階層的な言語要素に分節するため の区切り記号を挿入することが必要になる.英語のテキストなどのように、punctuation と(スペース)によって語が区分化されている場合であって,分析が語レベルに止ま るときは特に記号の挿入は必要ない. 区切り記号の階層は,表1に示すように文や節等は 3 レベル(S1~S3),語内は 6 レ ベル(W1~W6) の階層を設定している.このうち,自由形式である語では,3 階層の 構造で記述される.特に W1 は,テキストの基本分節境界記号となる.一方,結合形 式形態素では 2 レベル(W4, W5)を設けた.統語接辞と造語接辞を想定したものであ るが,分析言語により使われ方は自由である.特に,造語接辞境界に相当する W5 で 3.1. 2. 文. 語内. 言語の階層と区切り記号. 記号 S1 S2 S3 W1 W2 W3 W4 W5 W6. 境界の内容. 要素の例. 文末 節末 (句末) 自由形式. 結合形式. 分節基本単位 複合語要素1 複合語要素2 統語接辞 造語接辞 形式形態素. 語,文節 語 語 助詞,助動詞 接頭辞,接尾辞,挿入辞 造語成分,音節. ⓒ 2011 Information Processing Society of Japan.

(3) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. はさらに細分化されて,W51 で接頭辞,W52 で接尾辞,W53 で挿入辞の各境界を表 す.最後の W6 は,音節など語内の境界としては認められるものの,造語単位として 切り出さない場合の境界として用いられる. これらは,すべてを必ずしも使用する必要はない.研究に応じて適宜テキストの分 節化のために使用される.なお,S や W のあとの数字を増やすことによって,各レベ ルで更に深い構造を表現することも可能である(W31, W32 など.3 桁まで可能). 一例として日本語の場合の区切り記号の定義と,それを挿入したテキストの例(拡 張テキスト)を示す. (日本語の場合の区切り記号の定義例) S1, 。 S1, ? S2, 、 W1, # W2, - W4, / W51, ≠ W52, = W6, ・ (日本語拡張テキストの例) 私/は#今日#初め・て#この#学習=院/と-いう-もの/の#中/に#這入り/ まし/た. もっとも#以前/から#学習=院/は#多分#この #見当/だろ/う/ ぐらい/に#考え/て-い/た /に/は#相違-あり/ませ・ん/が,はっきり / とは#存じ/ませ・ん/でし/た.(夏目漱石) 以後の説明では,日本語のテキストを例に取り上げ内容を説明する. 図 2 拡張テキストから辞書ファイルの作成 まず,区切り記号付き拡張テキスト(*.txt)から語や形態素のリスト(頻度付き辞書) を作成する.この MDAS プログラムは,Ruby で書かれており,コマンド・プロンプ トから起動される.出力は,エクセルのマクロ有効ワークシート( *.xlsm)である.オ プションは,上記入出力ファイルのほか,以下のものがある. ・区切り記号定義ファイル(*.txt) ・分節化する語内レベル記号(W1, W2, W4, W5 など) :語内階層のどのレベルで分 節化してリストを作成するかを指定する. ・辞書のタグ付け項目: (part-of-speech(POS)), (発音), (基本形)など. (なお,出 力のエクセルシート上で項目を追加してもよい) ・必要に応じて,出力語・形態素のソート順(文字順,逆引き文字順,頻度順など) を指定する.結合形式の単位は,default では区切り記号付き(つまり結合手付き) 単位として抽出されるが,記号付きとしない場合の選択も指定できる.. 拡張テキストから作成された辞書ファイルの例. 3.2. 作成される辞書ファイルの語・形態素の単位は異なってくる.なお,図中の第 1 行は 入力されたコマンドのオプション系列を示している. 図2のエクセルシートのタグ付け項目を埋めると辞書が出来上がるが,辞書の構築 を目的としない場合であっても,このワークシートはテキストへタグ付けを行うため の作業領域として利用される.テキストへの直接のタグ付けは,その作業量が大変に なるためである. タグ付きテキストの生成とタグ付きテキストエディタ 図2のエクセルシート上でタグ付与をおこない,各項目にタグが入力されて一応の 辞書が出来上がると,再び,コマンド・プロンプトから MDAS のソフトを起動する. これによって,辞書ファイルと同一の出力ファイルに,タグ付きのテキストが作成さ れる.(これは図 3 の右半分に相当する.) 次に,タグ付きテキストエディタ(TaggedText Editor)を起動すると,出力ファイル (*.xlsm)の辞書シートとタグ付きテキストシートが並んで表示される(図3). 3.3. 作成された辞書ファイルの例を図2に示す.区切り記号設定のオプションによって, 3. ⓒ 2011 Information Processing Society of Japan.

(4) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. タグ付きテキストシート. 辞書シート. 語彙タグ領域 非語彙タグ領域 統語タグ領域. 図 3. 単語・形態素辞書とタグ付きテキストの表示例. タグ付きテキストシートは,文や節の区切り記号毎に,分節化された単位を 1 セル として表示される.最初の行は,原テキストであり,その下に辞書シートの語彙タグ が表示される.更にその下に,非語彙タグと統語タグを付する 2 行があり,それぞれ のセルはうすいピンクと青で表示されている.非語彙タグは,モダリティや意図など 辞書項目の内容とは異なる情報を,統語タグは語や句の統語的関係を表す情報を付す ることを想定したフィールドである.この2行は,辞書シートとリンクはしていない ため,研究目的によっては,全く自由な使い方をしてもかまわない. タグ付きテキストエディタは,以下の4つの機能を有する. (1) 辞書とタグ付きテキストを同時に編集する機能を持つ. 辞書シート上でのタグ付けは,同音あるいは同形の語に異なるタグ付けをすること はむつかしい.また,前後のコンテキストによらなければタグ付けできない場合もあ る.例えば,図 3 の 2 番目のテキスト中の「/に」は助動詞としてのタグ(aux)が付さ れている.これは,辞書上で最初にそのようにタグ付けされたためであり,これをタ. グ付きテキスト上で助詞のタグ(p)に書き換えると,助詞「/に」が辞書上にあればそ の頻度が1追加され,なければ新たに助詞「/に」の項目が追加される.逆に,辞書 上でタグを修正すると,それに基づいてタグ付きテキストの対応するタグ部分が書き 換えられる.このように,両者を相互に修正することによって,適切な辞書とタグ付 きテキストが構成され,両者を維持管理することができる. (2)非語彙タグ,統語タグなど新たなアノテーションを付する. 語彙タグは辞書項目と一対一に対応しているため,セルの変更はできない.しかし, 非語彙セルと統語セル領域は,後述するように複数セルの統合やその解除が可能であ る.句や複合語単位でのタグ付けを可能とするためである. (3)テキストとタグに関する各種検索を実行する. (4)タグ付きテキスト,辞書,検索結果の保存機能を有する. 以下,(3)と(4)に関して具体的に述べる. 4. ⓒ 2011 Information Processing Society of Japan.

(5) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 4. タグ付きテキストエディタの機能表示. 表示を外 す場合. 3.4 タグ付きテキストエディタの機能タブ. タグ付きテキストエディタによって表示されたエクセルシートの上部における, MDAS リボンを選択すると,図4のタブが表示される.現在のところ,これらのタブ は,(表示),(検索),(コンテキスト検索),(コロケーション分析),(n-gram 分析), (シート保存),(XML 保存),(編集)の8項目である.各項目の文字列は,「実行ボ タン」,もしくは「ON/OFF」のトグルスイッチとなっている. (表示)タブの[表示項目の選択]ボタンをクリックすると,図 5 の窓が表示される. タグ付きテキストとして必要なもののみ選択すると,他のタグ領域は画面上表示され ない(必要なら区切り記号の境界情報もタグとして表示できるが,default では無表示). また,ここでタグが設定されると,以後の種々の検索の条件設定ウインドウにおいて も,設定以外のタグ条件は表示されない. (編集)では,非語彙タグと統語タグ領域のセルの結合とその解除を行う.結合す るセルを選択して,[セル結合]ボタンをクリックすると結合され,[セル結合解除]をク リックすると語彙対応のセルに戻る.. 図 5. タグ表示選択. 図 6. 「検索」条件設定窓. 3.5 各種検索処理とデータの保存. (1)検索 (検索)では,通常の検索と KWIC 検索を行う.検索の条件を設定する窓を図6に 示す.検索は,2 要素の検索も可能となっている.これは,例えばドイツ語の分離動 詞のような 2 要素検索も可能とするためである.KWIC 検索の場合の 2 要素の検索は, 連続した 2 要素を Key Word とする検索となる. 検索条件は,テキストだけではなくタグとの複合検索も可能であり,これらは AND 検索となる.また,検索ではタグも含めて正規表現が使用できる(これらは,後述す る他の検索も同様).. 図 7 5. 2 要素 KWIC 検索の例(後続テキストでソート) ⓒ 2011 Information Processing Society of Japan.

(6) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 8. 「コンテキスト検索」の条件設定窓. 図6の例は,助動詞「て」と動詞の連続の KWIC 検索の例であり,オプションとし て,後続テキストの文字順のソートと,前後 30 文字(半角)の KWIC 表示が設定さ れている.検索の表示順に関しては,Key Word の前後とテキスト/各種タグの指定に よるソーティングが可能である.図7に図6の指定による KWIC 検索結果の例を示す (指定された 1 番目の語,2 番目の語,およびソート対象のタグ類のセルは着色され ており,見やすくしてある). なお,本検索結果および以下の検索・分析結果は,すべて辞書ファイルとタグ付き テキストのあるエクセルファイル上に,新たなシートを生成して作成される. (2) コンテキスト検索 KWIC 検索は,語等を指定してそのコンテキストを見るものであるが,これは,指 定されたコンテキストにおける中心要素を見る機能である.一定の環境条件下での言 語要素の出現特性を見るために使用される. 図8は,条件入力のウインドウであり,コンテキスト指定は,左コンテキスト 2 要 素,右コンテキスト 2 要素から成っている(1 要素指定でもよい).コンテキスト検索 の条件は,テキストの他,表示指定されたタグ類で指定できる. また,コンテキストの中心要素の数は 3 要素までであり,(1 要素),(2 要素),(3 要素),(2 要素まで),(3 要素まで)の 5 条件を選択可能である. 図9は,図8の検索条件におけるコンテキスト検索の例を示す.. 図 9. コンテキスト検索の例(図 8 の条件に対応). 図 10 に,条件設定のウインドウを示す.指定事項は以下である. ・当該要素指定(テキスト,タグ) ・コロケーションを求める位置 (当該要素の前(左)/後(右)の別, 前方もしくは後方,何要素目の位置か,1~10 要素まで選択) 分析結果の出力は,頻度分析結果表示と KWIC 様表示の 2 様式があり,それぞれの ボタンで実行し,表示させる. KWIC 様表示では,当該要素と共起位置の要素までの区分を中心に,その前後のテキ ストをコンテキストとして表示される.. (3) コロケーション分析 コロケーション分析は,条件ウインドウで指定した要素を基に,これと共起する要 素を,指定された位置で求める機能である. 6. ⓒ 2011 Information Processing Society of Japan.

(7) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 10. コロケーション分析用 条件設定窓. 図 11. コロケーション分析結果例1 (頻度分析). 図 10 に,コロケーション分析の条件ウインドウを示す.また,図 11 は頻度分析の 結果であり,当該要素に POS [noun] を指定したとき,後方 2 要素目に出現する要素 の出現数を頻度順に示したものであり,この条件はシートの第 1 行目に表示されてい る.図 12 は,図 10 に示されている条件でのコロケーションの KWIC 表示の例である. ここでは,基本形[ある]で,かつ POS[verb]である要素から,前方 2 要素目に出現する 要素を示したものである.. 図 12. (4)n-gram 分析 この機能は,区分化されたテキストの分節要素の n-gram を求める機能である. 図 13 は,現在の n-gram 分析条件設定のウインドウである.n-gram は,mono-gram か ら 5-gram まで求めることができる. ウインドウの(対象項目)では,原テキストだけではなく,各タグについても選択 可能である.つまり POS や基本形などタグの n-gram も求めることができる.. コロケーション分析結果例2. 図 13 7. n-gram 分析. (KWIC 表示). 条件設定窓 ⓒ 2011 Information Processing Society of Japan.

(8) Vol.2011-CH-89 No.3 2011/1/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 参考文献. (5)データ保存 MDAS では,作成されたデータや分析結果を出力保存するボタンが表示されている. (シート保存)タブでは,タグ付きテキストと辞書ファイルを,エクセルシート(*.xlsx) としてエクスポート保存することができる.特に,辞書ファイルでは,これを MDAS コマンド実行時に,オプションとして指定することにより,Master Dictionary として 利用し,辞書内容を拡張するとともに,これを維持管理することが可能である. (XML 保存)は,辞書ファイルとタグ付きテキストをそれぞれ XML 形式のデータ として保存する機能である.XML 形式のコーパスを取り扱う言語分析ソフトを利用す るユーザのために設けられた. 各種検索や分析のタブには,それぞれ(結果シート保存)のボタンが設けられてい る.これらは,検索/分析結果を,エクセルシート(*.xlsx)として保存するためのもの である.保存されたシート上で,データの加工や統計処理等を行うことができる.. 1) http://www.sil.org/computing/toolbox/ 2) http://www.lexically.net/wordsmith/ 3) http://www.antlab.sci.waseda.ac.jp/antconc_index.htm 4) 佐野洋: Windows PC による日本語研究法-Perl, CLTOOl によるテキストデータ処理-,共立 出版 (2003) 5) Matsumoto, Yuji: Corpus Annotation/Management Tools for the Project: Balanced Corpus of Contemporary Written Japanese, Large-Scale Knowledge Resources: Construction and Application, pp.106-115, Springer (2008). 4. おわりに 本文では,種々の言語の研究に役立てることを目的として,言語分析ツールに関 して報告した.言語の分析では,特に共起性,コンテキスト,連接の特性などが重 要と考えているので,テキスト上ばかりでなく,タグ情報上でも同様の現象を調べ ることができるよう留意した.ここで提案したツールは,英語など,語と語があら かじめ区分化されているテキストでも利用可能ではあるが,むしろ表記上語境界を 明示しない言語(タイ語など)や,主格,対格,時制などが接辞によって表現され るような言語(スワヒリ語など)などの分析に有用であるかもしれない. 今後は,音韻や音声情報とのリンケージをとるとともに,現在流通している諸言 語の形態素解析や品詞付与のソフトとのインタフェースも考慮して,使いやすいも のにしていきたいと考えている.また,実際に種々の言語の研究に適用してみるこ とによって,改良や機能強化を図っていかねばならないであろう.現報告は作成途 上のものであることから,細部の仕様に変更の可能性があることを付記する. 謝辞 研究は,グローバルCOEプログラム「コーパスに基づく言語学教育研究拠 点」においてなされたものである.本ソフトウェア作成に協力いただいた杉浦功一氏 に深謝する.また各種言語研究の立場からご意見をいただいたグローバルCOEプロ ジェクトの研究員諸氏にお礼申し上げる.. 8. ⓒ 2011 Information Processing Society of Japan.

(9)

図 13 は,現在の n-gram 分析条件設定のウインドウである. n-gram は, mono-gram か

参照

関連したドキュメント

「文字詞」の定義というわけにはゆかないとこ ろがあるわけである。いま,仮りに上記の如く

チョウダイは後者の例としてあげることが出来

現地法人または支店の設立の手続きとして、下記の図のとおり通常、最初にオーストラリア証

本学級の児童は,89%の児童が「外国 語活動が好きだ」と回答しており,多く

の総体と言える。事例の客観的な情報とは、事例に関わる人の感性によって多様な色付けが行われ

と言っても、事例ごとに意味がかなり異なるのは、子どもの性格が異なることと同じである。その

編﹁新しき命﹂の最後の一節である︒この作品は弥生子が次男︵茂吉

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o