PDF 日本語の意味タグ体系を定義する試み

(1)

日本語の意味タグ体系を定義する試み FrameNet ^{の視点から}

黒田航井佐原均独立行政法人通信総合研究所

{kuroda,isahara}@crl.go.jp 2004 年 3 月 24 日

概要

本論文はBerkeley FrameNet (FN) [6, 7]に(緩やかに)準拠して日本語のための意味タグ体系を定義する可能性について考察する．そのような目的のためにFNが適している理由の一つとして，一貫した意味タグ体系の定義する際に不可欠な「意味要素の自然な分類特徴」が得られる点を指摘する．

1 背景

過去十数年間，自然言語処理は目覚ましい進歩を遂げた．その要因の一つは言語資源の充実によって可能となった機械学習アプローチの普及と定着である．品詞・統語情報などの付加情報（アノテーション）つきのコーパスを訓練データに用いた機械学習に基づいて，以前は不可能だった様々な成果が達成された．

このような手法によって達成された解析技術の高度化には目を見張るものがあり，同様の効果が意味処理にも期待しうるが，一つ大きな障壁がある．現時点では意味処理に適切な言語資源が存在しない．

このような空隙を埋めるのは急務であると考え，

通信総研の自然言語グループでは，次のような企画を開始した: (i) Berkeley FrameNet [6, 7]に準拠した日本語のための意味タグ体系Sの開発; (ii) S (の部分タグ)のついた日本語コーパスの構築と公開(ただし，現時点で公開するコーパスの規模は決まっていない)．

以下では，特に(i)に関してFNが意味タグ体系の定義に有効だと考えられる理由を論じる．

2 FrameNet が意味タグ体系の定義に有効である理由

2.1 有意味な意味タグ体系の条件

議論の始めに，[18]の意見を参考にしつつ，意味タグ体系が満足すべき一般的性質を幾つか上げておく．有効な意味タグ体系とは，

(1) 十分な体系性と一貫性が備わっていて，機械学習可能である

(2) 品詞情報や統語情報の体系から分離されていると同時に，それらと統合されている(か統合可能である)

(3) 特定の知識領域や目標課題(e.g., 機械翻訳) に限定されない一般性と網羅性を有し，多くの分野の研究者が有用な情報を引きだせる (4) 必要に応じて拡張可能である

これらは条件としては網羅的ではないが，要点は尽くしていると思われる．

FNは特に(3, 4)の問題に関して有効なアプロー

チである．以下では，この点に関して，詳しく説明する．この論文では扱わないが(1)の問題は[9]で検討されている．

(2)

2.2 課題としての意味タグづけ

品詞タグづけPOS taggingは，形態素解析の出力である形態素列に最適な品詞タグ列を割り当てる手順である．意味タグづけsemantic tagging/marking も，本質的には同様な手順として表現することが可能であるが，それには品詞タグづけにはない問題がある．例えば，

(5) 仮に意味タグ体系が閉じているとして，その空間(おそらく数百から数千のオーダー)は品詞タグの空間 (数十から数百のオーダー) より広大である

(6) 品詞タグづけの単位が比較的明瞭(e.g.,形態素,語)であるのに対し，意味タグづけの単位は(長年の言語学の研究にも係わらず)今もって十分に明瞭だとは言いがたい

(7) (5, 6)の当然の結果として，意味タグづけの

場合，最適なタグ列を決定する過程で生じる相互依存性がケタ違いに大きい

(8) 品詞タグ体系を定義するのに使用される分類特徴(±countable,±inflectional, ...)ほど自明な分類特徴が，意味タグ体系の定義の場合には得られない．つまり「意味要素の自然な分類特徴」の発見は自明ではない

(7)は計算的な側面を含み，FNが直接解答を与える問題ではないが，(6, 8)の問題に関して，FNは非常に有効な答えを提供しうる．以下では特に(8)の分類基準発見の問題に関して，その理由を述べる．

3 FS/FN の基本概念

FNはFillmoreのフレーム意味論Frame Seman- tics (FS)の応用であり[5]，その意味で，日本語自然言語処理でなじみの深い格文法Case Grammar [4]

の発展形でもある．しかし，以下に示すように，格

文法とFS/FNへの移行には幾つかの重要な概念的

変更も含まれる．

FS/FNは「理解には基本単位が存在する」という

仮定を立て，その単位を(意味)フレーム(semantic) frameと呼ぶ．

この意味でのフレームは非言語的な単位で，ヒト が理解できる状況を定義する構造体である．フレームが特定された時，(あるレベルの)理解が達成される．この際，フレームの特定性の程度の差によって

「浅い理解」と「深い理解」の差が生じる．

フレームが特定し表現しているのは「何が何のために何をどうした」という理解の単位である．

「何が」「何のために」「何を」のような項の性質はフレームが決定し，項の意味タイプによっては完全に定まらない．つまり，フレームは項の状況における役割を定める．このようにして定まる状況相対的な意味役割をFNではフレーム要素Frame Element (FE)と呼ぶ．

3.1 フレームの選択と語義の特定

語のタイプに係わらず，語は様々なフレームを喚起するが，その喚起の強度は語のタイプによって異なる．動詞は特にフレームの特定に大きく貢献する が，それでも完全に一つのフレームを特定はしな い．言い換えれば，動詞と名詞(群)との同一文内の組み合わせによってしかフレームは定まらない．例えば動詞「襲い手が犠牲者を襲う」には，[14]が記述するように，次の(i)-(iv)のようなフレームとその上位/下位フレームが幾つか存在する: (i)h(^主に捕食を目的とした)^{動物による襲撃}i^{のフレーム，}(ii) h(主に資源の強奪を目的とした)^{人間による攻撃}i のフレーム，(iii)h自然災害発生iのフレーム，(iii) h活動への打撃発生iのフレーム．これらのフレームが存在することで，(9)-(12)のそれぞれの表現で曖昧な指示“それ”の意味タイプが(決定可能でなくても)推定可能となる:

(9) 人食い鮫がそれを襲った[“それ”の型={人，

魚，ケガをしたイルカ, ...}]

(10) 強盗がそれが襲った[“それ”の型= {^銀行，

現金輸送車，コンビニ, ...}]

(11) それが東京を襲った[“それ”の型= {^地震，

台風，インフルエンザ, ...}]

(12) それが市場を襲った[“それ”の型={^株価の暴落，恐慌, ...}]

(3)

Word[j]

Frame[1]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[2]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[n]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

活性化

活性化 Word[i]

活性化

側抑制側抑制

側抑制

側抑制側抑制

Word[j]

Frame[1]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[2]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[n]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

活性化

活性化 Word[i]

活性化

側抑制側抑制

側抑制

側抑制側抑制 Word[1]

Word[n]

Word[1]

Word[n]

図1 ^競合からFrame[2]^{が選ばれた様子}

また，道具の使用が含意されるのは，(ii)のフレームのみである．

このことを一般化して言うと，どんな語も単独 ではフレームを特定する力はない．これが語の多義性の原因となる．別の言い方をすれば，語の多義 性，曖昧性の解消sense disambiguationとは，(ほか の語との共起によって)意味フレームが特定され，

フレーム内でのその語の意味役割が定まることである．

文中の異なる語が互いに異なるフレームを喚起することがある．この場合，そのようにして喚起されたフレーム間には競合的関係が発生し，(おそらく側抑制によって)そのうち一つのフレームが選ばれる．このことは簡単に図1に示した．

3.2 FN^{に関する幾つかの注意}

FS/FNの考える意味役割は，一方でフレーム相対

的，状況相対的である．それが状況相対的である理由は，それがモノの物理的，客観的特性には還元しえないからである．他方で，FS/FNの考える意味役割は，多分に文化相対的である．FS/FNはもはや，

格文法の頃のような「普遍的な意味役割の目録」に基づく意味記述は目指していない．

これらの点から明らかなように，FS/FNは理解の 記述を指向しており，真理条件の記述を指向する意 味論とは一線を画するものである．

FNがFSと異なっている点は，FNでは多数のフレームが継承関係などによって(オブジェクト指向デザイン風に)組織化された構造である点に注目している点にある．

FS/FNに基づく意味タグ体系には限界もある．例

えば，修飾部に現われる形容(動)詞の扱いは自明ではない^*1．これらの意味の基盤を何に求めるかは，

現時点では見通しが立っていない．

*1Berkeley版のFNでは形容詞や名詞にもフレームが存在

することになっているが，第一筆者はこの扱いには疑問を感じている．意味フレームの記述力が本当に経験的に有意味な範囲(^{例えば計算可能な範囲})^{に制限してあるこ} とは，工学的，認知科学的的見地からは，極めて重要である．この点で，Berkeley FNのフレーム認定の基準は些か奔放すぎると感じられる．

(4)

!"#$% &$'($")* +,-($./0 12$%34565)7

+,-($.89 12$%34565)7

+,-($.:;<=>

12$%34565)7

+,-($.?@1A

$%34565)7

+,-($.BC1A

$%34565)7

D EFGH< +I.:;<=>JKL

M :;NO PQRISTQS

U TVWWD +I.89J89X

Y TVWWM +I./0J/0X +I.?@J?@X +I.BCJBCX

Z [\]^_`a +I./0Jbc d /0ef PQRISTQS

g hi< +I.?@Jhi PQRISTQS

j kl +I./0Jmn +I.89J89o PQRISTQS +I.BCJmn

p qrsH +I.89JKL

Dt uvwxy PQRISTQS

DD z{l DM |}~•

DZ €

+I.89J89o<

hi

+I.?@J•c +I.BCJ•c +I.:;=>J‚ƒ

図2 ^{タグづけ案}

3.3 ^{意味フレームの実在性}

第一著者を含む共同研究[17]で，二つの心理実験(カード分類課題，意味素性評定課題)の多変量解析(クラスター分析，因子分析，多次元尺度法)の結果から，意味フレームが実在することを強く示唆する結果が得られている．これは意味タグの基礎とな る意味フレームが単なる理論仮構物(あるいは言語 学者の妄想)ではないことを意味する．

子の結果はFN/FS全体にとっては好意的なものである．ただし，Berkeley FN の設定しているフレームの粒度に関しては，これらの分析の結果は問題なしとはしない．実際，Berkeley FNでフレームの最適な粒度(あるいは記述の細かさ)に関する議論は見当たらない．しかし，フレームの最適な粒度を(課題ごとに)設定するというのは，意味タグつきのコーパスを有意義な言語資源とするために必須な条件である．

4 意味タグづけ例

以上の議論から解るように，意味タグとしてフレーム要素FEを採用するのは有効である．これが正しいならば，FN/FSは(8)の問題に対して(間接的には(6) に対しても)有望な答えを出している．

以下では，S:「西寧市での暴動は，イスラム教徒を侮辱する内容の本が四川省で刊行されたことがきっかけ」(日英対訳コーパス[19]の実例)という文に

対する暫定的タグづけ案を基に，この主張の妥当性を見当する．

4.1 複層コーディング

フレーム要素を意味タグとして採用した場合，S に対し，どのような構造が与えられるかを示すタグづけ例を図2に示す(フレームごとに色分けしてある)．

ここで便宜的に[+explicit]^{の特徴を割り当てた} フレーム(h侮辱i，h出版i，h刊行i)は表層形に明示的な喚起体=支配項governor (“侮辱(する)”，“ 本”，“刊行(する)”)をもつもの，の特徴を割り当てた[−explicit]のフレーム(h執筆i，h表現i)はそれをもたないものである．明示的な支配項がないフレーム場合，そのタグづけはFN内部の含意関係に基づいて自動的な推論として示されるので，明示的にコーディングされる必要はない．^*2

図2にある意味タグづけはBerkeley FNが定める枠組みに第一著者が独自に拡張した版に準拠している．拡張の基本は，一つに文に幾つものフレームが 同時に現れるという「フレームの複層的実現」の問 題に対応させることである．この種の拡張なしに任意の言語の任意のコーパスに，多くの分野の研究者にとって利用価値のある現実的なコーディングをな

*2FN自体はオブジェクト指向デザインの関係データベースであり，内部的にはフレーム同士はネットワーク構造をなしている．

(5)

しうるとは考えられない．^*3

4.2 「深層構造」の概念への関連

図2にあるような多層的なコーディングを採用すると，フレームは実質的に，いわゆる深層構造 deep structureと同じ役割を果たしているのが判る．

これは興味深い点である．この点が正しいならば，

言語学の従来の記述的貢献をタグづけの目的のために，再利用することが可能となる．^*4

多層的実現の下での深層構造と表層構造の対応関係は多重継承multiple inheritanceで，同時的，並列的であり，深層構造としてのフレームはいわゆる派

生derivationで順序づけられた履歴を伴って表層形

に結びつけられているわけではない．

文法関係の記述に多重継承の考えを(HPSGなどとは違った形で)応用する際に基礎となる理論的枠組みは，すでにPattern Matching Analysis (PMA) という名称で，第一著者によって開発済みである [11, 12, 13]．^*5

5 ^{日本語のための} FN/FS ^{の将来の展望}

手短に，工学におけるFN/FSの位置を比較する．

5.1 FN/FSの意味タグ体系設計のための有効性

以上のことから強く示唆されるのは，FS/FNは意味タグ体系を定義するのに有用であろう，ということである．

だが，FS/FNが記述するのは可能な意味タグ体

系の全体ではないし，それには自ずから，限界もあ

*3Berekeley FNは現時点では，暗黙に「一文につき一フレーム」のような作業仮説を置いているように見受けられるが，自然言語の複雑性は，このような恣意的な制約によっては押さえこめないと思われる．

*4認知言語学系の言い方をすると，これは表層系(の意味構造)は，幾つものフレームのブレンドblendに相当するとも言えるであろう[2]．

*5PMAは元来，主語，(間接)目的等の文法機能grammatical

functionに基づいて統語構造を記述する枠組みとして開発

されたが，その後，Berkeley FNの現時点での問題点(e.g.,

「一文につき一フレーム」の原則の存在)を補うという応用的価値をもつことが判明した．

る．実際，シソーラスが扱っている側面とFN/FS が扱っている側面は，おそらく直交的である．これは属性ベースの意味記述と役割ベースの意味記述とのあいだに「インターフェイス」が必要だということを示唆している．

有用な意味タグ体系は客観的特徴の集大成としてのシソーラスがあれば十分だというわけではない．

理解を問題にするのであれば，その単位として意味フレームの詳細な記述に基づくべきである．

実際，EDR [?]であれ, WordNet[3]であれ，規模の大きいシソーラスには雑多な情報が統一感なく入り交じっていて，利用の際の便も，理論的見通しも悪い．この問題は，属性ベースの意味記述と役割ベースの意味記述という「直交的な性質」を分離し，それらの記述をシソーラス・プロバーとフレームネットの分業に割り振ることよって，自然に解消できると考えられる．

更に，このような分業により，古典的な「フレーム問題」，つまり記述量の爆発も避けることが可能となると考えられる．

5.2 ^{類似の枠組みとの比較}

動機や目標は異なるが，意味タグ体系，あるいはそれに類するものを定義する試みは，幾つも存在する．その代表的なものは橋田浩一らが提唱しているGlobal Document Annotation (GDA)，WordNet [3]，Resource Description Framework (RDF) [15]とその利用形態としてのSemantic Web [1]，Ontolo- gies [16]などである．

また，機械翻訳などの特定の言語処理に役立つ辞書構築の企画の一つとFNを見なすならば，それは格フレーム辞書構築[10]と明白な関連をもつ．

このような試みとFNとのあいだには興味深い類似点，相違点が存在するが，FNは次の点で際立っている．

(13) 知識構造の直接表現でなく，それを資源として達成される理解のモデル化を目指す

(14) (13)の結果として，型ベースではなく役割

ベースのコーディング体系を採用する

(6)

(15) 言語学者の意味に関する優れた直観と工学者の優れた技術力を統合する

第一の点に関しては，すでに述べた．ほかに二点に関しては，分量の制限もあり，この論文で詳しく論じるのを避ける．

6 結論に代えて : 言語科学者が FrameNet に期待しているもの

以上，FNの有効性に関して，主に工学的な観点から論じてきた．だが，第一筆者の背景は言語学/ 認知科学であり，関心の中心は必ずしも工学的なものではない．以下，彼がFNに強い期待をもっている理由を説明する．

意味タグはコーパス利用者の関心を反映したものでなければならないことは，最初に述べた．だが，

これが日本語のコーパスの従来の構築法の延長線状に起こるとは考えにくい．京大コーパスであれ何であれ，言語学者が積極的に構築に関わってこなかったという理由もあって，それらの言語学的，認知科学的有用性は限られている．

言語学者はコーパス利用に関して，今までは「工学者の作った便利なものを使わせてもらう」という受身な発想をすることが多かった．だが，これから は「本当に自分の必要にあったコーパスを自分でデ ザインし，それを工学者に注文する(あるいは共同 開発する)」という能動的な姿勢を取るべきであり，

そのような形で工学者と積極的に係わってゆくべきだと第一著者は考える．

このような共同作業を通じて言語学が受ける恩恵は絶大なものである．現時点での言語学は，実験生 物学成立以前の生物学のような状態にある．言語学者の一部には一部の先導者の意見に躍らされて，言語学を物理学になぞらえる人々がいるが[8]，これは明らかに言語学自体にとって好ましい結果を生んでいない．いわゆる「チョムスキー革命」以来，言語学者は体系的にデータを収集し，それを理論的バイアスを回避しながら記述するという自然科学的に基本的な研究態度を取るのを止めてしまった．その

結果，言語学者はすっかり怠惰になり，言語データ を真剣に見なくなり，自分の理論に都合のいい例を 作例し，気に入った現象を恣意的に「説明」してい る．現在，データ収集の方法は行き当たりばったりで，ご都合主義的であり，完全に非科学的である．

そのような劣悪な記述に基づいて(例えばUGに関する)「深遠」な説明を提案するのに言語学者は忙しい．これが現在の「科学的」言語学の実態である．

だからと言って，第一著者は「伝統的」言語学にありがちな，見通しのない，瑣末主義的な現象の記述に回帰すれば良いと主張しているわけではない．

言語の記述が言語資源と呼べるためには，まず，それが効果的に(i)再利用可能であり，(ii)共同利用可能であることが必要である．効果的に再利用可能であるためには，(iii)記述のフォーマットが定まっていて，利用者に解釈のために最低限の前提知識しか要求しないことが必要である．更に言えば，(iv) 記述が電子化され，(v)データベース化されていて，

(vi)オンラインで利用可能であることが望ましい．

言語記述という問題において，言語学がこれまで分野を越える共有資源の構築になした貢献は実質的に無に等しい．特に意味記述の分野でこの傾向は顕著であり，それが認知科学的には意味の実証的理論の立ち後れ，工学的には意味処理の立ち後れに結果していると思われる．FNは，このような事情に歯止めをかける枠組みとして有望である．それは，言語学が過去数十年間の怠惰から失った関連研究分野との実りある連携関係を取り戻すきっかけを与えるかも知れない．

参考文献

[1] Berners-Lee, Tim, James Hendler, and Ora Las- sila. 2001. The semantic web. Scientific Ameri- can. May 2001.

[2] Fauconnier, Gilles. 1997. Mappings in Thought and Language. Cambridge University Press.

[3] Fellbaum, Christiane, Ed. 1987. WordNet: An Electronic Lexical Database. Cambridge, MA:

MIT Press.

[4] Fillmore, Charles J. 1968. The case for case. In

(7)

Universals in Linguistic Theory, pp. 1-88. Ed.

W. Bach and R. T. Harms. New York, Holt, Rinehart & Winston.

[5] Fillmore, Charles J. 1982. Frame semantics. In Linguistics in the Morning Calm, pp. 111–137.

Ed. Linguistic Society of Korea. Seoul, Hanshin Publishing.

[6] Fillmore, Charles J., C. Wooters, and C. F.

Baker. 2001. Buildinig a large lexical databank which provides deep semantics. In Proceedings of the 15th Pacific Asia Conference on Language Information and Computation.

[7] Fontenelle, Thierry, Ed. 2003. International Journal of Lexicography, 2003 Sep Special Is- sue: FrameNet and Frame Semantics.

[8] 福井直樹. 2001.自然科学としての言語学: 生成文法とは何か.東京:大修館.

[9] Gildea, Daniel, and Jurafsky, Daniel. 2002. Au- tomatic labelling of semantic roles. Computa- tional Linguistics 28 (3): 245–288.

[10] 河原大輔・黒橋禎夫. 2002.用言と直前の格要素の組を単位とする格フレームの自動獲得.自然言語処理. 9 (1).

[11] Kuroda, Kow. 1999. Outlining Pattern Matching Analysis: A theoretical framework proposed for a realistic description of natural language syntax.言語科学論集, No. 5: 1-31.京都大学基礎科学科,京都.

[12] Kuroda, Kow. 2000. Foundations of Pattern Matching Analysis, A New Method Proposed for the Cognitively Realistic Description of Natu- ral Language Syntax.未刊行博士論文.人間・

環境学研究科.京都大学. [http://clsl.hi.h.kyoto- u.ac.jp/ kkuroda/papers/kuroda2000/*.pdfから章ごとにダウンロード可能]

[13] Kuroda, Kow. 2001. Presenting the Pattern Matching Analysis, A Framework Proposed for the Realistic Description of Natural Language Syntax. Journal of English Linguistic Society, 17: 71-80. English Linguistic Society of Japan.

[14] 黒田航・野沢元. 2004. 比喩理解におけるフレーム的知識の重要性: FrameNet との接点. [http://clsl.hi.h.kyoto- u.ac.jp/˜kkuroda/papers/metaphor-and-

frames.pdf].

[15] Lassila, Ora, et al.. 1999. Resource De- scription Framework (RDF) Model and Syntax Specification. W3C Recommendation hhttp://www.w3.org/TR/REC-rdf-syntaxi [16] 溝口理一朗. 1999.オントロジー研究の基礎と

応用.人工知能学会誌14 (6). 45–56 [977-988]

[17] 中本敬子・野澤元・黒田航. 2004. 動詞

「襲う」の多義性:カード分類課題と意味素性評定課題による検討.認知心理学会第二回大会口頭発表.同志社大学. [http://clsl.hi.h.kyoto- u.ac.jp/ kkuroda/papers/Nakamoto-et-al- CogPsy2004-Original.pdfから入手可能] [18] Wilson, Andew and Thomas, Jenny. 1997. Se-

mantic annotation. In Corpus Annotation: Lin- guistic Information from Computer Text Cor- pora. Ed. R. Garside, G. Leeach, and A.

McEnery. London: Longman.

[19] Utiyama, Masao, and Hitoshi Isahara. 2003. Re- liable Measures for Aligning Japanese-English News Articles and Sentences. ACL-2003: 72–

79.

PDF 日本語の意味タグ体系を定義する試み

日本語の意味タグ体系を定義する試み FrameNet の視点から

黒田 航 井佐原 均 独立行政法人 通信総合研究所

{kuroda,isahara}@crl.go.jp 2004 年 3 月 24 日

概要

1 背景

2 FrameNet が意味タグ体系の定義に有 効である理由

3 FS/FN の基本概念

4 意味タグづけ例

5 日本語のための FN/FS の将来の展望

6 結論に代えて : 言語科学者が FrameNet に期待しているもの

参考文献

日本語の意味タグ体系を定義する試み FrameNet ^{の視点から}

黒田航井佐原均独立行政法人通信総合研究所

2 FrameNet が意味タグ体系の定義に有効である理由

5 ^{日本語のための} FN/FS ^{の将来の展望}