• 検索結果がありません。

PDF 日本語の意味タグ体系を定義する試み

N/A
N/A
Protected

Academic year: 2023

シェア "PDF 日本語の意味タグ体系を定義する試み"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

日本語の意味タグ体系を定義する試み FrameNet の視点から

黒田 航   井佐原 均 独立行政法人 通信総合研究所

{kuroda,isahara}@crl.go.jp 2004 年 3 月 24 日

概要

本論文はBerkeley FrameNet (FN) [6, 7]に(緩や かに)準拠して日本語のための意味タグ体系を定義 する可能性について考察する.そのような目的のた めにFNが適している理由の一つとして,一貫した 意味タグ体系の定義する際に不可欠な「意味要素の 自然な分類特徴」が得られる点を指摘する.

1 背景

過去十数年間,自然言語処理は目覚ましい進歩を 遂げた.その要因の一つは言語資源の充実によって 可能となった機械学習アプローチの普及と定着であ る.品詞・統語情報などの付加情報(アノテーショ ン)つきのコーパスを訓練データに用いた機械学習 に基づいて,以前は不可能だった様々な成果が達成 された.

このような手法によって達成された解析技術の高 度化には目を見張るものがあり,同様の効果が意味 処理にも期待しうるが,一つ大きな障壁がある.現 時点では意味処理に適切な言語資源が存在しない.

このような空隙を埋めるのは急務であると考え,

通信総研の自然言語グループでは,次のような企 画を開始した: (i) Berkeley FrameNet [6, 7]に準拠 した日本語のための意味タグ体系Sの開発; (ii) S (の部分タグ)のついた日本語コーパスの構築と公 開(ただし,現時点で公開するコーパスの規模は決 まっていない).

以下では,特に(i)に関してFNが意味タグ体系 の定義に有効だと考えられる理由を論じる.

2 FrameNet が意味タグ体系の定義に有 効である理由

2.1 有意味な意味タグ体系の条件

議論の始めに,[18]の意見を参考にしつつ,意味 タグ体系が満足すべき一般的性質を幾つか上げてお く.有効な意味タグ体系とは,

(1) 十分な体系性と一貫性が備わっていて,機械 学習可能である

(2) 品詞情報や統語情報の体系から分離されてい ると同時に,それらと統合されている(か統 合可能である)

(3) 特定の知識領域や目標課題(e.g., 機械翻訳) に限定されない一般性と網羅性を有し,多く の分野の研究者が有用な情報を引きだせる (4) 必要に応じて拡張可能である

これらは条件としては網羅的ではないが,要点は 尽くしていると思われる.

FNは特に(3, 4)の問題に関して有効なアプロー

チである.以下では,この点に関して,詳しく説明 する.この論文では扱わないが(1)の問題は[9]で 検討されている.

(2)

2.2 課題としての意味タグづけ

品詞タグづけPOS taggingは,形態素解析の出力 である形態素列に最適な品詞タグ列を割り当てる手 順である.意味タグづけsemantic tagging/marking も,本質的には同様な手順として表現することが可 能であるが,それには品詞タグづけにはない問題が ある.例えば,

(5) 仮に意味タグ体系が閉じているとして,その 空間(おそらく数百から数千のオーダー)は 品詞タグの空間 (数十から数百のオーダー) より広大である

(6) 品詞タグづけの単位が比較的明瞭(e.g.,形態 素,語)であるのに対し,意味タグづけの単 位は(長年の言語学の研究にも係わらず)今 もって十分に明瞭だとは言いがたい

(7) (5, 6)の当然の結果として,意味タグづけの

場合,最適なタグ列を決定する過程で生じる 相互依存性がケタ違いに大きい

(8) 品詞タグ体系を定義するのに使用される分類 特徴(±countable,±inflectional, ...)ほど自明 な分類特徴が,意味タグ体系の定義の場合に は得られない.つまり「意味要素の自然な分 類特徴」の発見は自明ではない

(7)は計算的な側面を含み,FNが直接解答を与え る問題ではないが,(6, 8)の問題に関して,FNは非 常に有効な答えを提供しうる.以下では特に(8)の 分類基準発見の問題に関して,その理由を述べる.

3 FS/FN の基本概念

FNはFillmoreのフレーム意味論Frame Seman- tics (FS)の応用であり[5],その意味で,日本語自然 言語処理でなじみの深い格文法Case Grammar [4]

の発展形でもある.しかし,以下に示すように,格

文法とFS/FNへの移行には幾つかの重要な概念的

変更も含まれる.

FS/FNは「理解には基本単位が存在する」という

仮定を立て,その単位を(意味)フレーム(semantic) frameと呼ぶ.

この意味でのフレームは非言語的な単位で,ヒト が理解できる状況を定義する構造体である.フレー ムが特定された時,(あるレベルの)理解が達成され る.この際,フレームの特定性の程度の差によって

「浅い理解」と「深い理解」の差が生じる.

フレームが特定し表現しているのは「何が何のた めに何をどうした」という理解の単位である.

「何が」「何のために」「何を」のような項の性質は フレームが決定し,項の意味タイプによっては完全 に定まらない.つまり,フレームは項の状況におけ る役割を定める.このようにして定まる状況相対的 な意味役割をFNではフレーム要素Frame Element (FE)と呼ぶ.

3.1 フレームの選択と語義の特定

語のタイプに係わらず,語は様々なフレームを喚 起するが,その喚起の強度は語のタイプによって異 なる.動詞は特にフレームの特定に大きく貢献する が,それでも完全に一つのフレームを特定はしな .言い換えれば,動詞と名詞(群)との同一文内の 組み合わせによってしかフレームは定まらない.例 えば動詞「襲い手が犠牲者を襲う」には,[14]が記 述するように,次の(i)-(iv)のようなフレームとそ の上位/下位フレームが幾つか存在する: (i)h(主に捕 食を目的とした)動物による襲撃iのフレーム,(ii) h(主に資源の強奪を目的とした)人間による攻撃i のフレーム,(iii)h自然災害発生iのフレーム,(iii) h活動への打撃発生iのフレーム.これらのフレー ムが存在することで,(9)-(12)のそれぞれの表現で 曖昧な指示“それ”の意味タイプが(決定可能でなく ても)推定可能となる:

(9) 人食い鮫がそれを襲った[“それ”の型={人,

魚,ケガをしたイルカ, ...}]

(10) 強盗がそれが襲った[“それ”の型= {銀行,

現金輸送車,コンビニ, ...}]

(11) それが東京を襲った[“それ”の型= {地震,

台風,インフルエンザ, ...}]

(12) それが市場を襲った[“それ”の型={株価の 暴落,恐慌, ...}]

(3)

Word[j]

Frame[1]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[2]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[n]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

活性化

活性化

活性化 Word[i]

活性化

側抑制 側抑制

側抑制

側抑制 側抑制

Word[j]

Frame[1]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[2]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[n]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

活性化

活性化

活性化 Word[i]

活性化

側抑制 側抑制

側抑制

側抑制 側抑制 Word[1]

Word[n]

Word[1]

Word[n]

図1 競合からFrame[2]が選ばれた様子

また,道具の使用が含意されるのは,(ii)のフレー ムのみである.

このことを一般化して言うと,どんな語も単独 ではフレームを特定する力はない.これが語の多 義性の原因となる.別の言い方をすれば,語の多義 性,曖昧性の解消sense disambiguationとは,(ほか の語との共起によって)意味フレームが特定され,

フレーム内でのその語の意味役割が定まることで ある.

文中の異なる語が互いに異なるフレームを喚起す ることがある.この場合,そのようにして喚起され たフレーム間には競合的関係が発生し,(おそらく 側抑制によって)そのうち一つのフレームが選ばれ る.このことは簡単に図1に示した.

3.2 FNに関する幾つかの注意

FS/FNの考える意味役割は,一方でフレーム相対

的,状況相対的である.それが状況相対的である理 由は,それがモノの物理的,客観的特性には還元し えないからである.他方で,FS/FNの考える意味役 割は,多分に文化相対的である.FS/FNはもはや,

格文法の頃のような「普遍的な意味役割の目録」に 基づく意味記述は目指していない.

これらの点から明らかなように,FS/FNは理解の 記述を指向しており,真理条件の記述を指向する意 味論とは一線を画するものである.

FNがFSと異なっている点は,FNでは多数のフ レームが継承関係などによって(オブジェクト指向 デザイン風に)組織化された構造である点に注目し ている点にある.

FS/FNに基づく意味タグ体系には限界もある.例

えば,修飾部に現われる形容(動)詞の扱いは自明で はない*1.これらの意味の基盤を何に求めるかは,

現時点では見通しが立っていない.

*1Berkeley版のFNでは形容詞や名詞にもフレームが存在

することになっているが,第一筆者はこの扱いには疑問 を感じている.意味フレームの記述力が本当に経験的に 有意味な範囲(例えば計算可能な範囲)に制限してあるこ とは,工学的,認知科学的的見地からは,極めて重要であ る.この点で,Berkeley FNのフレーム認定の基準は些か 奔放すぎると感じられる.

(4)

!"#$% &$'($")* +,-($./0 12$%34565)7

+,-($.89 12$%34565)7

+,-($.:;<=>

12$%34565)7

+,-($.?@1A

$%34565)7

+,-($.BC1A

$%34565)7

D EFGH< +I.:;<=>JKL

M :;NO PQRISTQS

U TVWWD +I.89J89X

Y TVWWM +I./0J/0X +I.?@J?@X +I.BCJBCX

Z [\]^_`a +I./0Jbc d /0ef PQRISTQS

g hi< +I.?@Jhi PQRISTQS

j kl +I./0Jmn +I.89J89o PQRISTQS +I.BCJmn

p qrsH +I.89JKL

Dt uvwxy PQRISTQS

DD z{l DM |}~•

DZ €

+I.89J89o<

hi

+I.?@J•c +I.BCJ•c +I.:;=>J‚ƒ

図2 タグづけ案

3.3 意味フレームの実在性

第一著者を含む共同研究[17]で,二つの心理実 験(カード分類課題,意味素性評定課題)の多変量解 析(クラスター分析,因子分析,多次元尺度法)の結 果から,意味フレームが実在することを強く示唆す る結果が得られている.これは意味タグの基礎とな る意味フレームが単なる理論仮構物(あるいは言語 学者の妄想)ではないことを意味する.

子の結果はFN/FS全体にとっては好意的なもの である.ただし,Berkeley FN の設定しているフ レームの粒度に関しては,これらの分析の結果は問 題なしとはしない.実際,Berkeley FNでフレーム の最適な粒度(あるいは記述の細かさ)に関する議 論は見当たらない.しかし,フレームの最適な粒度 を(課題ごとに)設定するというのは,意味タグつき のコーパスを有意義な言語資源とするために必須な 条件である.

4 意味タグづけ例

以上の議論から解るように,意味タグとしてフ レーム要素FEを採用するのは有効である.これが 正しいならば,FN/FSは(8)の問題に対して(間接 的には(6) に対しても)有望な答えを出している.

以下では,S:「西寧市での暴動は,イスラム教徒を 侮辱する内容の本が四川省で刊行されたことがきっ かけ」(日英対訳コーパス[19]の実例)という文に

対する暫定的タグづけ案を基に,この主張の妥当性 を見当する.

4.1 複層コーディング

フレーム要素を意味タグとして採用した場合,S に対し,どのような構造が与えられるかを示すタ グづけ例を図2に示す(フレームごとに色分けして ある).

ここで便宜的に[+explicit]の特徴を割り当てた フレーム(h侮辱ih出版ih刊行i)は表層形に 明示的な喚起体=支配項governor (“侮辱(する)”,“ 本”,“刊行(する)”)をもつもの,の特徴を割り当て た[explicit]のフレーム(h執筆ih表現i)はそ れをもたないものである.明示的な支配項がないフ レーム場合,そのタグづけはFN内部の含意関係に 基づいて自動的な推論として示されるので,明示的 にコーディングされる必要はない.*2

図2にある意味タグづけはBerkeley FNが定める 枠組みに第一著者が独自に拡張した版に準拠してい る.拡張の基本は,一つに文に幾つものフレームが 同時に現れるという「フレームの複層的実現」の問 題に対応させることである.この種の拡張なしに任 意の言語の任意のコーパスに,多くの分野の研究者 にとって利用価値のある現実的なコーディングをな

*2FN自体はオブジェクト指向デザインの関係データベース であり,内部的にはフレーム同士はネットワーク構造を なしている.

(5)

しうるとは考えられない.*3

4.2 「深層構造」の概念への関連

図2にあるような多層的なコーディングを採用 すると,フレームは実質的に,いわゆる深層構造 deep structureと同じ役割を果たしているのが判る

これは興味深い点である.この点が正しいならば,

言語学の従来の記述的貢献をタグづけの目的のため に,再利用することが可能となる.*4

多層的実現の下での深層構造と表層構造の対応関 係は多重継承multiple inheritanceで,同時的,並列 的であり,深層構造としてのフレームはいわゆる

derivationで順序づけられた履歴を伴って表層形

に結びつけられているわけではない.

文法関係の記述に多重継承の考えを(HPSGなど とは違った形で)応用する際に基礎となる理論的 枠組みは,すでにPattern Matching Analysis (PMA) という名称で,第一著者によって開発済みである [11, 12, 13].*5

5 日本語のための FN/FS の将来の展望

手短に,工学におけるFN/FSの位置を比較する.

5.1 FN/FSの意味タグ体系設計のための有効性

以上のことから強く示唆されるのは,FS/FNは意 味タグ体系を定義するのに有用であろう,というこ とである.

だが,FS/FNが記述するのは可能な意味タグ体

系の全体ではないし,それには自ずから,限界もあ

*3Berekeley FNは現時点では,暗黙に「一文につき一フレー ム」のような作業仮説を置いているように見受けられる が,自然言語の複雑性は,このような恣意的な制約によっ ては押さえこめないと思われる.

*4認知言語学系の言い方をすると,これは表層系(の意味構 造)は,幾つものフレームのブレンドblendに相当すると も言えるであろう[2]

*5PMAは元来,主語,(間接)目的等の文法機能grammatical

functionに基づいて統語構造を記述する枠組みとして開発

されたが,その後,Berkeley FNの現時点での問題点(e.g.,

「一文につき一フレーム」の原則の存在)を補うという応 用的価値をもつことが判明した.

る.実際,シソーラスが扱っている側面とFN/FS が扱っている側面は,おそらく直交的である.これ は属性ベースの意味記述と役割ベースの意味記述と のあいだに「インターフェイス」が必要だというこ とを示唆している.

有用な意味タグ体系は客観的特徴の集大成として のシソーラスがあれば十分だというわけではない.

理解を問題にするのであれば,その単位として意味 フレームの詳細な記述に基づくべきである.

実際,EDR [?]であれ, WordNet[3]であれ,規模 の大きいシソーラスには雑多な情報が統一感なく 入り交じっていて,利用の際の便も,理論的見通 しも悪い.この問題は,属性ベースの意味記述と役 割ベースの意味記述という「直交的な性質」を分離 し,それらの記述をシソーラス・プロバーとフレー ムネットの分業に割り振ることよって,自然に解消 できると考えられる.

更に,このような分業により,古典的な「フレー ム問題」,つまり記述量の爆発も避けることが可能 となると考えられる.

5.2 類似の枠組みとの比較

動機や目標は異なるが,意味タグ体系,あるいは それに類するものを定義する試みは,幾つも存在 する.その代表的なものは 橋田浩一らが提唱して いるGlobal Document Annotation (GDA),WordNet [3],Resource Description Framework (RDF) [15]と その利用形態としてのSemantic Web [1],Ontolo- gies [16]などである.

また,機械翻訳などの特定の言語処理に役立つ辞 書構築の企画の一つとFNを見なすならば,それは 格フレーム辞書構築[10]と明白な関連をもつ.

このような試みとFNとのあいだには興味深い類 似点,相違点が存在するが,FNは次の点で際立っ ている.

(13) 知識構造の直接表現でなく,それを資源とし て達成される理解のモデル化を目指す

(14) (13)の結果として,型ベースではなく役割

ベースのコーディング体系を採用する

(6)

(15) 言語学者の意味に関する優れた直観と工学者 の優れた技術力を統合する

第一の点に関しては,すでに述べた.ほかに二点 に関しては,分量の制限もあり,この論文で詳しく 論じるのを避ける.

6 結論に代えて : 言語科学者が FrameNet に期待しているもの

以上,FNの有効性に関して,主に工学的な観点 から論じてきた.だが,第一筆者の背景は言語学/ 認知科学であり,関心の中心は必ずしも工学的なも のではない.以下,彼がFNに強い期待をもってい る理由を説明する.

意味タグはコーパス利用者の関心を反映したもの でなければならないことは,最初に述べた.だが,

これが日本語のコーパスの従来の構築法の延長線状 に起こるとは考えにくい.京大コーパスであれ何で あれ,言語学者が積極的に構築に関わってこなかっ たという理由もあって,それらの言語学的,認知科 学的有用性は限られている.

言語学者はコーパス利用に関して,今までは「工 学者の作った便利なものを使わせてもらう」という 受身な発想をすることが多かった.だが,これから は「本当に自分の必要にあったコーパスを自分でデ ザインし,それを工学者に注文する(あるいは共同 開発する)」という能動的な姿勢を取るべきであり,

そのような形で工学者と積極的に係わってゆくべき だと第一著者は考える.

このような共同作業を通じて言語学が受ける恩恵 は絶大なものである.現時点での言語学は,実験生 物学成立以前の生物学のような状態にある.言語学 者の一部には一部の先導者の意見に躍らされて,言 語学を物理学になぞらえる人々がいるが[8],これ は明らかに言語学自体にとって好ましい結果を生ん でいない.いわゆる「チョムスキー革命」以来,言 語学者は体系的にデータを収集し,それを理論的バ イアスを回避しながら記述するという自然科学的に 基本的な研究態度を取るのを止めてしまった.その

結果,言語学者はすっかり怠惰になり,言語データ を真剣に見なくなり,自分の理論に都合のいい例を 作例し,気に入った現象を恣意的に「説明」してい .現在,データ収集の方法は行き当たりばったり で,ご都合主義的であり,完全に非科学的である.

そのような劣悪な記述に基づいて(例えばUGに関 する)「深遠」な説明を提案するのに言語学者は忙し い.これが現在の「科学的」言語学の実態である.

だからと言って,第一著者は「伝統的」言語学に ありがちな,見通しのない,瑣末主義的な現象の記 述に回帰すれば良いと主張しているわけではない.

言語の記述が言語資源と呼べるためには,まず,そ れが効果的に(i)再利用可能であり,(ii)共同利用 可能であることが必要である.効果的に再利用可能 であるためには,(iii)記述のフォーマットが定まっ ていて,利用者に解釈のために最低限の前提知識し か要求しないことが必要である.更に言えば,(iv) 記述が電子化され,(v)データベース化されていて,

(vi)オンラインで利用可能であることが望ましい.

言語記述という問題において,言語学がこれまで 分野を越える共有資源の構築になした貢献は実質的 に無に等しい.特に意味記述の分野でこの傾向は顕 著であり,それが認知科学的には意味の実証的理論 の立ち後れ,工学的には意味処理の立ち後れに結果 していると思われる.FNは,このような事情に歯 止めをかける枠組みとして有望である.それは,言 語学が過去数十年間の怠惰から失った関連研究分野 との実りある連携関係を取り戻すきっかけを与える かも知れない.

参考文献

[1] Berners-Lee, Tim, James Hendler, and Ora Las- sila. 2001. The semantic web. Scientific Ameri- can. May 2001.

[2] Fauconnier, Gilles. 1997. Mappings in Thought and Language. Cambridge University Press.

[3] Fellbaum, Christiane, Ed. 1987. WordNet: An Electronic Lexical Database. Cambridge, MA:

MIT Press.

[4] Fillmore, Charles J. 1968. The case for case. In

(7)

Universals in Linguistic Theory, pp. 1-88. Ed.

W. Bach and R. T. Harms. New York, Holt, Rinehart & Winston.

[5] Fillmore, Charles J. 1982. Frame semantics. In Linguistics in the Morning Calm, pp. 111–137.

Ed. Linguistic Society of Korea. Seoul, Hanshin Publishing.

[6] Fillmore, Charles J., C. Wooters, and C. F.

Baker. 2001. Buildinig a large lexical databank which provides deep semantics. In Proceedings of the 15th Pacific Asia Conference on Language Information and Computation.

[7] Fontenelle, Thierry, Ed. 2003. International Journal of Lexicography, 2003 Sep Special Is- sue: FrameNet and Frame Semantics.

[8] 福井直樹. 2001.自然科学としての言語学: 生 成文法とは何か.東京:大修館.

[9] Gildea, Daniel, and Jurafsky, Daniel. 2002. Au- tomatic labelling of semantic roles. Computa- tional Linguistics 28 (3): 245–288.

[10] 河原大輔・黒橋禎夫. 2002.用言と直前の格要 素の組を単位とする格フレームの自動獲得.自 然言語処理. 9 (1).

[11] Kuroda, Kow. 1999. Outlining Pattern Matching Analysis: A theoretical framework proposed for a realistic description of natural language syn- tax.言語科学論集, No. 5: 1-31.京都大学基礎 科学科,京都.

[12] Kuroda, Kow. 2000. Foundations of Pattern Matching Analysis, A New Method Proposed for the Cognitively Realistic Description of Natu- ral Language Syntax.未刊行博士論文.人間・

環境学研究科.京都大学. [http://clsl.hi.h.kyoto- u.ac.jp/ kkuroda/papers/kuroda2000/*.pdfから 章ごとにダウンロード可能]

[13] Kuroda, Kow. 2001. Presenting the Pattern Matching Analysis, A Framework Proposed for the Realistic Description of Natural Language Syntax. Journal of English Linguistic Society, 17: 71-80. English Linguistic Society of Japan.

[14] 黒 田   航・野 沢   元. 2004. 比 喩 理 解 に お け る フ レ ー ム 的 知 識 の 重 要 性: FrameNet と の 接 点. [http://clsl.hi.h.kyoto- u.ac.jp/˜kkuroda/papers/metaphor-and-

frames.pdf].

[15] Lassila, Ora, et al.. 1999. Resource De- scription Framework (RDF) Model and Syntax Specification. W3C Recommendation hhttp://www.w3.org/TR/REC-rdf-syntaxi [16] 溝口理一朗. 1999.オントロジー研究の基礎と

応用.人工知能学会誌14 (6). 45–56 [977-988]

[17] 中 本 敬 子・野 澤   元・黒 田   航. 2004. 動 詞

「襲う」の多義性:カード分類課題と意味素性 評定課題による検討.認知心理学会第二回大 会口頭発表.同志社大学. [http://clsl.hi.h.kyoto- u.ac.jp/ kkuroda/papers/Nakamoto-et-al- CogPsy2004-Original.pdfから入手可能] [18] Wilson, Andew and Thomas, Jenny. 1997. Se-

mantic annotation. In Corpus Annotation: Lin- guistic Information from Computer Text Cor- pora. Ed. R. Garside, G. Leeach, and A.

McEnery. London: Longman.

[19] Utiyama, Masao, and Hitoshi Isahara. 2003. Re- liable Measures for Aligning Japanese-English News Articles and Sentences. ACL-2003: 72–

79.

参照

関連したドキュメント

ついでながら,WASHが、l能かどうかということは,乾燥後,縮まないか

Β1 レベル

1 Ⅰ型の“V 有”構文と A 型の“V テアル”構文

「介入する、参与する」という、直接「手」とは関係がない抽象的な動作・行為として使 われる場合もある。これは、

階層の最上位に位置する主格は文のテーマと して機能するため、話者のコミュニケーション

「しよる」はこれまで見てきたように,生成語 彙論の表示の中で,状態を表す be-at

だが文型や語彙などの言語の表層的な型に囚われないことを目的とした言語教育

要な節目と考えることができる。ピアジェは言語と論理との発達について「言語の発達と論理の発