PDF — FrameNet の視点から

(1)

日本語の意味 ( ^役割 ) タグ体系を定義する試み ^∗

— FrameNet ^{の視点から} —

黒田航

^†

井佐原均

^†

概要

本論文はBerkeley FrameNet (BFN) [7, 9]の洞察を取り入れた，日本語のための意味(^役割)^タグ体系を開発する企画について紹介する．そのような目的のためにBFN流の意味役割ベースの意味構造へのアプローチが適している理由の一つとして，それが(シソーラスの基盤となる概念階層とは別の観点から)

「意味要素の自然で一貫した分類基準」を提供することを示し，FNのアプローチは，それに「満足の行く注釈体系」とするための拡張を行えば，意味(^役割)タグ体系を定義する際に有効であることを示す．

Abstract

This paper proposes a framework to develop a tagset needed for “semantic role” tagging for Japanese corpus. Our framework is building on research in Berkeley FrameNet (BFN) [7, 9], but it extends the BFN approach to semantic annotation in some distinguishable ways. Among others, our approach consists of Multilayered Semantic Frame Analysis (MSFA), which achieves effective integration of multiple frames in a single running text. With this, MSFA is expected to (i) provide deeper lexical semantics that BFN, and (ii) increase the usability of a corpus developed in the proposed framework. Also, MSFA is likely to reduce “conflicts” among human annotators’ judgments, thereby making the result of manual annotation more consistent and reliable.

1 ^背景

過去十数年間，自然言語処理は目覚ましい進歩を遂げた．その要因の一つは言語資源の充実によって可能となった機械学習アプローチの普及と定着である．品詞・統語情報などの付加情報(アノテーション)つきのコーパスを訓練データに用いた機械学習に基づいて，以前は不可能だった様々な成果が達成された．

このような手法によって達成された解析技術の高度化には目を見張るものがあり，同様の効果が意味処理にも期待しうるが，一つ大きな障壁がある．現時点では，意味処理に適切な言語資源が一般に公開された形では存在しない．

∗この論文は第 10回言語処理学会でのポスター発表 (03/16/04,東京工業大学)の内容を反映するように，大会予稿集に収録の論文[16]を改訂したものである．この論文の改訂にあたって，岡本雅史(東京大学)，竹内和弘

(情報通信研究機構)，高梨克也(情報通信研究機構)，竹内

孔一(岡山大学)，金丸敏幸(京都大学)，中本敬子(京都大学)，野澤元(京都大学)との有益な議論が参考になった．

この場を借りて，感謝の意を表したい．

†独立行政法人情報通信研究機構けいはんな情報通信融合研究センター

このような空隙を埋めるのが急務であるのは論を待たない．私たちはこの目的のため，次のような企画に取り組むことにした: (i) Berkeley FrameNet (以後, BFN) [7, 9]を参考にした日本語のための意味タグ体系Sの開発; (ii) S (の部分タグ)のついた日本語コーパスの構築と公開(ただし，現時点で公開するコーパスの規模は決まっていない)．

以下では，特に(i)に関してFNが意味タグ体系の定義に有効だと考えられる理由を論じる．

2 FrameNet 流アプローチが意味 ( 役割 ) タグ体系の定義に有効である理由

2.1 有意味な意味タグ体系の条件

議論の始めに，[26]の意見を参考にしつつ，意味タグ体系が満足すべき一般的性質を幾つか上げておく．有効な意味タグ体系とは，

(1) 十分な体系性と一貫性が備わっていて，機械学習可能である

(2) 品詞情報や統語情報の体系から分離されていると同時に，それらと統合されている(か統合可能である)

(3) 特定の知識領域や目標課題(e.g., 機械翻訳)

(2)

に限定されない一般性と網羅性を有し，多くの分野の研究者が有用な情報を引きだせる (4) 必要に応じて拡張可能である

これらは条件としては網羅的ではないが，要点は尽くしていると思われる．

FNは特に(3), (4)の問題に関して有効なアプロー

チであると考えられる．以下では，この点に関して詳しく説明する．この論文では扱わないが(1)の問題は[11]で検討されている．

2.2 課題としての意味(役割)タグづけ

品詞タグづけ(part of speech/POS tagging)は，形態素解析の出力である形態素列に最適な品詞タグ列を割り当てる手順である．意味タグづけ(semantic tagging/marking)も，本質的には同様な手順として表現することが可能であるはずだが，それには品詞タグづけにはない問題がある．例えば，

(5) 規模の問題: 仮に意味タグ体系が閉じているとして，その空間(おそらく数百から数千のオーダー)は品詞タグの空間(数十から数百のオーダー)より広大である

(6) 単位の問題: 品詞タグづけの単位が比較的明瞭(e.g.,形態素,語)であるのに対し，意味タグづけの単位は(長年の言語学の研究にも係わらず)今もって十分に明瞭だとは言いがたい

(7) 最適化(可能性)の問題: (5, 6)の当然の結果として，意味タグづけの場合，最適なタグ列を決定する過程で生じる相互依存性がケタ違いに大きい

(8) 発見手順の問題: 品詞タグ体系を定義するのに使用される分類特徴 (±countable,

±inflectional, . . . ) ほど自明な分類特徴が，

意味タグ体系の定義の場合には得られない．

つまり「意味要素の自然な分類特徴」の発見は自明ではない

(7)は計算的な側面を含み，FNが直接解答を与える問題ではないが，(6), (8)の問題に関して，FN は非常に有効な答えを提供しうる．以下では特に (8)の分類基準発見の問題に関して，その理由を述べる．

なお，ここで正確を期すならば，ここで意味タグづけと呼ばれている課題は，意味役割タグづけ (semantic role tagging/marking)のことである．単

なる意味タグ(づけ)と意味役割タグ(づけ)の概念的相違は，以下の議論から自然に明らかになるはずである．

3 FS/FN の基本概念

(B)FNはFillmoreのフレーム意味論(Frame Se- mantics: FS)の応用であり[5]，その意味で，日本語自然言語処理でなじみの深い格文法Case Grammar [4]の発展形でもある．だが，以下に示すように，格

文法とFS/FNへの移行には幾つかの重要な概念的

変更も含まれる:

(9) FS/FNは「理解には基本単位が存在する」と

いう仮定を立て¹⁾，その単位を(意味)フレー ム((semantic) frame)と呼ぶ．

(10) この意味での(意味)フレームはヒトの(状況)理解の単位である．

(11) この意味でのフレームは非言語的な単位で，

ヒトが理解できる状況を定義する構造体である．

(12) フレームが特定し表現しているのはhh何がi, h何のためにi,h何をi, . . . ,hどうしたi iという形で記述しうる，

(13) h何がi,h何のためにi,h何をiのような項の性質はフレームが決定し，項となっている語彙要素の意味タイプ=意味型(semantic

type)によっては完全に定まらない．つまり，

フレームがモノの，状況における(意味)役割 (semantic role)を定める．この意味で，意味役割は状況相対的である．

(14) このようにして定まる状況相対的な意味役 割をFNではフレーム要素(frame elements:

FEs)と呼ぶ．

(15) フレームが特定された時，(あるレベルの)理解が達成される．この際，フレームの特定性の程度の差(つまり抽象度)によって「浅い理解」と「深い理解」の差が生じる²⁾． 3.1 フレームの選択と語義の特定=曖昧性の解消

その語彙クラスに係わらず，語は様々なフレームを喚起するが，その喚起の強度は語のタイプによっ

1)この点は第一著者のBFNの(好意的)解釈による．実際，

この認知科学的に極めて重要な存在論的前提に関して，

BFNは明示的ではない．

2)理解の深さにフレームの(特定性の高低で表わされる)抽象度を結びつける解釈は，BFNにはない．

(3)

Word[j]

Frame[1]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[2]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[n]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

活性化

活性化 Word[i]

活性化

側抑制側抑制

側抑制

側抑制側抑制

Word[j]

Frame[1]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[2]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[n]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

活性化

活性化 Word[i]

活性化

側抑制側抑制

側抑制

側抑制側抑制 Word[1]

Word[n]

Word[1]

Word[n]

図1 ^競合からFrame[2]^{が選ばれる様子}

て異なる．動詞は特にフレームの特定に大きく貢献 するが，それでも完全に一つのフレームを特定はし ない．言い換えれば，動詞と名詞(群)との同一文内の組み合わせによってしかフレームは定まらない．

例えば動詞“h^襲い手i^がh^標的i^を襲う”には，[17]

が記述するように，次の(a)–(d)のようなフレームとその上位/下位フレームが幾つか存在する(図2を参照されたい．詳細には§3.4で立ち戻る)．

(16) a. F01:h(主に捕食を目的とした)動物個体による他個体の攻撃i^{のフレーム，}

b. F02:h(主に資源の強奪を目的とした)ヒトによる他のヒトの襲撃iのフレーム，

c. F03:h自然災害発生iのフレーム，

d. F04:h活動への打撃発生iのフレーム．

これらは自然言語処理の分野で格フレーム(case

frames)という名で特定される語彙クラスと多かれ

少なかれ一致する[12, 21]．

これらのフレームが存在することで，(17a)-(17d) のそれぞれの表現で曖昧な指示“それ”の意味タイプが(決定可能でなくても)推定可能となる:

(17) a. 人食い鮫がそれを襲った

“それ”の指示対象のクラス={人,魚,ケガをしたイルカ, . . .}

b. 強盗がそれが襲った

“それ”の指示対象のクラス={銀行,現金輸送車,コンビニ, . . .}

c. それが東京を襲った

“それ”の指示対象のクラス={^地震,台

風,インフルエンザ, . . .} d. それが市場を襲った

“それ”の指示対象のクラス={^株価の暴落,恐慌, . . .}

また，h道具iの使用が含意されるのは，F02の hヒトによる他のヒトの襲撃i^{フレームのみである．}

(17a, b, c, d)に見られる脱曖昧化の効果を一般化して言うと，こういうことになろう:動詞を含めて，

どんな語も単独ではフレームを特定する力はなく，

これが語の多義性の原因となる．別の言い方をすれば，

(18) 語の多義性，曖昧性の解消(sense disambigua-

tion)とは，ほかの語との共起によって意味

フレームが特定され，フレーム内でのその語の意味役割が定まることである．

文中の異なる語がお互いに異なるフレーム，場合によってはお互いに相いれないフレーム群を喚起することがある．この場合，喚起されたフレームの間には競合的関係が発生し，(おそらく側抑制によって)そのうち一つのフレームが選ばれることになろう．このことは簡単に図1に示した．ただし，BFN は曖昧性解消のメカニズムに関して明確なモデルをもっているわけではなく，ここに示したのは第一著者の独自の解釈である．

3.2 フレーム =ネームスペース(名称空間) 以下で使用する表記について，簡単に説明する．

“ f.x”というドット演算子を用いた表記は，フレーム要素xがフレーム f のネームスペース内にある

(4)

局所的な要素であることを示す．従って，任意のフレーム要素の対( f₁.x, f2.y)^{について，仮に}x = y (つまり，名称h¤.^対象i^の同一性)が成立しても，原則としては f₁.x6=f₂.y^{である．もちろん，}f₁, f₂が同一の上位フレーム f₀の実現である場合，x, yには共通性が存在する．

3.3 BFNに関する幾つかの注意

FS/FNの考える意味役割は，一方でフレーム相対

的，状況相対的である．それが状況相対的である理由は，それがモノの物理的，客観的特性には還元しえないからである．他方で，FS/FNの考える意味役割は，多分に文化相対的である．FS/FNはもはや，

格文法の頃のような「普遍的な意味役割の目録」に基づく意味記述は目指していない．

これらの点から明らかなように，FS/FNは理解の 記述を指向しており，真理条件の記述を指向する意 味論とは一線を画するものである．

FNがFSと異なっている点は，FNでは多数のフレームが継承関係などによって(オブジェクト指向デザイン風に)組織化された構造である点に注目している点にある．

3.4 ^{意味フレームの実在性}

意味フレームは実在するのか?統語派生などと同様，言語学者の夢想ではないのか? するとしても，

どの辺の抽象性のレベルで手を打つべきなのか?これらの疑問の答えは自明ではない．

二つの心理実験(カード分類課題，意味素性評定課題)の多変量解析(クラスター分析，因子分析，多次元尺度法)の結果[20]から，意味フレームが実在性を強く示唆する結果が得られている．これは意味 役割タグの基礎となる意味フレームが単なる理論仮 構物(あるいは言語学者の妄想)ではないことを意味する．

この実験は，言語学者によるコーパスの分析を通じてなされた「襲う」の12個の下位フレームの特定[17]の記述的有効性を検証するためのものであった．図2に，同定されたフレームのネットワークを示す．

この結果はFN/FSの枠組み全体にとっては好意的なものであるが，現時点でのBFNの幾つかの問題点を明るみに出すものでもある．

(19) 第一に，BFNでフレームの実在性は自明と見做され，まったく疑問視されていないが，

それは認知科学的な観点からすると，実証性

を犠牲にした，危険な方向性である

(20) 第二に，BFNの設定しているフレームの粒度に関して，[20]の結果は，それを問題なしとはしない．現時点で，BFNデータベースの記述の細かさ(あるいは粒度)の最適性は所与のものとなっているが，これは根拠に欠ける³⁾

(21) 意味フレームのデータベースの記述の粒度が利用目的ごとに最適化されているか，あるいは変更可能でない限り，最終的にリリースされる言語資源の有用性は限定されたものになる

(ターゲットとなる課題ごとに)フレームの最適な粒度を設定するというのは，意味タグつきのコーパスを有意義な言語資源とするために必須な条件であり，現時点でのBFNはこの点に関し，明らかに見識を欠いているように思われる．

3.5 BFN^の問題点

BFNでは意味フレームのデータベースの構築を意味タグつきコーパスの開発に優先させている．これはデータベースを早期にリリースするための一つの方針だが，これには明らかな弊害もある．この手法では，例えば数百文程度のサブコーパス全体に十分に細かく意味役割タグづけしようとした場合，(i) どれぐらいの数のフレームが，(ii)どれぐらいの詳細度まで必要か，という実際的な見地には繋がりにくい．実際，このような実際の応用を射程に入れた研究は，BFNではまだ行われておらず，第一筆者は，BFNの今の方針では，最終的には意味フレームの概観を得る程度のことしか達成しないのではないかと恐れる．

これに対し，(独)情報通信研究機構NICTの開発するFNデータベースは，これらの二点を補う形で BFNを拡張する見通しである．以下に，その具体例を示す．

4 意味役割ベースの意味タグづけの実例

以上の議論から解るように，意味役割タグとしてフレーム要素(FE)を採用するのは有効である．こ

3)第一著者はBFNのスタッフと直接接触をもったことがないので断言はできないが，公開されているBFNデータベースの単位がどのような経緯で選定されたのか，それを知ることのできる資料は存在しないか，あるいは，その問題は初めから考慮されていないように思われる．

(5)

ROOT

生体の抗争

人の襲撃

動物の襲撃

自然災害発生

異変の発生

活動への打撃異常気象

疫病の流行捕食

強盗

強姦抗争/紛争

非捕食

発病災厄の発生

高波が海水浴客を襲った

ペストがその町を襲った

大型の不況がその国を襲った

肺ガンが働き盛りの彼を襲った

ストーカーがその女性を襲った二人組の強盗がその銀行を襲った二人の組員が敵対する組長を襲った

スズメバチの群れがその人を襲った

言いようのない不安が彼を襲った

虐待通り魔がその小学生を襲った

侵略その国は石油の豊富な隣国を襲った

資源強奪

暴行

小規模大規模オオカミが小羊を襲った

地震が東京を襲った

図2 [17]が同定した「襲う」のフレームのネットワーク

れが正しいアプローチならば，FN/FSはすでに(8) の問題に対して(間接的には(6)に対しても)有望な答えを出している．以下では，S = (22) (日英対訳コーパス[25]の実例)という文に対する暫定的タグづけ案を基に，この主張の妥当性を検討する．

(22) 西寧市での暴動は，イスラム教徒を侮辱する内容の本が四川省で刊行されたことがきっかけ．

4.1 意味フレーム分析の複層化

フレーム要素を意味タグとして採用した場合，S に対し，どのような構造が与えられるかを示すタグづけ例を図3に示す(フレームごとに色分けしてある．

このようなコーディングのための仕様はまだ完全に固まっていないが，参考のために挙げた．GOV-

ERNORはBFNの概念を踏襲してるが，EVOKER,

MARKER, LINKER, EXTENDERの四つは，第一筆者による考案である．最後の三つは格助詞，形式名詞のような“文法的”な要素を実質的な要素から区別するためのもので，意味役割とは関係ない．

このタグづけ案にあるNULL1, NULL2の存在位置(Index 6, 7)に関して言うと，それは「主要部の形成する節の先頭」という日本語の言語学の観点では

すれば十分に動機づけられられた位置であるとは言えるものの，かといって，それは完全に恣意性を免れるものでもない．また，NULL3は動詞要素(“だ” や“である”が現れる位置であり，その省略をコードするが，その役割が補助的な要素である．ここで

はEXTENDERとしてエンコードされている)点か

ら見ても，NULL1, NULL2とは性質が異なっていて，必須性は低いと言える．なお，一部のNULL (NULL1, NULL2)は生成言語学分析の空範疇(e.g., PRO)に対応する．ただ，それが何を意味するのかは，慎重に解釈される必要があるとだけ言っておきたい．

ここで便宜的に特徴[+explicit]^{を割り当てたフ} レーム(h侮辱i，h出版i，h刊行i)は表層に明示的な支配項(governor) (e.g., “侮辱(する)”, “本”, “刊行(する)”)をもつもの，特徴[−explicit]を割り当てたフレーム(e.g.,h執筆i,h表現i)はそれをもたないものである．

明示的な支配項がないフレーム場合，そのタグづけはFN内部の含意関係に基づいて自動的な推論として示されるので，明示的にコーディングされる必要はない⁴⁾．

4)FN自体はオブジェクト指向デザインの関係データベース

(6)

!"#$% &$'($")* +,-($./0 12$%34565)7

+,-($.89 12$%34565)7

+,-($.:;<

=>

12$%34565)7

+,-($.?@ABCD

=>EF<GH 12$%34565)7

+,-($.IJ1K

$%34565)L2'MN$,

"M,4$**7

+,-($.OP1K

$%34565)L2'MN$,

"M,K4$**7

+,-($.QR 125(345$#7

S TUV +W.=>XY +W.=>XY +W.WZ[\W].

^V_

` a bc]\W] bc]\W]

d < e!f\W]

g :; h[ZW]f[] +W.=>CD

i jk e!f\W]

l fmeeS +W.89n +W.=>EF +W.=>EF

o fmee` +W./0n +WpqrIJn +W.IJn +W.OPn

s tuvwxy +W.z{ +W.89qr +W.IJ|{ +W.OP|{

} ~ bc]\W]

S• /0 h[ZW]f[]

SS €• W‚ƒWf„W]

S` qr W‚ƒWf„W] +W.WZ[\W].I

Jqr

+W.WZ[\W].O Pqr

Sd < e!f\W] e!f\W] e!f\W]

Sg … +W.†‡ +W.89

ˆ.WZ[\W]

+W.WZ[\W].I

J‰Š +W.OP†‡

Si ‹ bc]\W]

Sl Œ•Ž +W.89XY +W.WZ[\W].

••_

So a bc]\W]

Ss ‘’ h[ZW]f[] “Wc„ “Wc„

S} ”•– W‚ƒWf„W] W‚ƒWf„W]S W‚ƒWf„W]S

`• —˜ W‚ƒWf„W]` W‚ƒWf„W]`

`S ‹ bc]\W]

`` ™š›œ h[ZW]f[]

`d fmeed W‚ƒWf„W]

`g •

図3 ^{タグづけ案}: FE^{が意味タグに相当する}

どんな要素にどれぐらいのフレーム喚起力があるかは，まだまだ明らかでない面が多く，今後の研究による明確化が必要である．実際，動詞ばかりでな

く，名詞(e.g.,本)や前置・後置詞も特定のフレー

ムを喚起することがあるのは明らかである．そのような性質をもつものはフレーム喚起要素(frame- evokers)とし，図2ではEVOKERとしてコーディングされている．これらのうち幾つかは[−explicit]

なGOVERNORだと考えられる．

一方，これが示唆していることは“本”に生成辞書理論で言われる質構造(qualia structure)があるということである．この点に関しては，§5.3で触れる．

図3にある意味タグづけはBFNが定める枠組みを第一著者が独自に拡張した枠組みに基づいている．それを複層(意味)フレーム分析(multilayered (semantic) frame analysis: M(S)FA)と呼ぶ．この拡張の動機になっている懸念とそれが意味することについて，簡単に説明しよう．

4.2 「満足の行く注釈体系」の構築

MSFAという形でのFN/FSの拡張の動機づけになっているのは，「一つの文に幾つものフレームが同時に現れる」という事実への対処，つまり「フレームの複合的実現」の問題に対処する必要性でであり，内部的にはフレーム同士はネットワーク構造をなしている．

ある．これが問題となるのは，コーパスCへの注 釈(annotation) A(C)—正確には注釈体系(anno- tation system) —には一般に次のような性質が求められるからである:

(23) 非選択性: 注釈A(C)^{は可能な限り非選択的} (unselective)でなければならない．注釈は，

(対象となる言語を選ばず)，対象となるコーパスを選ばず，対象となる文を選ばず，対象となる文の要素を選ばないとき，非選択的であると言う．

(24) 完全性: 注釈A(C)は可能な限り完全でな ければならない．注釈は，(あらゆる言語の)，あらゆるコーパスの，あらゆる文の，あらゆる要素に対して施される場合，完全であると言う．

(25) 有用性: 注釈A(C)は可能な限り有用でなけ ればならない．注釈は，(任意の言語の)，任意のコーパスの，任意の文の，任意の要素に対して，利用者が求めている情報が取り出せるとき，(完全に)有用であると言う．

(26) 一般性(補足的): 注釈A(C)は，対象となる要素を選ばず，対象となる文を選ばず，対象となるコーパスを選ばず，対象となる言語を選ばないならば，その分だけ多くの一般性を

(7)

もつ．

意味フレーム分析の複層化は，これらの三つの原則の完全性を除く二つを満足するために必要な拡張である(注釈の完全性，一般性は理想的な性質で，

現実にはどんな注釈体系も完全性は満足しないと思われる)．

非選択性が重要なのは，有用性を保証するためにである．事前に注釈をつけやすい文を選んで，それのみに注釈をつけることが許されるような安易な状況から，多くの分野の研究者にとって本当に利用価値のある，現実的な注釈がなされれるとは考え難い．実際，タグ体系を開発するのに，(27)の条件— これを「満足の行く注釈の条件」と呼ぼう—を設定するのは，完成品の最低限の品質を保証するために必要なものである:

(27) 注釈体系Sは，(なるべく多くの言語の)，なるべく多くのコーパスの，なるべく多くのの文に，可能な限り多くの利用者にとって満足のゆく情報を提供するならば，その分だけ満足の行くもの(satisfactory)である．

意味フレームのデータベースを構築しても，それがここで定義した意味で「満足の行く」注釈体系を提供する見通しがなければ，せっかく開発したデータベースに利用価値がない可能性が考えられるわけである⁵⁾．

BFNは現時点では，暗黙に「一文につき一(格) フレーム」のような作業仮説を置いて作業を進めているように見受けられるが，これは意味の問題と言語形式の問題を完全に分離しない，中途半端な該当事象の扱いであるように思われる．第一著者の見解では，「一文につき一格(フレーム)」のような制約を設けることは必然性に欠け，また，意味フレーム基盤のタグづけを「満足の行く注釈体系」とすることの障害となるばかりではなく，解ける問題をわざわざ解けない形に変形してしまっているように見える．この点に関しては議論の余地もあろうが，いずにせよMSFAは，この種の言語の「形而上学」には肩入れせず，「うまくいく記述が正しい記述だ」と

5)アメリカのNLP関係者が，日本の有名な言語資源開発の失敗—多額の資金をかけて開発した辞書が，期待していたほど使えなかった，という挫折—のことを知っていたら，BFNの設計はもう少し別のものになっていたかも知れない．

いう実用主義を重視する．

4.3 「深層構造」の概念への関連

図3にあるような多層的コーディングを採用すると，フレーム(群の一部)は実質的に，いわゆる“深 層構造” (deep structure)と同じ役割を果たしてい るのが判る．これは興味深い点である．この点が正しいならば，従来の言語学の記述的貢献を意味(役割)タグづけの目的のために再利用することが可能となる⁶⁾．これが本当なら，言語学者としては喜ばしい限りである．

ただし，次のことには注意が必要である:多層的実現の下での深層構造と表層構造の対応関係は多重 継承(multiple inheritance)で，同時的，並列的であり，深層構造としてのフレームは，いわゆる派生

(derivation)によって，順序づけられた履歴を伴っ

て表層形に結びつけられているわけではない．これが含意することの一つは，これまでの(理論)言語学者の分析は派生という(実際には相当に必然性に欠ける)概念を放棄すれば，言語と知識との結びつきを明らかにするために十分に有益な記述を行ってきた，ということである．それが“教祖”への忠節のために誤った方向に曲げられてしまったことは，非常に惜しまれる．

4.4 意味役割と文法役割の自然な橋渡し

図3にあるような多層的な記述は，意味役割と文法役割の自然な橋渡しを可能としている．これが可能である理由は，文法関係，文法役割が語に相対的 に定義されているからある．このように，文法関係の記述に多重継承の考えを(HPSGなどとは違った形で)応用する際に基礎となる理論的枠組みは，すでにPattern Matching Analysis (PMA) [13, 14, 15]

という名称で開発されているので⁷⁾，これを利用した．

5 ^{日本語のための} FN/FS ^{の将来の展望}

この節では工学におけるFN/FSの位置づけを手短に論じる．

6)認知言語学系の言い方をすると，これは表層系(の意味構造)は，幾つものフレームのブレンド(blend(ing)) [2]に相当するとも言えるであろう．

7)PMAは元来，主語，(間接)目的等の文法機能(grammatical function)に基づいて統語構造を記述する枠組みとして開発されたが，その後，BFNの現時点での問題点(e.g.,「一文につき一フレーム」の原則の存在)を補うという応用的価値をもつことが判明した．

(8)

5.1 FN/FSの意味タグ体系設計のための有効性以上のことから強く示唆されるのは，FS/FNは意味タグ体系を定義するのに有用であろう，ということである．

だが，FS/FNが記述するのは可能な意味タグ体系

の全体ではないし，それには自ずから，限界もある．

実際，概念辞書=シソーラス類が扱っている側面と

FN/FSが扱っている側面は，おそらく直交的であ

る．これは属性ベースの意味記述と役割ベースの意味記述を分離し，それらの間に「インターフェイス」

を設けるのが必要だということを示唆している．

有用な意味タグ体系は客観的特徴の集大成としてのシソーラスがあれば十分だというわけではない．

理解を問題にするのであれば，その単位として意味フレームの詳細な記述に基づくべきである．

実際，EDR [27]であれ, WordNet [3]であれ，規模の大きいシソーラスには雑多な情報が統一感なく入り交じっていて，利用の際の便も，理論的見通しも悪い．この問題は，属性ベースの意味記述と役割ベースの意味記述という「直交的な性質」を分離し，

それらの記述をシソーラス・プロバーとFNの分業に割り振ることよって，自然に解消できると考えられる．

5.2 意味役割と意味型の分離する必要性

この分業の見通しを得るために，“本”という名詞がフレームごとにどんな意味役割をもつかを示したものが，次の図4である．この図にある構造をフ レーム要素の格子(FE Grid)と称する．この図で“ 状況” (situations)をコードする f (行)と“存在物” (entities)をコードするx (列)の交点に丸があることは，xの f 内部での意味役割= FE f.r(x)が定義されていること，丸の中のラベルは(暫定的な)フレーム要素の名称を表わす．ぼかしの入った丸は，その意味役割が，他の意味役割に較べて背景化されていることを表わす．列の対応は，同一個体がフレームごとに異なる意味役割をもつこと—正確にはもちうること—を表わす．見やすさのために，モノを右のグループ(クラスA)に，ヒトを左のグループ(クラスB)に分けている．対応は完全とは言えないが，

概してクラスaはAGENTに，クラスBはPATIENT,

THEME類に相当する．

この図では，h本iの属性が(そのアフォーダンス (affordance) [22, 23]に基づいて)フレームごとに別の使用目的をもっていること，つまり別々の現れ

をしていることを明示している．例えば，この図では，h^本i^がf3, f4, f5, f6, f7でおのおのh^執筆.内容i,h^出版.物i,h^消費.商品i,h^読書.内容i,h^教育. 教科書iという意味役割もつこと，f1, f2で意味役割もたないことが示されている．これらは同一の文の中で，同時に実現されてもよい．(22)の例で“ 本”は，h出版.物i,h執筆.対象i,h侮辱.手段i,h表現.手段iの意味役割を実現していた．これを全部シソーラスに反映させようと思えば，相当のアクロバットを覚悟しなければならない．これは“本”に生成辞書理論で言われる質構造があるということである．この点に関しては，§5.3^{で触れる．}

図4に示された構造は従来のシソーラスの問題点を明らかにしている: 意味役割と意味型という二つ 種類の情報が従来のシソーラスには混在しており，

それが見通しの悪さに原因になっているという点である．これは古典的な「フレーム問題」，つまり記述量の爆発に繋がる，避けるに越したことのない問題である．FS/FNに準拠する記述の枠組みを採用することで，この問題は現実的な範囲で回避可能となると考えられる．特に名詞の意味論が，意味フ レームに基づく意味記述で最大の恩恵にあずかると考えられる．これは自明なことではないので，次の節では，この点に関してもう少し詳しく論じることにする．

5.3 モノの意味役割と質構造(Qualia Structure) 以上の私たちの主張が正しければ，フレームに基づく語の意味記述—特に名詞の意味記述—は，生

成的(generative)な側面をもつ．その理由は，どん

な名詞概念についても，すべての可能なフレームでの，その意味役割の値をあらかじめ完全に列挙することはできないからである．例えば，ヒトは(少なくとも十分に賢く，十分に腕力のある個体ならば)h^殺人i^のためのh^凶器i^に“消火器”を使うことができるが，はじめから“消火器”に凶器という意味役割が備わっていたとは考えられない．これは [xが“消火器”であるならば，xが重くて硬い]という“消火器”(と呼ばれる物体)のアフォーダンス

[22, 23]によって，それがhヒトを撲殺するための

鈍器iになるためである．このような生成的な側面は，実際の文章に現われるとは限らないが，過小評価されるべきではない．

ここで少し視点を変えて，生成辞書(Generative

Lexicon)の理論との関係で意味フレームの問題を

(9)

f1

f4 f3

f1: 着用フレーム

f4: 出版 (<< 制作, 売る) f3: 執筆(<< 情報伝達)

a1 b1: 本 b3: 洗剤

a1 b1 b3

f2 f2: 洗濯

f5 f5: 消費

b2: 衣類 b2

a4 a4

f6 f6: 読書

a2 a2

提供者

a5 a5

a6 a6

f7 f7: 教育

a3 a3

“Agent” Classes “Thing” Classes

洗剤

出版物内容執筆者

汚れ物

消費者商品

読者内容

作者

読者

購買者

衣服

出版者

洗濯者着用者

商品商品

生徒教科書

作者教師

消費者

読者

図4 “^本”^に係わるFE Grid (^断片)

簡単に考察してみよう．例えば，[8, p. 78]に次の (28)のような“novel” (小説)の生成辞書の規定がある:

(28)





 novel . . .

QUALIA=





FORMAL=book(x)

TELIC=read(y,x) . . .











(28)が記述していることは，

(29) ある対象xがnovelである(“novel(x)”の規定)ならば，xは次の質性(qualia)をもつ:

a. x は book の一種である (“FORMAL = book(x)”の規定内容)と同時に，

b. x はyに読まれる(“read(y,x)”の規定内容)

ということである．これはλ ^{式を用いて}

(30) λx[novel(x)∧. . .TELIC=λy[read(y,x)]. . .] とも書かれる関係的な概念である．ところで，この式のλ^y[^read(y,^x)^{. . .]}^{という項は}^h^読書^.^対象ⁱ^という意味役割を規定している．従って，明らかに

QUALIA構造には意味役割を記述する効果がある．

問題は生成辞書のやり方は体系的か，効果的かどうか，ということである．実際，QUALIA.TELICが

幾つ存在しうるか，また，それを決める明示的な手順が存在するか，ということである．この点に関する生成辞書理論の答えはあまり明確でないように思われる．

このような問題はあるにせよ，FN/FSと生成辞書の理論の間には高い互換性があるのは，まちがない．その意味では，FN/FSの方向は生成辞書の方向に特に矛盾するものではなく，FN/FSが少なからずインフォーマルな理論であるという面を考えると，

両者は少なからずお互いを補いあうものであるように思われる．

5.4 類似の枠組みとの比較

動機や目標は異なるが，意味タグ体系，あるいはそれに類するものを定義する試みは，幾つも存在する．

その代表的なものは，橋田浩一らが提唱している Global Document Annotation (GDA)，WordNet [3]， Resource Description Framework (RDF) [18]とその利用形態としてのSemantic Web [1]，Ontologies [19, 24]などである．また，機械翻訳などの特定の言語処理に役立つ辞書構築の企画の一つとFNを見なすならば，FNは格フレーム辞書の構築[12]と明白な関連をもつ．実際，格フレーム辞書の記述は，あるレベルの意味フレームと外延が一致すると言えるほ

(10)

ど高い類似性を見せている⁸⁾．

このような試みとFNとのあいだには興味深い類似点，相違点が存在するが，FNは次の点で際立っている．

(31) a. 言語理解の“内容” の記述を積極的に知識表現(knowledge representation) [24]

に結びつけようとする

b. ただ，知識構造の直接表現に関する理論を目指すのではなく，知識構造を資源として達成される“理解”の記述，モデル化に重点を置く

(32) その結果として，意味型ベースではなく意味役割ベースのコーディング体系を採用する (33) 言語学者の意味に関する優れた直観と工学者

の優れた技術力を統合する

(32)の点に関しては，すでに十分に述べてきた．

(31)の点に関しては，分量の制限もあり，この論文で詳しく論じるのを避ける．論文の締めくくりに (31)の点に関して述べる．

6 結論に代えて : 言語科学者が FrameNet に期待しているもの

以上，FNの有効性に関して，主に工学的な観点から論じてきた．だが，第一筆者の背景は言語学/ 認知科学であり，関心の中心は必ずしも工学的なものではない．以下，彼がFNに強い期待をもっている理由を説明する．

意味タグはコーパス利用者の関心を反映したものでなければならないことは，最初に述べた．だが，

有用な意味タグつきの日本語コーパスが従来のコーパス構築法の延長線状に起こるとは考えにくい．京大コーパスであれ何であれ，言語学者が積極的に構築に関わってこなかったという理由もあって，それらの言語学的，認知科学的有用性は限られている．

今でも積極的にコーパスを利用して研究している 言語学者は少ない．言語学関係の学会に出向くと，

憶測とも妄想ともつかない珍説，奇説が跳梁跋扈し．それらの「論証」には実証性のカケラもない．

それが十分な量のデータの，十分に詳細な観察に基

8)一つの非常にありそうな可能性として，格フレームが特定している語彙的分布は，意味フレームが基盤になって発生していると考えることができる．二者の関係を喩えて言うなら，格フレームが“表現型”であり，意味フレームが“遺伝子型”である．

づくものだとは考えられない．それらを「正しい」

かのように見せかけているのは，往々にして空っぽの権威である．これは言語学が科学だとすればとう てい信じられないことだが，あいにく事実である．

このこと一つからしても，言語学者がこれまで日本語コーパスの利用に関して，今までは「工学者の作った便利なものを使わせてもらう」という受身な発想をすることが多かったのは当然のなりゆきだったと言える．だが，そのような言語学にとって非常に不幸な時代はもうそろそろ終わりだと思う．データ中心に研究を進めるべきだという反省が徐々に広がっていると，第一著者は信じる．そのような背景の下で，これからは「本当に自分たちの必要にあっ たコーパスを自分でデザインし，それを工学者や認 知科学者と共同開発する」という能動的な姿勢を取 るべきであり，そのような形で関連分野の研究者と積極的に係わってゆくべきだと第一著者は考える．

このような共同作業を通じて言語学が受ける恩恵は絶大なものである．現時点での言語学は，実験生 物学成立以前の生物学のような状態にある．言語学者の一部には一部の先導者の意見に躍らされて，言語学を物理学になぞらえる人々がいるが[10]，これは明らかに言語学自体にとって好ましい結果を生んでいない．いわゆる「チョムスキー革命」以来，言語学者は体系的にデータを収集し，それを理論的バイアスを回避しながら記述するという自然科学的に基本的な研究態度を取るのを止めてしまった．その結果，言語学者はすっかり怠惰になり，言語データ を真剣に見なくなり，自分の理論に都合のいい例を 作例し，気に入った現象を恣意的に「説明」してい る．現在，データ収集の方法は行き当たりばったりで，ご都合主義的であり，完全に非科学的である．

そのような劣悪な記述に基づいて(例えばUniversal

Grammarに関する)「深遠」な説明を提案するのに

言語学者は忙しい．これが現在の「科学的」言語学の実態である．

だからと言って，第一著者は「伝統的」言語学にありがちな，見通しのない，瑣末主義的な現象の記述に回帰すれば良いと主張しているわけではない．

言語の記述が言語資源と呼べるためには，まず，それが効果的に(i)再利用可能であり，(ii)共同利用可能であることが必要である．効果的に再利用可能であるためには，(iii)記述のフォーマットが定まっていて，解釈のために最低限の前提知識しか利用者

(11)

に要求しないことが必要である．更に言えば，(iv) 記述がデータベース化され(v)電子化されていて，

(vi)オンラインで利用可能であることが望ましい．

言語記述という問題において，言語学がこれまで分野を越える共有資源の構築になした貢献は実質的に無に等しい．特に意味記述の分野でこの傾向は顕著であり，それが認知科学的には意味の実証的理論の立ち後れ，工学的には意味処理の立ち後れに結果していると思われる．FNは，このような事情に歯止めをかける枠組みとして有望である．それは，言語学が過去数十年間の怠惰から失った関連研究分野との実りある連携関係を取り戻すきっかけを与える希望となるものなのかも知れない．

参照文献

[1] Berners-Lee, Tim, James Hendler, and Ora Lassila 2001. The semantic web. Scientific American. May 2001.

[2] Fauconnier, Gilles R. 1997. Mappings in Thought and Language. Cambridge University Press.

[3] Fellbaum, Christiane (Ed.) 1998. WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press.

[4] Fillmore, Charles J. 1968. The case for case. In W.

Bach and R. T. Harms (Eds.), Universals in Linguistic Theory, 1–88. New York, Holt, Rinehart & Winston.

[5] Fillmore, Charles J. 1982. Frame semantics. In Lin- guistic Society of Korea (Ed.), Linguistics in the Morning Calm, 111–137. Hanshin Publishing.

[6] Fillmore, Charles J. 1985. Frames and the semantics of understanding. Quaderni di Semantica, 6 (2), 222–

254.

[7] Fillmore, Charles J., C. Wooters, and Collin F. Baker 2001. Building a large lexical databank which pro- vides deep semantics. In Proceedings of the 15th Pa- cific Asia Conference on Language Information and Computation.

[8] Pustejovsky, James 1995. Generative Lexicon. MIT Press.

[9] Fontenelle, Thierry (Ed.) 2003. International Jour- nal of Lexicography – Special Issue: FrameNet and Frame Semantics. 2003 September.

[10] ^{福井直樹}. 2001.自然科学としての言語学:^生成文法とは何か.東京:大修館.

[11] Gildea, Daniel, and Jurafsky, Daniel 2002. Automatic labelling of semantic roles. Computational Linguis- tics, 28 (3), 245–288.

[12] 河原大輔・黒橋禎夫. 2002.^{用言と直前の格要素の} 組を単位とする格フレームの自動獲得.^{自然言語処} 理, 9 (1).

[13] Kuroda, Kow 1999. Outlining Pattern Matching

Analysis: A theoretical framework proposed for a realistic description of natural language syntax.^言語科学論集, 5, 1–31.^{京都大学基礎科学科}.

[14] Kuroda, Kow 2000. Foundations of Pattern Match- ing Analysis, A New Method Proposed for the Cog- nitively Realistic Description of Natural Language Syntax. 未刊行博士論文. 人間・環境学研究科. 京都大学. [http://clsl.hi.h.kyoto-u.ac.jp/

~kkuroda/kuroda2000/*.pdf]

[15] Kuroda, Kow 2001. Presenting the Pattern Matching Analysis, A Framework Proposed for the Realistic Description of Natural Language Syntax. Journal of English Linguistic Society, 17, 71–80.日本英語学会. [16] ^{黒田航・井佐原均}2004.日本語の意味タグ体系を定義する試み: FrameNetの視点から.言語処理学会第 10^{回年次大会発表論文集}: 148–152.^{言語処理学会}. [17] 黒田航・野澤元 2004. 比喩理解における

フレーム的知識の重要性: FrameNet ^{との} 接点. (^「COE 21 ワークショップ: ^{メタフ} ァーへの認知的アプローチ」のための研究論文). [http://clsl.hi.h.kyoto-u.ac.jp/

~kkuroda/papers/metaphor-and-frames.pdf].

[18] Lassila, Ora, et al. 1999. Resource Description Framework (RDF) Model and Syntax Specification.

W3C Recommendation [http://www.w3.org/TR/

REC-rdf-syntax]

[19] 溝口理一朗. 1999.オントロジー研究の基礎と応用. 人工知能学会誌, 14 (6). 45–56 [977–988]

[20] 中本敬子・野澤元・黒田航 2004. 動詞「襲う」の多義性:カード分類課題と意味素性評定課題による検討. 認知心理学会第二回大会口頭発表: ^{同志社大学}. [http://clsl.

hi.h.kyoto-u.ac.jp/~kkuroda/papers/

Nakamoto-et-al-CogPsy2004-Original.pdf]

[21] 荻野孝野・小林正博・井佐原均2003.^{日本語動詞} の結合価.東京:三省堂.

[22] Reed, E. S. 1996. Encountering the World. Oxford University Press. [^邦訳:アフォーダンスの心理学.^細田直哉訳.^新曜社.]

[23] ^{佐々木正人}1994.^{アフォーダンス}:^{新しい認知の理} 論.岩波書店.

[24] Sowa, John F. 1999. Knowledge Representation: Log- ical, Philosophical, and Computational Foundations.

Brooks/ Cole.

[25] Utiyama, Masao, and Hitoshi Isahara 2003. Reliable Measures for Aligning Japanese-English News Arti- cles and Sentences. ACL-2003: 72–79.

[26] Wilson, Andew and Thomas, Jenny 1997. Seman- tic annotation. In R. Garside, G. Leeach, and A.

McEnery (Eds.), Corpus Annotation, 53–65. London:

Longman.

[27] (^独) 情報通信研究機構. 2003. EDR^{電子化辞書} 仕様説明書. [http://www2.crl.go.jp/kk/e416/

EDR/J_index.html]

PDF — FrameNet の視点から

日本語の意味 ( 役割 ) タグ体系を定義する試み ∗

— FrameNet の視点から —

黒田 航

井佐原 均

1 背景

2 FrameNet 流アプローチが意味 ( 役割 ) タグ体系の定義に有効である理由

3 FS/FN の基本概念

4 意味役割ベースの意味タグづけの実例

5 日本語のための FN/FS の将来の展望

6 結論に代えて : 言語科学者が FrameNet に期待しているもの

参照文献

日本語の意味 ( ^役割 ) タグ体系を定義する試み ^∗

— FrameNet ^{の視点から} —

黒田航

井佐原均

1 ^背景

5 ^{日本語のための} FN/FS ^{の将来の展望}