• 検索結果がありません。

PDF — FrameNet の視点から

N/A
N/A
Protected

Academic year: 2023

シェア "PDF — FrameNet の視点から"

Copied!
11
0
0

読み込み中.... (全文を見る)

全文

(1)

日本語の意味 ( 役割 ) タグ体系を定義する試み

— FrameNet の視点から

黒田 航

井佐原 均

概要

本論文はBerkeley FrameNet (BFN) [7, 9]の洞察を取り入れた,日本語のための意味(役割)タグ体系 を開発する企画について紹介する.そのような目的のためにBFN流の意味役割ベースの意味構造へのア プローチが適している理由の一つとして,それが(シソーラスの基盤となる概念階層とは別の観点から)

「意味要素の自然で一貫した分類基準」を提供することを示し,FNのアプローチは,それに「満足の行 く注釈体系」とするための拡張を行えば,意味(役割)タグ体系を定義する際に有効であることを示す.

Abstract

This paper proposes a framework to develop a tagset needed for “semantic role” tagging for Japanese corpus. Our framework is building on research in Berkeley FrameNet (BFN) [7, 9], but it extends the BFN approach to semantic annotation in some distinguishable ways. Among others, our approach consists of Multilayered Semantic Frame Analysis (MSFA), which achieves effective integration of multiple frames in a single running text. With this, MSFA is expected to (i) provide deeper lexical semantics that BFN, and (ii) increase the usability of a corpus developed in the proposed framework. Also, MSFA is likely to reduce “conflicts” among human annotators’ judgments, thereby making the result of manual annotation more consistent and reliable.

1 背景

過去十数年間,自然言語処理は目覚ましい進歩を 遂げた.その要因の一つは言語資源の充実によって 可能となった機械学習アプローチの普及と定着であ る.品詞・統語情報などの付加情報(アノテーショ ン)つきのコーパスを訓練データに用いた機械学習 に基づいて,以前は不可能だった様々な成果が達成 された.

このような手法によって達成された解析技術の高 度化には目を見張るものがあり,同様の効果が意味 処理にも期待しうるが,一つ大きな障壁がある.現 時点では,意味処理に適切な言語資源が一般に公開 された形では存在しない.

こ の 論 文 は 第 10回 言 語 処 理 学 会 で の ポ ス タ ー 発 表 (03/16/04,東京工業大学)の内容を反映するように,大 会予稿集に収録の論文[16]を改訂したものである.この 論文の改訂にあたって,岡本雅史(東京大学),竹内和弘

(情報通信研究機構),高梨克也(情報通信研究機構),竹内

孔一(岡山大学),金丸敏幸(京都大学),中本敬子(京都大 学),野澤 元(京都大学)との有益な議論が参考になった.

この場を借りて,感謝の意を表したい.

独立行政法人 情報通信研究機構 けいはんな情報通信融合 研究センター

このような空隙を埋めるのが急務であるのは論を 待たない.私たちはこの目的のため,次のような企 画に取り組むことにした: (i) Berkeley FrameNet (以 後, BFN) [7, 9]を参考にした日本語のための意味タ グ体系Sの開発; (ii) S (の部分タグ)のついた日本語 コーパスの構築と公開(ただし,現時点で公開する コーパスの規模は決まっていない).

以下では,特に(i)に関してFNが意味タグ体系 の定義に有効だと考えられる理由を論じる.

2 FrameNet 流アプローチが意味 ( 役割 ) タグ体系の定義に有効である理由

2.1 有意味な意味タグ体系の条件

議論の始めに,[26]の意見を参考にしつつ,意味 タグ体系が満足すべき一般的性質を幾つか上げてお く.有効な意味タグ体系とは,

(1) 十分な体系性と一貫性が備わっていて,機械 学習可能である

(2) 品詞情報や統語情報の体系から分離されてい ると同時に,それらと統合されている(か統 合可能である)

(3) 特定の知識領域や目標課題(e.g., 機械翻訳)

(2)

に限定されない一般性と網羅性を有し,多く の分野の研究者が有用な情報を引きだせる (4) 必要に応じて拡張可能である

これらは条件としては網羅的ではないが,要点は 尽くしていると思われる.

FNは特に(3), (4)の問題に関して有効なアプロー

チであると考えられる.以下では,この点に関して 詳しく説明する.この論文では扱わないが(1)の問 題は[11]で検討されている.

2.2 課題としての意味(役割)タグづけ

品詞タグづけ(part of speech/POS tagging)は,形 態素解析の出力である形態素列に最適な品詞タグ列 を割り当てる手順である.意味タグづけ(semantic tagging/marking)も,本質的には同様な手順として 表現することが可能であるはずだが,それには品詞 タグづけにはない問題がある.例えば,

(5) 規模の問題: 仮に意味タグ体系が閉じてい るとして,その空間(おそらく数百から数千 のオーダー)は品詞タグの空間(数十から数 百のオーダー)より広大である

(6) 単位の問題: 品詞タグづけの単位が比較的 明瞭(e.g.,形態素,語)であるのに対し,意味 タグづけの単位は(長年の言語学の研究にも 係わらず)今もって十分に明瞭だとは言いが たい

(7) 最適化(可能性)の問題: (5, 6)の当然の結 果として,意味タグづけの場合,最適なタグ 列を決定する過程で生じる相互依存性がケタ 違いに大きい

(8) 発 見 手 順 の 問 題: 品 詞 タ グ 体 系 を 定 義 す る の に 使 用 さ れ る 分 類 特 徴 (±countable,

±inflectional, . . . ) ほど自明な分類特徴が,

意味タグ体系の定義の場合には得られない.

つまり「意味要素の自然な分類特徴」の発見 は自明ではない

(7)は計算的な側面を含み,FNが直接解答を与 える問題ではないが,(6), (8)の問題に関して,FN は非常に有効な答えを提供しうる.以下では特に (8)の分類基準発見の問題に関して,その理由を述 べる.

なお,ここで正確を期すならば,ここで意味タ グづけと呼ばれている課題は,意味役割タグづけ (semantic role tagging/marking)のことである.単

なる意味タグ(づけ)と意味役割タグ(づけ)の概念 的相違は,以下の議論から自然に明らかになるはず である.

3 FS/FN の基本概念

(B)FNはFillmoreのフレーム意味論(Frame Se- mantics: FS)の応用であり[5],その意味で,日本語 自然言語処理でなじみの深い格文法Case Grammar [4]の発展形でもある.だが,以下に示すように,格

文法とFS/FNへの移行には幾つかの重要な概念的

変更も含まれる:

(9) FS/FNは「理解には基本単位が存在する」と

いう仮定を立て1),その単位を(意味)フレー ム((semantic) frame)と呼ぶ.

(10) この意味での(意味)フレームはヒトの(状 況)理解の単位である.

(11) この意味でのフレームは非言語的な単位で,

ヒトが理解できる状況を定義する構造体で ある.

(12) フレームが特定し表現しているのはhh何がi, h何のためにi,h何をi, . . . ,hどうしたi iとい う形で記述しうる,

(13) h何がi,h何のためにi,h何をiのような項 の性質はフレームが決定し,項となってい る語彙要素の意味タイプ=意味型(semantic

type)によっては完全に定まらない.つまり,

フレームがモノの,状況における(意味)役割 (semantic role)を定める.この意味で,意味 役割は状況相対的である.

(14) このようにして定まる状況相対的な意味役 をFNではフレーム要素(frame elements:

FEs)と呼ぶ.

(15) フレームが特定された時,(あるレベルの)理 解が達成される.この際,フレームの特定性 の程度の差(つまり抽象度)によって「浅い理 解」と「深い理解」の差が生じる2). 3.1 フレームの選択と語義の特定=曖昧性の解消

その語彙クラスに係わらず,語は様々なフレーム を喚起するが,その喚起の強度は語のタイプによっ

1)この点は第一著者のBFN(好意的)解釈による.実際,

この認知科学的に極めて重要な存在論的前提に関して,

BFNは明示的ではない.

2)理解の深さにフレームの(特定性の高低で表わされる) 象度を結びつける解釈は,BFNにはない.

(3)

Word[j]

Frame[1]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[2]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[n]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

活性化

活性化

活性化 Word[i]

活性化

側抑制 側抑制

側抑制

側抑制 側抑制

Word[j]

Frame[1]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[2]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

Frame[n]

FE[1]: ...

FE[2]: ...

...

FE[n]: ...

Definition: ...

活性化

活性化

活性化 Word[i]

活性化

側抑制 側抑制

側抑制

側抑制 側抑制 Word[1]

Word[n]

Word[1]

Word[n]

図1 競合からFrame[2]が選ばれる様子

て異なる.動詞は特にフレームの特定に大きく貢献 するが,それでも完全に一つのフレームを特定はし ない.言い換えれば,動詞と名詞(群)との同一文内 の組み合わせによってしかフレームは定まらない.

例えば動詞“h襲い手ih標的iを襲う”には,[17]

が記述するように,次の(a)–(d)のようなフレーム とその上位/下位フレームが幾つか存在する(図2を 参照されたい.詳細には§3.4で立ち戻る).

(16) a. F01:h(主に捕食を目的とした)動物個体 による他個体の攻撃iのフレーム,

b. F02:h(主に資源の強奪を目的とした)ヒ トによる他のヒトの襲撃iのフレーム,

c. F03:h自然災害発生iのフレーム,

d. F04:h活動への打撃発生iのフレーム.

これらは自然言語処理の分野で格フレーム(case

frames)という名で特定される語彙クラスと多かれ

少なかれ一致する[12, 21].

これらのフレームが存在することで,(17a)-(17d) のそれぞれの表現で曖昧な指示“それ”の意味タイ プが(決定可能でなくても)推定可能となる:

(17) a. 人食い鮫がそれを襲った

“それ”の指示対象のクラス={人,魚,ケ ガをしたイルカ, . . .}

b. 強盗がそれが襲った

“それ”の指示対象のクラス={銀行,現 金輸送車,コンビニ, . . .}

c. それが東京を襲った

“それ”の指示対象のクラス={地震,台

風,インフルエンザ, . . .} d. それが市場を襲った

“それ”の指示対象のクラス={株価の暴 落,恐慌, . . .}

また,h道具iの使用が含意されるのは,F02の hヒトによる他のヒトの襲撃iフレームのみである.

(17a, b, c, d)に見られる脱曖昧化の効果を一般化 して言うと,こういうことになろう:動詞を含めて,

どんな語も単独ではフレームを特定する力はなく,

これが語の多義性の原因となる.別の言い方をす れば,

(18) 語の多義性,曖昧性の解消(sense disambigua-

tion)とは,ほかの語との共起によって意味

フレームが特定され,フレーム内でのその語 の意味役割が定まることである.

文中の異なる語がお互いに異なるフレーム,場合 によってはお互いに相いれないフレーム群を喚起す ることがある.この場合,喚起されたフレームの間 には競合的関係が発生し,(おそらく側抑制によっ て)そのうち一つのフレームが選ばれることになろ う.このことは簡単に図1に示した.ただし,BFN は曖昧性解消のメカニズムに関して明確なモデルを もっているわけではなく,ここに示したのは第一著 者の独自の解釈である.

3.2 フレーム =ネームスペース(名称空間) 以下で使用する表記について,簡単に説明する.

f.x”というドット演算子を用いた表記は,フレー ム要素xがフレーム f のネームスペース内にある

(4)

局所的な要素であることを示す.従って,任意のフ レーム要素の対( f1.x, f2.y)について,仮にx = y (つ まり,名称h¤.対象iの同一性)が成立しても,原 則としては f1.x6=f2.yである.もちろん,f1, f2が 同一の上位フレーム f0の実現である場合,x, yには 共通性が存在する.

3.3 BFNに関する幾つかの注意

FS/FNの考える意味役割は,一方でフレーム相対

的,状況相対的である.それが状況相対的である理 由は,それがモノの物理的,客観的特性には還元し えないからである.他方で,FS/FNの考える意味役 割は,多分に文化相対的である.FS/FNはもはや,

格文法の頃のような「普遍的な意味役割の目録」に 基づく意味記述は目指していない.

これらの点から明らかなように,FS/FNは理解の 記述を指向しており,真理条件の記述を指向する意 味論とは一線を画するものである.

FNがFSと異なっている点は,FNでは多数のフ レームが継承関係などによって(オブジェクト指向 デザイン風に)組織化された構造である点に注目し ている点にある.

3.4 意味フレームの実在性

意味フレームは実在するのか?統語派生などと同 様,言語学者の夢想ではないのか? するとしても,

どの辺の抽象性のレベルで手を打つべきなのか?こ れらの疑問の答えは自明ではない.

二つの心理実験(カード分類課題,意味素性評定 課題)の多変量解析(クラスター分析,因子分析,多 次元尺度法)の結果[20]から,意味フレームが実在 性を強く示唆する結果が得られている.これは意味 役割タグの基礎となる意味フレームが単なる理論仮 構物(あるいは言語学者の妄想)ではないことを意 味する.

この実験は,言語学者によるコーパスの分析を 通じてなされた「襲う」の12個の下位フレームの 特定[17]の記述的有効性を検証するためのもので あった.図2に,同定されたフレームのネットワー クを示す.

この結果はFN/FSの枠組み全体にとっては好意 的なものであるが,現時点でのBFNの幾つかの問 題点を明るみに出すものでもある.

(19) 第一に,BFNでフレームの実在性は自明と 見做され,まったく疑問視されていないが,

それは認知科学的な観点からすると,実証性

を犠牲にした,危険な方向性である

(20) 第二に,BFNの設定しているフレームの粒 度に関して,[20]の結果は,それを問題なし とはしない.現時点で,BFNデータベース の記述の細かさ(あるいは粒度)の最適性は 所与のものとなっているが,これは根拠に欠 ける3)

(21) 意味フレームのデータベースの記述の粒度 が利用目的ごとに最適化されているか,ある いは変更可能でない限り,最終的にリリース される言語資源の有用性は限定されたものに なる

(ターゲットとなる課題ごとに)フレームの最適な 粒度を設定するというのは,意味タグつきのコーパ スを有意義な言語資源とするために必須な条件であ り,現時点でのBFNはこの点に関し,明らかに見 識を欠いているように思われる.

3.5 BFNの問題点

BFNでは意味フレームのデータベースの構築を 意味タグつきコーパスの開発に優先させている.こ れはデータベースを早期にリリースするための一つ の方針だが,これには明らかな弊害もある.この手 法では,例えば数百文程度のサブコーパス全体に十 分に細かく意味役割タグづけしようとした場合,(i) どれぐらいの数のフレームが,(ii)どれぐらいの詳 細度まで必要か,という実際的な見地には繋がりに くい.実際,このような実際の応用を射程に入れた 研究は,BFNではまだ行われておらず,第一筆者 は,BFNの今の方針では,最終的には意味フレーム の概観を得る程度のことしか達成しないのではない かと恐れる.

これに対し,(独)情報通信研究機構NICTの開発 するFNデータベースは,これらの二点を補う形で BFNを拡張する見通しである.以下に,その具体 例を示す.

4 意味役割ベースの意味タグづけの実例

以上の議論から解るように,意味役割タグとして フレーム要素(FE)を採用するのは有効である.こ

3)第一著者はBFNのスタッフと直接接触をもったことが ないので断言はできないが,公開されているBFNデータ ベースの単位がどのような経緯で選定されたのか,それ を知ることのできる資料は存在しないか,あるいは,その 問題は初めから考慮されていないように思われる.

(5)

ROOT

生体の抗争

人の襲撃

動物の襲撃

自然災害発生

異変の発生

活動への打撃 異常気象

疫病の流行 捕食

強盗

強姦 抗争/紛争

非捕食

発病 災厄の発生

高波が海水浴客を襲った

ペストがその町を襲った

大型の不況がその国を襲った

肺ガンが働き盛りの彼を襲った

ストーカーがその女性を襲った 二人組の強盗がその銀行を襲った 二人の組員が敵対する組長を襲った

スズメバチの群れがその人を襲った

言いよう のない不安が彼を襲った

虐待 通り魔がその小学生を襲った

侵略 その国は石油の豊富な隣国を襲った

資源強奪

暴行

小規模 大規模 オオカミが小羊を襲った

地震が東京を襲った

図2 [17]が同定した「襲う」のフレームのネットワーク

れが正しいアプローチならば,FN/FSはすでに(8) の問題に対して(間接的には(6)に対しても)有望な 答えを出している.以下では,S = (22) (日英対訳 コーパス[25]の実例)という文に対する暫定的タグ づけ案を基に,この主張の妥当性を検討する.

(22) 西寧市での暴動は,イスラム教徒を侮辱する 内容の本が四川省で刊行されたことがきっ かけ.

4.1 意味フレーム分析の複層化

フレーム要素を意味タグとして採用した場合,S に対し,どのような構造が与えられるかを示すタ グづけ例を図3に示す(フレームごとに色分けして ある.

このようなコーディングのための仕様はまだ完全 に固まっていないが,参考のために挙げた.GOV-

ERNORはBFNの概念を踏襲してるが,EVOKER,

MARKER, LINKER, EXTENDERの四つは,第一 筆者による考案である.最後の三つは格助詞,形式 名詞のような“文法的”な要素を実質的な要素から 区別するためのもので,意味役割とは関係ない.

このタグづけ案にあるNULL1, NULL2の存在位 置(Index 6, 7)に関して言うと,それは「主要部の形 成する節の先頭」という日本語の言語学の観点では

すれば十分に動機づけられられた位置であるとは言 えるものの,かといって,それは完全に恣意性を免 れるものでもない.また,NULL3は動詞要素(“だ” や“である”が現れる位置であり,その省略をコー ドするが,その役割が補助的な要素である.ここで

はEXTENDERとしてエンコードされている)点か

ら見ても,NULL1, NULL2とは性質が異なってい て,必須性は低いと言える.なお,一部のNULL (NULL1, NULL2)は生成言語学分析の空範疇(e.g., PRO)に対応する.ただ,それが何を意味するのか は,慎重に解釈される必要があるとだけ言っておき たい.

ここで便宜的に特徴[+explicit]を割り当てたフ レーム(h侮辱ih出版ih刊行i)は表層に明示的 な支配項(governor) (e.g., “侮辱(する)”, “本”, “刊 行(する)”)をもつもの,特徴[explicit]を割り当 てたフレーム(e.g.,h執筆i,h表現i)はそれをもたな いものである.

明示的な支配項がないフレーム場合,そのタグづ けはFN内部の含意関係に基づいて自動的な推論と して示されるので,明示的にコーディングされる必 要はない4)

4)FN自体はオブジェクト指向デザインの関係データベース

(6)

!"#$% &$'($")* +,-($./0 12$%34565)7

+,-($.89 12$%34565)7

+,-($.:;<

=>

12$%34565)7

+,-($.?@ABCD

=>EF<GH 12$%34565)7

+,-($.IJ1K

$%34565)L2'MN$,

"M,4$**7

+,-($.OP1K

$%34565)L2'MN$,

"M,K4$**7

+,-($.QR 125(345$#7

S TUV +W.=>XY +W.=>XY +W.WZ[\W].

^V_

` a bc]\W] bc]\W]

d < e!f\W]

g :; h[ZW]f[] +W.=>CD

i jk e!f\W]

l fmeeS +W.89n +W.=>EF +W.=>EF

o fmee` +W./0n +WpqrIJn +W.IJn +W.OPn

s tuvwxy +W.z{ +W.89qr +W.IJ|{ +W.OP|{

} ~ bc]\W]

S• /0 h[ZW]f[]

SS €• W‚ƒWf„W]

S` qr W‚ƒWf„W] +W.WZ[\W].I

Jqr

+W.WZ[\W].O Pqr

Sd < e!f\W] e!f\W] e!f\W]

Sg … +W.†‡ +W.89

ˆ.WZ[\W]

+W.WZ[\W].I

J‰Š +W.OP†‡

Si ‹ bc]\W]

Sl Œ•Ž +W.89XY +W.WZ[\W].

••_

So a bc]\W]

Ss ‘’ h[ZW]f[] “Wc„ “Wc„

S} ”•– W‚ƒWf„W] W‚ƒWf„W]S W‚ƒWf„W]S

`• —˜ W‚ƒWf„W]` W‚ƒWf„W]`

`S ‹ bc]\W]

`` ™š›œ h[ZW]f[]

`d fmeed W‚ƒWf„W]

`g •

図3 タグづけ案: FEが意味タグに相当する

どんな要素にどれぐらいのフレーム喚起力がある かは,まだまだ明らかでない面が多く,今後の研究 による明確化が必要である.実際,動詞ばかりでな

く,名詞(e.g.,本)や前置・後置詞も特定のフレー

ムを喚起することがあるのは明らかである.その ような性質をもつものはフレーム喚起要素(frame- evokers)とし,図2ではEVOKERとしてコーディ ングされている.これらのうち幾つかは[explicit]

なGOVERNORだと考えられる.

一方,これが示唆していることは“本”に生成辞書 理論で言われる質構造(qualia structure)があるとい うことである.この点に関しては,§5.3で触れる.

図3にある意味タグづけはBFNが定める枠組み を第一著者が独自に拡張した枠組みに基づいてい る.それを複層(意味)フレーム分析(multilayered (semantic) frame analysis: M(S)FA)と呼ぶ.この 拡張の動機になっている懸念とそれが意味すること について,簡単に説明しよう.

4.2 「満足の行く注釈体系」の構築

MSFAという形でのFN/FSの拡張の動機づけに なっているのは,「一つの文に幾つものフレームが 同時に現れる」という事実への対処,つまり「フ レームの複合的実現」の問題に対処する必要性で であり,内部的にはフレーム同士はネットワーク構造を なしている.

ある.これが問題となるのは,コーパスCへの 釈(annotation) A(C)—正確には注釈体系(anno- tation system) —には一般に次のような性質が求め られるからである:

(23) 非選択性: 注釈A(C)は可能な限り非選択的 (unselective)でなければならない.注釈は,

(対象となる言語を選ばず),対象となるコー パスを選ばず,対象となる文を選ばず,対象 となる文の要素を選ばないとき,非選択的で あると言う.

(24) 完全性: 注釈A(C)は可能な限り完全でな ければならない.注釈は,(あらゆる言語の), あらゆるコーパスの,あらゆる文の,あらゆ る要素に対して施される場合,完全であると 言う.

(25) 有用性: 注釈A(C)は可能な限り有用でなけ ればならない.注釈は,(任意の言語の),任 意のコーパスの,任意の文の,任意の要素に 対して,利用者が求めている情報が取り出せ るとき,(完全に)有用であると言う.

(26) 一般性(補足的): 注釈A(C)は,対象となる 要素を選ばず,対象となる文を選ばず,対象 となるコーパスを選ばず,対象となる言語を 選ばないならば,その分だけ多くの一般性を

(7)

もつ.

意味フレーム分析の複層化は,これらの三つの原 則の完全性を除く二つを満足するために必要な拡張 である(注釈の完全性,一般性は理想的な性質で,

現実にはどんな注釈体系も完全性は満足しないと思 われる).

非選択性が重要なのは,有用性を保証するために である.事前に注釈をつけやすい文を選んで,それ のみに注釈をつけることが許されるような安易な 状況から,多くの分野の研究者にとって本当に利用 価値のある,現実的な注釈がなされれるとは考え難 い.実際,タグ体系を開発するのに,(27)の条件— これを「満足の行く注釈の条件」と呼ぼう—を設定 するのは,完成品の最低限の品質を保証するために 必要なものである:

(27) 注釈体系Sは,(なるべく多くの言語の),な るべく多くのコーパスの,なるべく多くのの 文に,可能な限り多くの利用者にとって満足 のゆく情報を提供するならば,その分だけ満 足の行くもの(satisfactory)である.

意味フレームのデータベースを構築しても,それ がここで定義した意味で「満足の行く」注釈体系を 提供する見通しがなければ,せっかく開発したデー タベースに利用価値がない可能性が考えられるわけ である5)

BFNは現時点では,暗黙に「一文につき一(格) フレーム」のような作業仮説を置いて作業を進めて いるように見受けられるが,これは意味の問題と言 語形式の問題を完全に分離しない,中途半端な該当 事象の扱いであるように思われる.第一著者の見解 では,「一文につき一格(フレーム)」のような制約 を設けることは必然性に欠け,また,意味フレーム 基盤のタグづけを「満足の行く注釈体系」とするこ との障害となるばかりではなく,解ける問題をわざ わざ解けない形に変形してしまっているように見え る.この点に関しては議論の余地もあろうが,いず にせよMSFAは,この種の言語の「形而上学」には 肩入れせず,「うまくいく記述が正しい記述だ」と

5)アメリカのNLP関係者が,日本の有名な言語資源開発の 失敗多額の資金をかけて開発した辞書が,期待してい たほど使えなかった,という挫折のことを知っていた ら,BFNの設計はもう少し別のものになっていたかも知 れない.

いう実用主義を重視する.

4.3 「深層構造」の概念への関連

図3にあるような多層的コーディングを採用する と,フレーム(群の一部)は実質的に,いわゆる“深 層構造” (deep structure)と同じ役割を果たしてい のが判る.これは興味深い点である.この点が正 しいならば,従来の言語学の記述的貢献を意味(役 割)タグづけの目的のために再利用することが可能 となる6).これが本当なら,言語学者としては喜ば しい限りである.

ただし,次のことには注意が必要である:多層的 実現の下での深層構造と表層構造の対応関係は多重 継承(multiple inheritance)で,同時的,並列的で あり,深層構造としてのフレームは,いわゆる派生

(derivation)によって,順序づけられた履歴を伴っ

て表層形に結びつけられているわけではない.これ が含意することの一つは,これまでの(理論)言語学 者の分析は派生という(実際には相当に必然性に欠 ける)概念を放棄すれば,言語と知識との結びつき を明らかにするために十分に有益な記述を行ってき た,ということである.それが“教祖”への忠節の ために誤った方向に曲げられてしまったことは,非 常に惜しまれる.

4.4 意味役割と文法役割の自然な橋渡し

図3にあるような多層的な記述は,意味役割と文 法役割の自然な橋渡しを可能としている.これが可 能である理由は,文法関係,文法役割が語に相対的 に定義されているからある.このように,文法関係 の記述に多重継承の考えを(HPSGなどとは違った 形で)応用する際に基礎となる理論的枠組みは,す でにPattern Matching Analysis (PMA) [13, 14, 15]

という名称で開発されているので7),これを利用 した.

5 日本語のための FN/FS の将来の展望

この節では工学におけるFN/FSの位置づけを手 短に論じる.

6)認知言語学系の言い方をすると,これは表層系(の意味構 )は,幾つものフレームのブレンド(blend(ing)) [2] 相当するとも言えるであろう.

7)PMAは元来,主語,(間接)目的等の文法機能(grammatical function)に基づいて統語構造を記述する枠組みとして開 発されたが,その後,BFNの現時点での問題点(e.g.,「一 文につき一フレーム」の原則の存在)を補うという応用的 価値をもつことが判明した.

(8)

5.1 FN/FSの意味タグ体系設計のための有効性 以上のことから強く示唆されるのは,FS/FNは意 味タグ体系を定義するのに有用であろう,というこ とである.

だが,FS/FNが記述するのは可能な意味タグ体系

の全体ではないし,それには自ずから,限界もある.

実際,概念辞書=シソーラス類が扱っている側面と

FN/FSが扱っている側面は,おそらく直交的であ

る.これは属性ベースの意味記述と役割ベースの意 味記述を分離し,それらの間に「インターフェイス」

を設けるのが必要だということを示唆している.

有用な意味タグ体系は客観的特徴の集大成として のシソーラスがあれば十分だというわけではない.

理解を問題にするのであれば,その単位として意味 フレームの詳細な記述に基づくべきである.

実際,EDR [27]であれ, WordNet [3]であれ,規 模の大きいシソーラスには雑多な情報が統一感なく 入り交じっていて,利用の際の便も,理論的見通し も悪い.この問題は,属性ベースの意味記述と役割 ベースの意味記述という「直交的な性質」を分離し,

それらの記述をシソーラス・プロバーとFNの分業 に割り振ることよって,自然に解消できると考えら れる.

5.2 意味役割と意味型の分離する必要性

この分業の見通しを得るために,“本”という名 詞がフレームごとにどんな意味役割をもつかを示し たものが,次の図4である.この図にある構造を レーム要素の格子(FE Grid)と称する.この図で“ 状況” (situations)をコードする f (行)と“存在物” (entities)をコードするx (列)の交点に丸があること は,xf 内部での意味役割= FE f.r(x)が定義さ れていること,丸の中のラベルは(暫定的な)フレー ム要素の名称を表わす.ぼかしの入った丸は,その 意味役割が,他の意味役割に較べて背景化されてい ることを表わす.列の対応は,同一個体がフレーム ごとに異なる意味役割をもつこと—正確にはもち うること—を表わす.見やすさのために,モノを右 のグループ(クラスA)に,ヒトを左のグループ(ク ラスB)に分けている.対応は完全とは言えないが,

概してクラスaAGENTに,クラスBPATIENT,

THEME類に相当する.

この図では,hiの属性が(そのアフォーダンス (affordance) [22, 23]に基づいて)フレームごとに別 の使用目的をもっていること,つまり別々の現れ

をしていることを明示している.例えば,この図で は,hif3, f4, f5, f6, f7でおのおのh執筆.内 容i,h出版.物i,h消費.商品i,h読書.内容i,h教育. 教科書iという意味役割もつこと,f1, f2で意味役 割もたないことが示されている.これらは同一の 文の中で,同時に実現されてもよい.(22)の例で“ 本”は,h出版.物i,h執筆.対象i,h侮辱.手段i,h表 現.手段iの意味役割を実現していた.これを全部 シソーラスに反映させようと思えば,相当のアクロ バットを覚悟しなければならない.これは“本”に 生成辞書理論で言われる質構造があるということで ある.この点に関しては,§5.3で触れる.

図4に示された構造は従来のシソーラスの問題点 を明らかにしている: 意味役割と意味型という二つ 種類の情報が従来のシソーラスには混在しており,

それが見通しの悪さに原因になっているという点で ある.これは古典的な「フレーム問題」,つまり記 述量の爆発に繋がる,避けるに越したことのない問 題である.FS/FNに準拠する記述の枠組みを採用 することで,この問題は現実的な範囲で回避可能 となると考えられる.特に名詞の意味論が,意味フ レームに基づく意味記述で最大の恩恵にあずかると 考えられる.これは自明なことではないので,次の 節では,この点に関してもう少し詳しく論じること にする.

5.3 モノの意味役割と質構造(Qualia Structure) 以上の私たちの主張が正しければ,フレームに基 づく語の意味記述—特に名詞の意味記述—は,生

成的(generative)な側面をもつ.その理由は,どん

な名詞概念についても,すべての可能なフレームで の,その意味役割の値をあらかじめ完全に列挙す ることはできないからである.例えば,ヒトは(少 なくとも十分に賢く,十分に腕力のある個体なら ば)h殺人iのためのh凶器i“消火器”を使うこ とができるが,はじめから“消火器”に凶器という 意味役割が備わっていたとは考えられない.これは [xが“消火器”であるならば,xが重くて硬い]と いう“消火器”(と呼ばれる物体)のアフォーダンス

[22, 23]によって,それがhヒトを撲殺するための

鈍器iになるためである.このような生成的な側面 は,実際の文章に現われるとは限らないが,過小評 価されるべきではない.

ここで少し視点を変えて,生成辞書(Generative

Lexicon)の理論との関係で意味フレームの問題を

(9)

f1

f4 f3

f1: 着用フレーム

f4: 出版 (<< 制作, 売る) f3: 執筆(<< 情報伝達)

a1 b1: b3: 洗剤

a1 b1 b3

f2 f2: 洗濯

f5 f5: 消費

b2: 衣類 b2

a4 a4

f6 f6: 読書

a2 a2

提供者

a5 a5

a6 a6

f7 f7: 教育

a3 a3

“Agent” Classes “Thing” Classes

洗剤

出版物 内容 執筆者

汚れ物

消費者 商品

読者 内容

作者

読者

購買者

衣服

出版者

洗濯者 着用者

商品 商品

生徒 教科書

作者 教師

消費者

読者

図4 “に係わるFE Grid (断片)

簡単に考察してみよう.例えば,[8, p. 78]に次の (28)のような“novel” (小説)の生成辞書の規定が ある:

(28)







novel . . .

QUALIA=



FORMAL=book(x)

TELIC=read(y,x) . . .









(28)が記述していることは,

(29) ある対象xnovelである(“novel(x)”の規 定)ならば,xは次の質性(qualia)をもつ:

a. xbook の 一 種 で あ る (“FORMAL = book(x)”の規定内容)と同時に,

b. xyに読まれる(“read(y,x)”の規定 内容)

ということである.これはλ 式を用いて

(30) λx[novel(x). . .TELICy[read(y,x)]. . .] とも書かれる関係的な概念である.ところで,この 式のλy[read(y,x). . .]という項はh読書.対象i いう意味役割を規定している.従って,明らかに

QUALIA構造には意味役割を記述する効果がある.

問題は生成辞書のやり方は体系的か,効果的かど うか,ということである.実際,QUALIA.TELIC

幾つ存在しうるか,また,それを決める明示的な手 順が存在するか,ということである.この点に関す る生成辞書理論の答えはあまり明確でないように思 われる.

このような問題はあるにせよ,FN/FSと生成辞 書の理論の間には高い互換性があるのは,まちがな い.その意味では,FN/FSの方向は生成辞書の方向 に特に矛盾するものではなく,FN/FSが少なからず インフォーマルな理論であるという面を考えると,

両者は少なからずお互いを補いあうものであるよう に思われる.

5.4 類似の枠組みとの比較

動機や目標は異なるが,意味タグ体系,あるいはそ れに類するものを定義する試みは,幾つも存在する.

その代表的なものは,橋田浩一らが提唱している Global Document Annotation (GDA),WordNet [3], Resource Description Framework (RDF) [18]とその 利用形態としてのSemantic Web [1],Ontologies [19, 24]などである.また,機械翻訳などの特定の言語 処理に役立つ辞書構築の企画の一つとFNを見なす ならば,FNは格フレーム辞書の構築[12]と明白な 関連をもつ.実際,格フレーム辞書の記述は,ある レベルの意味フレームと外延が一致すると言えるほ

(10)

ど高い類似性を見せている8)

このような試みとFNとのあいだには興味深い類 似点,相違点が存在するが,FNは次の点で際立っ ている.

(31) a. 言語理解の“内容” の記述を積極的に 知識表現(knowledge representation) [24]

に結びつけようとする

b. ただ,知識構造の直接表現に関する理論 を目指すのではなく,知識構造を資源と して達成される“理解”の記述,モデル 化に重点を置く

(32) その結果として,意味型ベースではなく意味 役割ベースのコーディング体系を採用する (33) 言語学者の意味に関する優れた直観と工学者

の優れた技術力を統合する

(32)の点に関しては,すでに十分に述べてきた.

(31)の点に関しては,分量の制限もあり,この論文 で詳しく論じるのを避ける.論文の締めくくりに (31)の点に関して述べる.

6 結論に代えて : 言語科学者が FrameNet に期待しているもの

以上,FNの有効性に関して,主に工学的な観点 から論じてきた.だが,第一筆者の背景は言語学/ 認知科学であり,関心の中心は必ずしも工学的なも のではない.以下,彼がFNに強い期待をもってい る理由を説明する.

意味タグはコーパス利用者の関心を反映したもの でなければならないことは,最初に述べた.だが,

有用な意味タグつきの日本語コーパスが従来のコー パス構築法の延長線状に起こるとは考えにくい.京 大コーパスであれ何であれ,言語学者が積極的に構 築に関わってこなかったという理由もあって,それ らの言語学的,認知科学的有用性は限られている.

今でも積極的にコーパスを利用して研究している 言語学者は少ない.言語学関係の学会に出向くと,

憶測とも妄想ともつかない珍説,奇説が跳梁跋扈 し.それらの「論証」には実証性のカケラもない.

それが十分な量のデータの,十分に詳細な観察に基

8)一つの非常にありそうな可能性として,格フレームが特 定している語彙的分布は,意味フレームが基盤になって 発生していると考えることができる.二者の関係を喩え て言うなら,格フレームが表現型であり,意味フレー ムが“遺伝子型”である.

づくものだとは考えられない.それらを「正しい」

かのように見せかけているのは,往々にして空っぽ の権威である.これは言語学が科学だとすればとう てい信じられないことだが,あいにく事実である.

このこと一つからしても,言語学者がこれまで日 本語コーパスの利用に関して,今までは「工学者の 作った便利なものを使わせてもらう」という受身な 発想をすることが多かったのは当然のなりゆきだっ たと言える.だが,そのような言語学にとって非常 に不幸な時代はもうそろそろ終わりだと思う.デー タ中心に研究を進めるべきだという反省が徐々に広 がっていると,第一著者は信じる.そのような背景 の下で,これからは「本当に自分たちの必要にあっ たコーパスを自分でデザインし,それを工学者や認 知科学者と共同開発する」という能動的な姿勢を取 るべきであり,そのような形で関連分野の研究者と 積極的に係わってゆくべきだと第一著者は考える.

このような共同作業を通じて言語学が受ける恩恵 は絶大なものである.現時点での言語学は,実験生 物学成立以前の生物学のような状態にある.言語学 者の一部には一部の先導者の意見に躍らされて,言 語学を物理学になぞらえる人々がいるが[10],これ は明らかに言語学自体にとって好ましい結果を生ん でいない.いわゆる「チョムスキー革命」以来,言 語学者は体系的にデータを収集し,それを理論的バ イアスを回避しながら記述するという自然科学的に 基本的な研究態度を取るのを止めてしまった.その 結果,言語学者はすっかり怠惰になり,言語データ を真剣に見なくなり,自分の理論に都合のいい例を 作例し,気に入った現象を恣意的に「説明」してい .現在,データ収集の方法は行き当たりばったり で,ご都合主義的であり,完全に非科学的である.

そのような劣悪な記述に基づいて(例えばUniversal

Grammarに関する)「深遠」な説明を提案するのに

言語学者は忙しい.これが現在の「科学的」言語学 の実態である.

だからと言って,第一著者は「伝統的」言語学に ありがちな,見通しのない,瑣末主義的な現象の記 述に回帰すれば良いと主張しているわけではない.

言語の記述が言語資源と呼べるためには,まず,そ れが効果的に(i)再利用可能であり,(ii)共同利用 可能であることが必要である.効果的に再利用可能 であるためには,(iii)記述のフォーマットが定まっ ていて,解釈のために最低限の前提知識しか利用者

(11)

に要求しないことが必要である.更に言えば,(iv) 記述がデータベース化され(v)電子化されていて,

(vi)オンラインで利用可能であることが望ましい.

言語記述という問題において,言語学がこれまで 分野を越える共有資源の構築になした貢献は実質的 に無に等しい.特に意味記述の分野でこの傾向は顕 著であり,それが認知科学的には意味の実証的理論 の立ち後れ,工学的には意味処理の立ち後れに結果 していると思われる.FNは,このような事情に歯 止めをかける枠組みとして有望である.それは,言 語学が過去数十年間の怠惰から失った関連研究分野 との実りある連携関係を取り戻すきっかけを与える 希望となるものなのかも知れない.

参照文献

[1] Berners-Lee, Tim, James Hendler, and Ora Lassila 2001. The semantic web. Scientific American. May 2001.

[2] Fauconnier, Gilles R. 1997. Mappings in Thought and Language. Cambridge University Press.

[3] Fellbaum, Christiane (Ed.) 1998. WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press.

[4] Fillmore, Charles J. 1968. The case for case. In W.

Bach and R. T. Harms (Eds.), Universals in Linguistic Theory, 1–88. New York, Holt, Rinehart & Winston.

[5] Fillmore, Charles J. 1982. Frame semantics. In Lin- guistic Society of Korea (Ed.), Linguistics in the Morning Calm, 111–137. Hanshin Publishing.

[6] Fillmore, Charles J. 1985. Frames and the semantics of understanding. Quaderni di Semantica, 6 (2), 222–

254.

[7] Fillmore, Charles J., C. Wooters, and Collin F. Baker 2001. Building a large lexical databank which pro- vides deep semantics. In Proceedings of the 15th Pa- cific Asia Conference on Language Information and Computation.

[8] Pustejovsky, James 1995. Generative Lexicon. MIT Press.

[9] Fontenelle, Thierry (Ed.) 2003. International Jour- nal of Lexicography – Special Issue: FrameNet and Frame Semantics. 2003 September.

[10] 福井 直樹. 2001.自然科学としての言語学:生成文 法とは何か.東京:大修館.

[11] Gildea, Daniel, and Jurafsky, Daniel 2002. Automatic labelling of semantic roles. Computational Linguis- tics, 28 (3), 245–288.

[12] 河原 大輔・黒橋 禎夫. 2002.用言と直前の格要素の 組を単位とする格フレームの自動獲得.自然言語処 理, 9 (1).

[13] Kuroda, Kow 1999. Outlining Pattern Matching

Analysis: A theoretical framework proposed for a re- alistic description of natural language syntax.言語科 学論集, 5, 1–31.京都大学基礎科学科.

[14] Kuroda, Kow 2000. Foundations of Pattern Match- ing Analysis, A New Method Proposed for the Cog- nitively Realistic Description of Natural Language Syntax. 未 刊 行 博 士 論 文. 人 間・環 境 学 研 究 科. 京都大学. [http://clsl.hi.h.kyoto-u.ac.jp/

~kkuroda/kuroda2000/*.pdf]

[15] Kuroda, Kow 2001. Presenting the Pattern Matching Analysis, A Framework Proposed for the Realistic Description of Natural Language Syntax. Journal of English Linguistic Society, 17, 71–80.日本英語学会. [16] 黒田 航・井佐原均2004.日本語の意味タグ体系を定 義する試み: FrameNetの視点から.言語処理学会第 10回年次大会発表論文集: 148–152.言語処理学会. [17] 黒 田 航・野 澤 元 2004. 比 喩 理 解 に お け る

フ レ ー ム 的 知 識 の 重 要 性: FrameNet と の 接 点. (COE 21 ワ ー ク シ ョ ッ プ: メ タ フ ァ ー へ の 認 知 的 ア プ ロ ー チ 」の た め の 研 究 論 文). [http://clsl.hi.h.kyoto-u.ac.jp/

~kkuroda/papers/metaphor-and-frames.pdf].

[18] Lassila, Ora, et al. 1999. Resource Description Framework (RDF) Model and Syntax Specification.

W3C Recommendation [http://www.w3.org/TR/

REC-rdf-syntax]

[19] 溝口 理一朗. 1999.オントロジー研究の基礎と応用. 人工知能学会誌, 14 (6). 45–56 [977–988]

[20] 中 本 敬 子・野 澤 元・黒 田 航 2004. 動 詞「 襲 う 」の 多 義 性:カ ー ド 分 類 課 題 と 意 味 素 性 評 定 課 題 に よ る 検 討. 認 知 心 理 学 会 第 二 回 大 会 口 頭 発 表: 同 志 社 大 学. [http://clsl.

hi.h.kyoto-u.ac.jp/~kkuroda/papers/

Nakamoto-et-al-CogPsy2004-Original.pdf]

[21] 荻野 孝野・小林 正博・井佐原 均2003.日本語動詞 の結合価.東京:三省堂.

[22] Reed, E. S. 1996. Encountering the World. Oxford University Press. [邦訳:アフォーダンスの心理学. 田直哉訳.新曜社.]

[23] 佐々木 正人1994.アフォーダンス:新しい認知の理 論.岩波書店.

[24] Sowa, John F. 1999. Knowledge Representation: Log- ical, Philosophical, and Computational Foundations.

Brooks/ Cole.

[25] Utiyama, Masao, and Hitoshi Isahara 2003. Reliable Measures for Aligning Japanese-English News Arti- cles and Sentences. ACL-2003: 72–79.

[26] Wilson, Andew and Thomas, Jenny 1997. Seman- tic annotation. In R. Garside, G. Leeach, and A.

McEnery (Eds.), Corpus Annotation, 53–65. London:

Longman.

[27] () 情 報 通 信 研 究 機 構. 2003. EDR電 子 化 辞 書 仕様説明書. [http://www2.crl.go.jp/kk/e416/

EDR/J_index.html]

参照

関連したドキュメント

(1998) “Optimal Income Taxation : An Example with a U−shaped Pattern of Optimal Marginal Tax Rates,” American Economic Review, 88, pp.. Friedman, Milton (1962) Capitalism

一方、 ICT システム自体は、

神楽の様子を見てみましょう (図1)

By providing a general description of the characteristics of corporate governance in the Japanese context and exploring how and why it has changed, this paper attempts to improve

Addressing this problem, we propose a 3D reconstruction method using a correspondence matching technique based on Scaled Window Phase-Only Correlation SW-POC, which is

Stability Analysis of Hierarchical Clustering by Graph Pattern Matching and Visualization Taku NAGUMO, Takafumi SAITO, Hiroko Nakamura MIYAMURA Graduate School of

Shanqi  and  Kawashima  became  acquainted  during  the  confusion  of  the  late  Qing  period,  well  before  the  Xinhai  Revolution,  and 

“irreligious”  or  “having  no  interest  in  religion”.  I  try  to  investigate  what  these  attitudes  mean.  Firstly,  using  the  results  of