JFNDesktopJFN KWIC - corpus.indd

意味フレーム言語学的枠組

２）タグ付け１）タグ付け対象文抽出

図１ JFN構築プロセスの概要

アノテーション作業は複数の層に対して行う。フレーム要素（意味フレームに参与する意味要素）名を付与する FE（Frame Element）層、Obj などの文法機能名を付与する GF

（Grammatical Function）層、NPやVPといった句タイプ名を付与するPT（Phrase Type）層、

PTがNP（名詞句）の場合に格助詞名を付与するPostPos層である。

JFNのコンテンツには、１）意味フレーム間の意味関係や、各々の意味フレームに属するフレーム要素の定義を記述した意味フレーム定義（フレームレポート）、２）語彙項目ごとのアノテーション済み例文（アノテーションレポート）、３）アノテーション済み例文から抽出した語彙項目ごとの結合価パターン情報（語彙項目レポート）がある。これらは Web上で見ることができる（図２）。

意味フレーム定義 (例：Arriving フレーム)

結合価パターン情報とアノテーション例文

（例：語彙項目「喜ぶ」） Web上のJFNコンテンツ

図２

３．研究の進捗状況

以下では、JFN構築の状況、JFNにおける｢日本語コーパス｣の活用、JFNと他の言語資源との関連付けの観点から、今年度の進捗状況について述べる。

３．１．日本語フレームネットの構築

コンコーダンサーJFN KWICやアノテーション用ツールJFNDesktopなどのツール群の整備は昨年度で一通り終わり、今年度は JFN 構築を中心に研究を進めた。昨年度は「日本語コーパス」領域内公開データ2007年度版を用いたが、今年度はJFNサンプルデータ公開に向けて、著作権処理が既に済んでいるモニター公開データ2008年度版をアノテーションに用いた。

アノテーション対象とした語彙項目の意味分野は、これまでアノテーションを行ってきた｢移動｣、昨年度着手した｢感覚・知覚｣と、今年度新たに開始した｢感情｣である。これまでもアノテーション対象を動詞に限定せず意味フレームごとに語彙項目を選定していたが、

｢移動｣に関する語彙項目の大多数が動詞であったのに対し、｢感情｣に関する語彙項目は形容詞も多い。従って、今年度は改めて品詞別に｢移動｣、｢感覚・知覚｣、｢感情｣に関する語彙項目を洗い出した。また、従来はIPAL辞書などの既存の言語資源の見出し語を参考にしつつアノテーション対象とする語彙項目を選定していたが、今年度は｢日本語コーパス｣デ領域内公開データにおける品詞別出現頻度順語彙表をまず作成し、その中から｢移動｣、｢感覚・知覚｣、｢感情｣に関する語彙項目を出現頻度の高い順に抽出した。これらを基にそれぞれの意味分野ごとに上位一定数ずつ語彙項目を選定し、それらを対象にアノテーションを行った。現在のアノテーション済み例文数は、約2000文である。

今年度末までに、FrameSQLというツールを使ってJFNサンプルデータをアクセス制限なしで Web 上で検索表示できるようにした。FrameSQL は、専修大学の佐藤弘明氏が開発された、フレームネット形式のデータを Web 上で検索表示するためのツールである（Sato 2008）。英語、スペイン語、ドイツ語、日本語フレームネットのデータがリンクされている

（図３参照）。

さらに今後は、第２節で紹介したJFNレポートシステム（図２参照）やFrameGrapherというWeb上のツールを使ってJFNデータを公開することも検討している。FrameGrapherは FNで開発された、フレーム間の意味関係をわかりやすく表示するためのツールで、既にJFN 用に移植済みである。第 2 節で触れたように、JFNのコンテンツにはフレーム間の意味関係の定義も含まれる。FNならびにJFNではフレーム間の意味関係として、継承（Inheritance）、

サブフレーム（Subframe）、視点（Perspective On）、使用（Using）、使役相（Causative Of）、

起動相（Inchoative）、参照（See Also）、先行（Precedes）の8種を定義している。例えば、

Perception_experienceフレームはPerceptionフレームと継承関係にある。図４は JFNのPerception_experienceフレームの他フレームとの関係をFrameGrapherで表示したものである。図中の太線は継承関係を示している。

図３ FrameSQLによるJFNデータの表示

（例：Experiencer_subjフレームの語彙項目「あきれる」）

(例：Perception_experienceフレーム)

図４ FrameGrapherによるフレーム間関係の表示

３．２．日本語フレームネットにおける｢日本語コーパス｣の活用

以下では、JFNにおける｢日本語コーパス｣活用の実態について、従来アノテーション対象としていた他のコーパスとの比較の観点からと、今年度後半に開始した全文テキストアノテーションの観点とから述べる。

３．２．１．｢日本語コーパス｣と他コーパスとの比較

本特定領域研究に公募班として参加する一昨年度以前は、JFNでは主に新聞記事コーパスから抽出した例文に対してアノテーションを行っていた。その新聞記事コーパスと、｢日本語コーパス｣の書籍データ、白書データとで、それぞれの動詞の出現頻度順語彙表を作成し

たところ、動詞の意味フレームの分布に関し、ジャンル間で興味深い違いが見られた。

新聞記事、書籍データ、白書データのいずれにおいても、「いる」、「する」、「なる」の 3 動詞が上位４位内に入っている点では変わりがないが、それぞれのコーパスの上位 30 動詞を比べてみると、動詞の意味分類、すなわち動詞の属する意味フレームの分布に差があった。たとえば、新聞記事コーパスでは、出現頻度上位 30 動詞に「話す」、「語る」、｢述べる｣

などのStatementフレームに属する動詞、Decidingフレームの｢決める｣、Requestフレームの｢求める｣、Process_resume フレームの｢始まる｣が含まれるが、｢日本語コーパス｣の書籍データと白書データの上位 30 動詞にはこれらの動詞はいずれも含まれていない。

他方、｢日本語コーパス｣書籍データの出現頻度上位 30 動詞の中にはBecoming_awareフレームの｢知る｣と Perception_experience フレームの｢見える｣が含まれているが、新聞記事コーパスと｢日本語コーパス｣白書データの上位 30 動詞にはどちらも含まれない。また、｢日本語コーパス｣白書データでは Attempt フレームの「図る」と｢努める｣、

Change_position_on_a_scaleフレームの「達す｣と｢高まる｣が出現頻度上位 30 位内に入っているが、書籍データや新聞記事コーパスの上位 30 位には入っていない。

また、同一語彙項目の結合価パターンについても、新聞記事コーパスと「日本語コーパス」間では違いがみられた。¹

以上、「日本語コーパス」の均衡性・代表性について、語彙項目の意味フレーム分布や、

同一語彙項目の結合価パターンのバリエーションを尺度とした評価の可能性を示唆した。

書籍、白書、Yahoo!知恵袋、国会議事録、検定教科書に加え、学術論文、科学技術論文などのジャンルのテキストも加えると、さらに｢日本語コーパス｣の均衡性向上に寄与するのではないかと考える。

３．２．２．全文テキストアノテーション

従来の語彙項目アノテーションによる JFN 構築に加えて、今年度は全文テキストアノテーションも行った。第 2 節で述べたように、全文テキストアノテーションとは、テキスト内のすべての文の、意味フレームを喚起（evoke）するすべての語彙項目に対してアノテーションを行うことである。ただし、固有名詞などは対象とせず、あくまでも意味分析の観点から興味深いと思われる語彙項目に限定してアノテーションを行った。今年度対象としたのは「日本語コーパス」コアデータの一部サンプルである。目下コアデータは書籍と白書の二つのジャンルから構成されているが、今後は Yahoo!知恵袋、国会会議録、検定教科書などのジャンルについても全文テキストアノテーションを行いたい。

例文(1)と(2)は、「日本語コーパス」上の塩野七生著『ローマから日本が見える』のサンプルに現れる連続した文である。下線を施した合計７個の語彙項目がアノテーション対象（ターゲット）である。語の右下に大文字で記したのが各々のターゲットが喚起する意味フレーム名である。1)から7)で、太字の斜字体と右肩のTargetの文字で記されているのがターゲットである。また、ターゲットが喚起する意味フレームのフレーム要素に相当するものは[ ]

1 反対に、ジャンルや動詞の意味フレームを問わず幅広く見られる現象としては、引用の「と」がある。

引用の「と」を現在JFNでどう取り扱っているかについてはOhara & Suzuki (To Appear)を参照のこと。

で囲んだ上で左下にそのフレーム要素名を記した。たとえば 2)では、動詞｢出る｣が Coming_to_beフレームを喚起するターゲットとして分析されている。そして、文中の「ちょうど」と「アントニウスの名前が」はそれぞれComing_to_beフレームのフレーム要素 TIMEとフレーム要素ENTITYに相当するものとしてアノテーションされている。

(1) ちょうどアントニウスの名前BEING_NAMED 1) が出COMING_TO_BE 2) てきたので、彼についても解説STATEMENT 3) 願いREQUEST 4) ましょう。

(2) この人物_{PERSON 5)}に対しても、あなたはずいぶん低いPOSITION_ON_A_SCALE 6) 評価ASSESSING 7) を付けていますね。

1) ・ちょうど [_Entity アントニウスの] 名前 ^Target が出てきたので、彼についても解説願いましょう。

・ちょうど [_Name アントニウス] の名前 ^Targetが出てきたので、彼についても解説願いましょう。

2) [_Timeちょうど] [_Entityアントニウスの名前が] 出 ^Targetてきたので、彼についても解説願いましょう。

3) ちょうどアントニウスの名前が出てきたので、 [Topic彼についても] 解説^Target願いましょう。[_MessageCNI] [_SpeakerCNI] [_AddresseeCNI]

4) ちょうどアントニウスの名前が出てきたので、[Topic彼についても]

[Message解説] 願い^Targetましょう。

5) この [_Person人物]^Targetに対しても、あなたはずいぶん低い評価を付けていますね。

6) この人物に対しても、あなたは[Degreeずいぶん] [Value低い]^Target [Variable評価] を付けていますね。

7) [_Phenomenonこの人物に対しても]、[_Assessorあなたは] ずいぶん低い評価^Targetを付けていますね。

全文アノテーションで問題となったのは、語彙項目の意味情報と構文の持つ意味情報との相関関係を JFN の枠組みでどう記述するかである。これについては、FN の現行の方針にのっとり、JFN での記述の試案を Ohara (2008)にまとめたので参照されたい（Ohara 2008）。

全文テキストアノテーションを｢日本語コーパス｣データを対象に行うことで、フレーム意味論に基づく意味タグ付き｢日本語コーパス｣が作成できることになる。また、｢日本語コーパス｣のジャンルごと、サンプルごとに、語彙の意味フレーム（語義）分布や、結合価パターン、ゼロ代名詞の分布などを詳細に調べることができる（前節参照）。さらに、｢日本語コーパス｣コアデータの同じサンプルに対し、たとえば本特定領域研究ツール班の述語項構造と共参照情報の枠組み（飯田他2008）などでもアノテーションを行うことができれば、

それぞれのアノテーションの枠組みを比較したり、両方のアノテーションを組み合わせることによる意味タグ付き｢日本語コーパス｣としての有用性を検討したり、といったことが可能となる。

３．３．他の言語資源との関連付け

ドキュメント内 corpus.indd (ページ 156-163)