• 検索結果がありません。

JFNDesktopJFN KWIC

ドキュメント内 corpus.indd (ページ 156-163)

意味フレーム 言語学的枠組

2) タグ付け 1) タグ付け対象文抽出

図1 JFN構築プロセスの概要

アノテーション作業は複数の層に対して行う。フレーム要素(意味フレームに参与する 意味要素)名を付与する FE(Frame Element)層、Obj などの文法機能名を付与する GF

(Grammatical Function)層、NPやVPといった句タイプ名を付与するPT(Phrase Type)層、

PTがNP(名詞句)の場合に格助詞名を付与するPostPos層である。

JFNのコンテンツには、1)意味フレーム間の意味関係や、各々の意味フレームに属する フレーム要素の定義を記述した意味フレーム定義(フレームレポート)、2)語彙項目ご とのアノテーション済み例文(アノテーションレポート)、3)アノテーション済み例文 から抽出した語彙項目ごとの結合価パターン情報(語彙項目レポート)がある。これらは Web上で見ることができる(図2)。

意味フレーム定義 (例:Arriving フレーム)

結合価パターン情報とアノテーション例文

(例:語彙項目「喜ぶ」) Web上のJFNコンテンツ

図2

3.研究の進捗状況

以下では、JFN構築の状況、JFNにおける「日本語コーパス」の活用、JFNと他の言語資源 との関連付けの観点から、今年度の進捗状況について述べる。

3.1.日本語フレームネットの構築

コンコーダンサーJFN KWICやアノテーション用ツールJFNDesktopなどのツール群の整 備は昨年度で一通り終わり、今年度は JFN 構築を中心に研究を進めた。昨年度は「日本語 コーパス」領域内公開データ2007年度版を用いたが、今年度はJFNサンプルデータ公開に 向けて、著作権処理が既に済んでいるモニター公開データ2008年度版をアノテーションに 用いた。

アノテーション対象とした語彙項目の意味分野は、これまでアノテーションを行ってき た「移動」、昨年度着手した「感覚・知覚」と、今年度新たに開始した「感情」である。これま でもアノテーション対象を動詞に限定せず意味フレームごとに語彙項目を選定していたが、

「移動」に関する語彙項目の大多数が動詞であったのに対し、「感情」に関する語彙項目は形 容詞も多い。従って、今年度は改めて品詞別に「移動」、「感覚・知覚」、「感情」に関する語 彙項目を洗い出した。また、従来はIPAL辞書などの既存の言語資源の見出し語を参考にし つつアノテーション対象とする語彙項目を選定していたが、今年度は「日本語コーパス」デ 領域内公開データにおける品詞別出現頻度順語彙表をまず作成し、その中から「移動」、「感 覚・知覚」、「感情」に関する語彙項目を出現頻度の高い順に抽出した。これらを基にそれぞ れの意味分野ごとに上位一定数ずつ語彙項目を選定し、それらを対象にアノテーションを 行った。現在のアノテーション済み例文数は、約2000文である。

今年度末までに、FrameSQLというツールを使ってJFNサンプルデータをアクセス制限な しで Web 上で検索表示できるようにした。FrameSQL は、専修大学の佐藤弘明氏が開発さ れた、フレームネット形式のデータを Web 上で検索表示するためのツールである(Sato 2008)。英語、スペイン語、ドイツ語、日本語フレームネットのデータがリンクされている

(図3参照)。

さらに今後は、第2節で紹介したJFNレポートシステム(図2参照)やFrameGrapherと いうWeb上のツールを使ってJFNデータを公開することも検討している。FrameGrapherは FNで開発された、フレーム間の意味関係をわかりやすく表示するためのツールで、既にJFN 用に移植済みである。第 2 節で触れたように、JFNのコンテンツにはフレーム間の意味関係 の定義も含まれる。FNならびにJFNではフレーム間の意味関係として、継承(Inheritance)、

サブフレーム(Subframe)、視点(Perspective On)、使用(Using)、使役相(Causative Of)、

起動相(Inchoative)、参照(See Also)、先行(Precedes)の8種を定義している。例えば、

Perception_experienceフレームはPerceptionフレームと継承関係にある。図4は JFNのPerception_experienceフレームの他フレームとの関係をFrameGrapherで表示 したものである。図中の太線は継承関係を示している。

図3 FrameSQLによるJFNデータの表示

(例:Experiencer_subjフレームの語彙項目「あきれる」)

(例:Perception_experienceフレーム)

図4 FrameGrapherによるフレーム間関係の表示

3.2.日本語フレームネットにおける「日本語コーパス」の活用

以下では、JFNにおける「日本語コーパス」活用の実態について、従来アノテーション対象 としていた他のコーパスとの比較の観点からと、今年度後半に開始した全文テキストアノ テーションの観点とから述べる。

3.2.1.「日本語コーパス」と他コーパスとの比較

本特定領域研究に公募班として参加する一昨年度以前は、JFNでは主に新聞記事コーパス から抽出した例文に対してアノテーションを行っていた。その新聞記事コーパスと、「日本 語コーパス」の書籍データ、白書データとで、それぞれの動詞の出現頻度順語彙表を作成し

たところ、動詞の意味フレームの分布に関し、ジャンル間で興味深い違いが見られた。

新聞記事、書籍データ、白書データのいずれにおいても、「いる」、「する」、「なる」の 3 動詞が上位4位内に入っている点では変わりがないが、それぞれのコーパスの上位 30 動詞 を比べてみると、動詞の意味分類、すなわち動詞の属する意味フレームの分布に差があっ た。たとえば、新聞記事コーパスでは、出現頻度上位 30 動詞に「話す」、「語る」、「述べる」

などのStatementフレームに属する動詞、Decidingフレームの「決める」、Requestフ レームの「求める」、Process_resume フレームの「始まる」が含まれるが、「日本語コーパ ス」の書籍データと白書データの上位 30 動詞にはこれらの動詞はいずれも含まれていない。

他方、「日本語コーパス」書籍データの出現頻度上位 30 動詞の中にはBecoming_awareフ レームの「知る」と Perception_experience フレームの「見える」が含まれているが、新 聞記事コーパスと「日本語コーパス」白書データの上位 30 動詞にはどちらも含まれない。ま た、「日本語コーパス」白書データでは Attempt フレームの「図る」と「努める」、

Change_position_on_a_scaleフレームの「達す」と「高まる」が出現頻度上位 30 位内に 入っているが、書籍データや新聞記事コーパスの上位 30 位には入っていない。

また、同一語彙項目の結合価パターンについても、新聞記事コーパスと「日本語コーパ ス」間では違いがみられた。1

以上、「日本語コーパス」の均衡性・代表性について、語彙項目の意味フレーム分布や、

同一語彙項目の結合価パターンのバリエーションを尺度とした評価の可能性を示唆した。

書籍、白書、Yahoo!知恵袋、国会議事録、検定教科書に加え、学術論文、科学技術論文な どのジャンルのテキストも加えると、さらに「日本語コーパス」の均衡性向上に寄与するの ではないかと考える。

3.2.2.全文テキストアノテーション

従来の語彙項目アノテーションによる JFN 構築に加えて、今年度は全文テキストアノテ ーションも行った。第 2 節で述べたように、全文テキストアノテーションとは、テキスト 内のすべての文の、意味フレームを喚起(evoke)するすべての語彙項目に対してアノテー ションを行うことである。ただし、固有名詞などは対象とせず、あくまでも意味分析の観 点から興味深いと思われる語彙項目に限定してアノテーションを行った。今年度対象とし たのは「日本語コーパス」コアデータの一部サンプルである。目下コアデータは書籍と白 書の二つのジャンルから構成されているが、今後は Yahoo!知恵袋、国会会議録、検定教科 書などのジャンルについても全文テキストアノテーションを行いたい。

例文(1)と(2)は、「日本語コーパス」上の塩野七生著『ローマから日本が見える』のサンプ ルに現れる連続した文である。下線を施した合計7個の語彙項目がアノテーション対象(タ ーゲット)である。語の右下に大文字で記したのが各々のターゲットが喚起する意味フレ ーム名である。1)から7)で、太字の斜字体と右肩のTargetの文字で記されているのがターゲ ットである。また、ターゲットが喚起する意味フレームのフレーム要素に相当するものは[ ]

1 反対に、ジャンルや動詞の意味フレームを問わず幅広く見られる現象としては、引用の「と」がある。

引用の「と」を現在JFNでどう取り扱っているかについてはOhara & Suzuki (To Appear)を参照のこと。

で囲んだ上で左下にそのフレーム要素名を記した。たとえば 2)では、動詞「出る」が Coming_to_beフレームを喚起するターゲットとして分析されている。そして、文中の「ち ょうど」と「アントニウスの名前が」はそれぞれComing_to_beフレームのフレーム要素 TIMEとフレーム要素ENTITYに相当するものとしてアノテーションされている。

(1) ちょうどアントニウスの 名前BEING_NAMED 1) が 出COMING_TO_BE 2) てきたので、彼につ いても 解説STATEMENT 3) 願いREQUEST 4) ましょう。

(2) この 人物PERSON 5)に対しても、あなたはずいぶん 低いPOSITION_ON_A_SCALE 6) 評価ASSESSING 7) を付けていますね。

1) ・ちょうど [Entity アントニウスの] 名前 Target が 出てきたので、彼についても 解 説願いましょう。

・ちょうど [Name アントニウス] の 名前 Target が 出てきたので、彼についても 解 説願いましょう。

2) [Timeちょうど] [Entityアントニウスの 名前が] 出 Target てきたので、彼についても 解説願いましょう。

3) ちょうどアントニウスの 名前が出てきたので、 [Topic彼についても] 解説Target 願 いましょう。[MessageCNI] [SpeakerCNI] [AddresseeCNI]

4) ちょうどアントニウスの 名前が 出てきたので、[Topic彼についても]

[Message解説] 願いTarget ましょう。

5) この [Person人物] Targetに対しても、あなたはずいぶん 低い評価を付けていますね。

6) この 人物に対しても、あなたは[Degreeずいぶん] [Value低い] Target [Variable評価] を付 けていますね。

7) [Phenomenonこの人物に対しても]、[Assessorあなたは] ずいぶん 低い 評価Target を付け ていますね。

全文アノテーションで問題となったのは、語彙項目の意味情報と構文の持つ意味情報と の相関関係を JFN の枠組みでどう記述するかである。これについては、FN の現行の方針に のっとり、JFN での記述の試案を Ohara (2008)にまとめたので参照されたい(Ohara 2008)。

全文テキストアノテーションを「日本語コーパス」データを対象に行うことで、フレーム 意味論に基づく意味タグ付き「日本語コーパス」が作成できることになる。また、「日本語コ ーパス」のジャンルごと、サンプルごとに、語彙の意味フレーム(語義)分布や、結合価パ ターン、ゼロ代名詞の分布などを詳細に調べることができる(前節参照)。さらに、「日本 語コーパス」コアデータの同じサンプルに対し、たとえば本特定領域研究ツール班の述語項 構造と共参照情報の枠組み(飯田他2008)などでもアノテーションを行うことができれば、

それぞれのアノテーションの枠組みを比較したり、両方のアノテーションを組み合わせる ことによる意味タグ付き「日本語コーパス」としての有用性を検討したり、といったことが 可能となる。

3.3.他の言語資源との関連付け

ドキュメント内 corpus.indd (ページ 156-163)

Outline

関連したドキュメント