5.3 評価結果
5.3.4 項目ごとの評価結果
機能表現データとして正解データを用いた場合について,各項目ごとに最頻出 のタグを除くマクロF値を表17に示す.最頻出のタグを除くのは,最頻出のタ グが大部分を占めているが,拡張モダリティ解析の目的は最頻出のタグ以外も正 しく解析することであるためである.
表 17: 最頻出のタグを除く項目ごとの評価結果
素性 時制 態度 真偽判断 価値判断
基本素性 0.442 0.530 0.669 0.420
基本素性+意味ラベル 0.500 0.610 0.706 0.460 基本素性+つつじラベル 0.404 0.520 0.647 0.460 基本素性+機能語列 0.462 0.620 0.706 0.460
全素性 0.442 0.620 0.713 0.460
全素性(つつじ) 0.462 0.620 0.691 0.460
太字は項目ごとの上位1位.学習および解析時の意味ラベルは正解データを用いた.
時制は意味ラベルのみを学習素性としたとき,もっとも高い精度で解析でき,
機能語列を加えると精度が低下した.真偽判断は,意味ラベルと機能語列が同程 度の貢献を示しており,これらを組み合わせることによってさらに高い精度を達 成した.態度や価値判断は意味ラベルの貢献はあるものの,機能語列のみを用い た場合を大きく上回ることはなかった.この結果は,真偽判断を中心に意味体系 の設計を行ったことからも妥当であると言える.同時に,項目ごとに意味ラベル 素性の貢献が異なることからも項目別に素性設計を行うことも有効であることが 伺える結果であった.
6 おわりに
本論文では,機能表現の意味ラベル体系を新たに設計し,作成した体系に基づ き日本語コーパス中の機能表現に対して意味ラベルを人手で付与した.構築した コーパスは,5,736文,20,488個の機能表現を含み,作業者間一致率はF=83.98%
と十分に高い値を達成した.アノテーションガイドラインおよび構築したコーパ スはウェブ上で公開し,一般に利用可能である.
CRFによる機能表現解析では,F=88.10%を達成し,作成したコーパスと機械 学習を用いて現実的に解析が可能であることを示した.非常に単純な学習素性の みを用いたため,機能表現解析器には大いに改善の余地がある.
さらに,本研究の機能表現解析結果を拡張モダリティ解析に適用した.日本語 拡張モダリティ解析器zundaの学習素性として本研究の機能表現解析結果を導入 することによって性能向上が認められ,機能表現解析が拡張モダリティ解析に有 効であることを示した.
謝辞
本研究を進めるにあたり,多くの方々にご協力をいただきました.心より感謝 の意を表します.
主指導教官である乾健太郎教授と岡崎直観准教授には,お忙しい中,研究活動 全般にわたり温かいご指導,ご助言をいただきました.研究内容だけではなく,
研究者としての考え方もご指導いただき,自分の価値観が大きく変わる研究生活 を過ごすことができました.深く感謝致します.
水野淳太研究員には,日常的に研究の相談にのっていただくとともに,論文の 添削から研究発表の指導においても大変お世話になりました.また,研究以外で も多く場面で暖かく支えてくださいました.本当に感謝致します.
研究に関して貴重なアドバイスをくださり,研究生活を暖かく支えてくださっ た研究室の皆様,そして大学生活において貴重かつ有意義な時間を共に過ごして くださった皆様に心より感謝いたします.先輩方には研究うに関して議論させて 頂き,またそれ以外にも学生生活に関する多くの助言を頂きました.優秀な後輩 たちには多くの刺激をもらいました.同期とは多くの苦労を共にしました.皆様,
本当にありがとうございました.
ご多忙の中,審査委員をお引き受けくださいました田中和之教授,伊藤彰則教 授に深く感謝致します.
最後に,私の研究生活を様々な面でさせてくれた数多くの先輩,友人,知人,
そして家族に心より感謝致します.
参考文献
[1] 今村賢治, 泉朋子, 菊井玄一郎,佐藤理史. 述部機能表現の意味ラベルタガー.
言語処理学会第17回年次大会予稿集, pp. 2–5, 2011.
[2] 鈴木敬文,阿部佑亮,宇津呂武仁,松吉俊, 土屋雅稔. 代表・派生関係を利用し た日本語機能表現の解析方式の評価. 言語処理学会第18回年次大会予稿集, pp. 598–601, 2012.
[3] 松吉俊, 佐藤理史, 宇津呂武仁. 日本語機能表現辞書の編纂. 自然言語処理, Vol. 14, No. 5, pp. 123–146, 2007.
[4] Kazuya Narita, Junta Mizuno, and Kentaro Inui. A lexicon-based investi-gation of research issues in Japanese factuality analysis. In In Proceedings of the 6th International Joint Conference on Natural Language Processing (IJCNLP 2013), pp. 587–595, 2013.
[5] 土屋雅稔, 宇津呂武仁, 松吉俊, 佐藤理史, 中川聖一. 日本語複合辞用例デー タベースの作成と分析. 情報処理学会論文誌, Vol. 47, No. 6, pp. 1728–1741, 2006.
[6] 国立国語研究所. 現代語複合辞用例集. 2001.
[7] Gy¨orgy Szarvas, Veronika Vincze, Rich´ard Farkas, and J´anos Csirik. The bioscope corpus: annotation for negation, uncertainty and their scope in biomedical texts. In Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing, pp. 38–45, 2008.
[8] 土屋雅稔, 注連隆夫, 高木俊宏, 内元清貴, 松吉俊, 宇津呂武仁, 佐藤理史, 中 川聖一. 機械学習を用いた日本語機能表現のチャンキング. 自然言語処理, Vol. 14, No. 1, pp. 111–138, 2007.
[9] 長坂泰治,宇津呂武仁, 松吉俊, 土屋雅稔. 大規模階層辞書を利用した日本語 機能表現の集約と解析. 言語処理学会第15回年次大会論文集, pp. 328–331, 2009.
[10] Takafumi Suzuki, Yusuke Abe, Itsuki Toyota, Takehito Utsuro, Suguru Mat-suyoshi, and Masatoshi Tsuchiya. Detecting Japanese Compound Functional Expressions using Canonical/Derivational Relation. InProceedings of the 8th International Language Resources and Evaluation, 2012.
[11] 注連隆夫,土屋雅稔,松吉俊,宇津呂武仁,佐藤理史. 日本語機能表現の自動検 出と統計的係り受け解析への応用.自然言語処理, Vol. 14, No. 5, pp. 167–197, 2007.
[12] 坂本朋子,宇津呂武仁, 松吉俊. 日本語機能表現の集約的英訳. 言語処理学会 第15回年次大会論文集, pp. 654–657, 2009.
[13] 島内蘭, 長坂泰治, 坂本朋子, 宇津呂武仁, 松吉俊. 日英特許翻訳における日 本語機能表現の集約的英訳可能性の調査. 言語処理学会第16回年次大会論 文集, pp. 611–614, 2010.
[14] Marie-Catherine de Marneffe, Christopher D. Manning, and Christopher Potts. Did It Happen? The Pragmatic Complexity of Veridicality Assess-ment. Computational Linguistics, Vol. 38, No. 2, pp. 301–333, 2012.
[15] Sanda Harabagiu, Andrew Hickl, and Finley Lacatusu. Negation, contrast and contradiction in text processing. In Proceedings of the 21st national conference on Artificial intelligence, pp. 755–762, 2006.
[16] Kathrin Baker, Michael Bloodgood, Bonnie Dorr, Nathaniel W. Filardo, Lori Levin, and Christine Piatko. A modality lexicon and its use in automatic tagging. InProceedings of the Seventh International Conference on Language Resources and Evaluation (LREC’10), pp. 1402–1407, 2010.
[17] 松吉俊, 佐尾ちとせ,乾健太郎, 松本裕治. 拡張モダリティタグ付与コーパス の設計と構築. 言語処理学会第17回年次大会予稿集, pp. 147–150, 2011.
[18] Roser Saur´ı and James Pustejovsky. Are you sure that this happened? as-sessing the factuality degree of events in text. Computational Linguistics, Vol. 38, No. 2, pp. 261–299, 2012.
[19] 永野賢. 表現文法の問題-複合辞の認定について-, pp. 95–120. 三省堂, 1953.
「永野賢 (1970). 伝達論にもとづく日本語文法の研究. 東京堂出版」に再録.
[20] 松木正恵. 複合辞の認定基準・尺度設定の試み. 早稲田大学日本語研究教育 センター紀要, 第2巻, pp. 27–52, 1990.
[21] 森田良行, 松木正恵. 日本語表現文型―用例中心・複合辞の意味と用法. アル ク, 1989.
[22] 工藤拓, 山本薫, 松本裕治. Conditional random fields を用いた日本語形態素 解析. 情報処理学会自然言語処理研究会SIGNL-161, pp. 89–96, 2004.
[23] 工藤拓,松本裕治. チャンキングの段階適用による日本語係り受け解析. 情報 処理学会, Vol. 43, No. 6, pp. 1834–1842, 2002.
[24] Erik F. Tjong Kim Sang. Noun phrase recognition by system combina-tion. In Proceedings of the Language technology Joint Conference ANLP-NAACL2000, pp. 50–55, 2000.
[25] Jacob Cohen. A coefficient for agreement for nominal scales. In Education and Psychological Measurement, Vol. 20, pp. 37–46, 1960.
[26] John Lafferty, Andrew K. McCallum, and Fernando Pereira. Conditional random fields: probabilistic models for segmenting and labeling sequence data. InICML, pp. 282–289, 2001.
[27] Naoaki Okazaki. CRFsuite: a fast implementation of conditional random fields (CRFs), 2007.
[28] Junta Mizuno. Zunda, 2013.
発表文献一覧
受賞一覧
• 情報処理学会第77回全国大会学生奨励賞(2015)
• 情報処理学会第77回全国大会大会奨励賞(2015)
学術論文誌
• 成田和弥,水野淳太,上岡裕大,菅野美和,乾健太郎. 誤り分析に基づく日本語 事実性解析の課題抽出. 自然言語処理, Vol.22, No.5, pp.392-432, December 2015.
国際会議論文
• Yudai Kamioka, Kazuya Narita, Junta Mizuno, Miwa Kanno and Ken-taro Inui. Semantic Annotation of Japanese Functional Expressions and its Impact on Factuality Analysis. In Proceedings of the 9th Linguistic Annotation Workshop (LAW IX 2015), June 2015.
国内会議・研究会論文
• 上岡裕大, 成田和弥, 菅野美和,水野淳太, 乾健太郎. 日本語文における機能 表現意味ラベル付与と事実性解析への効果. 情報処理学会第77回年次大会 予稿集, pp.221-222, March 2015.
• 成田和弥, 水野淳太,上岡裕大,菅野美和,乾健太郎. 機能表現に基づく日本 語事実性解析. 言語処理学会第21回年次大会予稿集, pp.1032-1035. March 2015.