【背景・目的】近年 , 世界中でイノベーションが注目されている。イノベーションとは , 日本語では技術革新 と訳され , 新技術の開発によって社会的に大きな変革をもたらすもののことである。技術と社会がともに発 展するという点で , イノベーションはとても重要であると言える。日本政府が行政事業の予算を決める際に も , イノベーションに関連する内容であるかどうかを指標の一つとしている。行政文書は膨大な量が存在す るが , それらは担当者が一つ一つを読み , 手作業で分類している。
本研究では , 科学技術文書を機械処理することにより , 人間が手作業で多量の文書を処理する必要がなく なることを目指している。
【課題と解決策】イノベーションに関する内容か判断するには , イノベーションに関連する内容か判断する ための指標となりそうな用語 (以下 , イノベーション用語とする) を文書中から抽出すれば良い。しかし , イ ノベーション用語は , 時代とともに変化していくため , 既存の自然言語処理技術では抽出は難しい。例え ば , 従来の用語抽出方法である形態素解析では用語を抽出しても品詞の判定しかできないので , イノベー ション用語であるかどうかの判定が機械だけでは困難であると言える。そこで , 我々はイノベーション用語 が出現する文章構造に着目することで , イノベーション用語を抽出することができないだろうかと考えた。
予備実験では , 文書構造をテンプレートと定義し , テンプレートから単語を抽出できることが確認できた。
しかし , イノベーション用語の選び方やテンプレートの定め方に一貫性がないこと , テンプレート全てを手 作業で集めるのは作業量が膨大となるという問題点が明らかになった。その解決策としての「テンプレート の自動作成」に向けて , 科学技術文書の特徴を調べることに決めた。分析には科研費データベースの人工知 能に関する論文の概要をまとめたものを利用した。
【結果と検討】はじめに , 動詞の出現頻度を調べた。その結果 , 出現する動詞に偏りが存在することが確認で きた。その中から特に出現頻度が高い動詞の直前の単語を抽出したが , イノベーション用語はほとんど抽出 できなかった。そこで , 動詞の前の単語だけでなく , その単語に掛かる単語も抽出できるように抽出範囲を 広げることにした。その結果 , 全てではないがイノベーションに関係あるか判定できそうな文字列を抽出す ることができた。改善前と改善後を比較したものの中から三つを下の表 1 に示す。
また , 比較実験として , 同対象文書を固有表現抽出した結果と比較したが , PEG パターンを使用したもの の方がよりイノベーション用語を抽出することができた。したがって , PEG パターンの方が固有表現抽出よ りも精度が高いと言える。
表 1 :改善前と改善後の抽出結果の比較
改善前 (文字列の並び) 改善後 (PEGパターン)
開発を提案する 手法を提案する 人工知能を研究する
高速論理型機械学習器の開発を提案する 高速に実現するための手法を提案する 検出・発報するための人工知能を研究する
科学技術イノベーション文書の分析手法の研究
若 杉 祐 依(指導教員 倉光君郎)
− 46 −
令和 2 年度 大学院理学研究科修士論文題目と要旨