• 検索結果がありません。

自然言語処理技術の現状と展望 -エラー分析プロジェクトを通して-:[基礎技術]3.5 言い換え技術 -同じ意味を持つ異なる言語表現を扱う-

N/A
N/A
Protected

Academic year: 2021

シェア "自然言語処理技術の現状と展望 -エラー分析プロジェクトを通して-:[基礎技術]3.5 言い換え技術 -同じ意味を持つ異なる言語表現を扱う-"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)自然言語処理技術の現状と展望 基応 専般. エラー分析プロジェクトを通して. 3.5 言い換え技術. ─同じ意味を持つ異なる言語表現を扱う─ 言い換えの認識と生成. 藤田 篤(情報通信研究機構).  たとえば, 「重傷を負う恐れがある」と「大ケガ. 意味空間. をしてしまうかもしれない」のように,自然言語に. 言語空間. は,同じ意味内容を表す(同じ言語の)異なる言語 表現が多数存在する.このような関係にある表現を 『言い換え』と言う.  Web の検索や質問応答などでは,検索対象の文. 入力1. 入力 2. 出力1 =同義. 出力2 =同義でない. 図 -1 言い換え認識. 書とまったく同じ言い回しでユーザが検索したり質 問したりするとは限らない.柔軟な照合のためには,. 意味空間. 任意の 2 つの言語表現が同じ意味を持つかどうかを. 言語空間. 判定する処理(図 -1,言い換え認識)が必要である. 一方,子どもや語学学習者とのコミュニケーション. 入力. 所定の制約を満たす部分空間. においては,彼らに合わせて表現を簡単にする必要 があるし,音声対話システムの発話生成時には複雑. 出力. 図 -2 言い換え生成. な構文や同音異義語をなるべく避けたい.このよう に,与えられた言語表現を目的に応じて変換する処. な対応関係(たとえば「重傷」と「大ケガ」が同義. 理(図 -2,言い換え生成)に対するニーズも多い.. であること)や差分を同定し,(2)そのような各. 一般的な解法. 特徴の重要度を正解データに基づいて推定しておき,.  言い換え認識も言い換え生成も,実際には,意味. 定する,というものである.. 空間を陽には経由せず,入力された言語表現に対す.  既存の言い換え生成手法は, (1)入力された言語. る基礎的な言語解析と辞書や大規模なテキストデー. 表現の一部を同義語辞書などを用いて書き換えて複. タなどの言語資源を用いて実現されてきた.. 数の候補を生成し, (2)それらの各々を目的や制約.  言い換え認識技術は,正解データ(2 つの言語表. に照らしてスコアリングして最適なものを選ぶ,と. 現とそれらに対して人間が同義か否かを判定した. いう枠組みでまとめられる.ただし,言い換え生成. データ)を用意することで,性能を自動評価しな. の場合は一般に妥当な解は複数存在し,事前にすべ. がらの開発が可能になる.たとえば英語について. てを列挙することも困難であるため,出力を得るた. は, Microsoft Research Paraphrase Corpus(MSRP). びに人間による評価が必要である.. の登場により研究が発展した☆ 1.既存の手法はすべ.  言い換え認識と言い換え生成の両方で, 「重傷」. て, (1)入力された 2 つの言語表現の間の部分的. と「大ケガ」のような同義表現に関する膨大な知識. ☆1. 18. (3)新しい入力の同義性はその重要度に基づいて判. が不可欠である.近年,そのような知識をテキスト http://aclweb.org/aclwiki/index.php?title=Paraphrase_ Identification_(State_of_the_art). 情報処理 Vol.57 No.1 Jan. 2016. データから自動獲得する研究が盛んに行われている..

(2) 3.5 言い換え技術. 『トンネルズ&トロールズ第5版』はケン・セント・アンドレらによってデザインされた. 助詞の交替. 『トンネルズ&トロールズ第5版』がケン・セント・アンドレらによってデザインされた. 態の交替. ケン・セント・アンドレらが『トンネルズ&トロールズ第5版』をデザインした. 分裂文 『トンネルズ&トロールズ第5版』 をデザインしたのは ケン・セント・アンドレらである.. 節と名詞句の交替 ケン・セント・アンドレらは 『トンネルズ&トロールズ第5版』のデザイナーである.. 節と名詞句の交替 『トンネルズ&トロールズ第5版』のデザイナーは ケン・セント・アンドレらである.. 分裂文. スコープの変更. ケン・セント・アンドレは 『トンネルズ&トロールズ第5版』のデザイナーの1人である. スコープの変更. 分裂文. 『トンネルズ&トロールズ第5版』のデザイナーの1人はケン・セント・アンドレである. 図 -3 言い換え関係にある文のネットワーク表現(最小限の言い換え関係のみを辺としている). 単語のみでなく,イディオムや一般のフレーズも対. 問題の所在を分析したりするには,図 -3 のように,. 象として,数千万∼数億件の言い換え表現対が蓄積. 最小限の言い換えのみからなる表現の対を蓄積する. ☆2. されつつある. .. ことも必要だろう.言い換え生成においては,効率. 研究コミュニティとしての課題. 的な評価方法を確立する必要がある.同様にテキス.  言い換え技術をさらに発展させるために,少なく. なる.. とも次の 2 つの課題に,研究コミュニティとして取. End-to-end のモデル化. り組む必要がある.  第 1 に,言い換えという現象を丁寧に分析・整理. トを生成する機械翻訳や要約における試みが参考に.  ほかの多くの自然言語処理技術と同様に,言い換. する必要がある.言い換えとみなせる多様な現象の. え認識にも深層学習が用いられ,言語表現の再帰性. 全体像は明らかになっていないし,言い換えとみな. や意味の構成性のモデル化が試みられるようになっ. すべき現象とそうでない現象との境界は目的によっ. てきた.言い換え生成についても,同様のモデルを. て異なる.目的に応じて重要視すべき現象を見極め,. 用いることで,語句を適切な順序で次々と生成でき. それに適した手法を検討するためにも,現象の体系. る可能性がある.膨大な同義表現の知識ベースを陽. 化が必要である.. に持ち,証拠を丁寧に組み合わせる従来のアプロー.  第 2 に,評価方法の確立を挙げる.言い換え認識. チに取って代わるのか ? 両者は融合できるのか ?. においては,英語における MSRP が多くの研究者. 今後の展開から目が離せない.. を呼び込んだが,一方で,カバーする現象の多様性. (2015 年 9 月 25 日受付). や,正負のデータのバランスに問題があると指摘さ れている.日本語を対象とする場合も含めて,今後 開発・評価データを作成する際は,これらの点に注 意すべきである.また,公平な評価を可能にしたり, ☆2. 藤田 篤(正会員)[email protected]  2005 年奈良先端科学技術大学院大学情報科学研究科博士後期課程 修了.博士(工学).京都大学産学官連携研究員,名古屋大学助教, 公立はこだて未来大学准教授を経て,2014 年より情報通信研究機構 主任研究員.自然言語処理の研究に従事.. http://paraphrase.org/. 情報処理 Vol.57 No.1 Jan. 2016. 19.

(3)

参照

関連したドキュメント

専攻の枠を越えて自由な教育と研究を行える よう,教官は自然科学研究科棟に居住して学

また,文献 [7] ではGDPの70%を占めるサービス業に おけるIT化を重点的に支援することについて提言して

謝辞 SPPおよび中高生の科学部活動振興プログラムに

大きな要因として働いていることが見えてくるように思われるので 1はじめに 大江健三郎とテクノロジー

例えば「今昔物語集』本朝部・巻二十四は、各種技術讃を扱う中に、〈文学説話〉を収めている。1段~笏段は各種技術説

在学中に学生ITベンチャー経営者として、様々な技術を事業化。同大卒業後、社会的

2020年 2月 3日 国立大学法人長岡技術科学大学と、 防災・減災に関する共同研究プロジェクトの 設立に向けた包括連携協定を締結. 2020年

人間は科学技術を発達させ、より大きな力を獲得してきました。しかし、現代の科学技術によっても、自然の世界は人間にとって未知なことが