• 検索結果がありません。

PDFファイル 3I4 「自然言語処理におけるコーパス・辞書生成」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 3I4 「自然言語処理におけるコーパス・辞書生成」"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

文脈 多様性 基

詞換言 評価

Evaluation of noun paraphrasing based on variety of contexts

梶原 智之

和英

Tomoyuki Kajiwara Kazuhide Yamamoto

長岡

術科学大学

電気系

Department of Electrical Engineering, Nagaoka University of Technology

We paraphrase the noun along the context of the input sentence based on the variety of contexts that is obtained from large-scale corpus. The proposed method has the feature of not using the word frequency nor the co-occurrence frequency but only the number of types of contexts. This is based on the idea that paraphrase candidates appear more common with the target words in the same contexts. For the result of the experiment, this approach was able to produce more appropriate paraphrase than the approaches based on the co-occurrence frequency and PMI.

1.

めに

々 国語辞典 語釈文 用い 容語 換言

い 研究 [梶原 13] 国語辞典 語釈文 見出

語 易 数語 明 い 見出 語 語釈文中 語 換言 意味 保持 置換 語彙 易化 期待

語釈文 数語 構 短文 換言候 補 語 少 く 複数 国語辞典 併用 工夫 行 自然 換言 得 難 い 語釈文 全体 見出 語 等価 あ 語釈文 抽出 各語 見出 語 必 換言可能 あ いう保証 い

う 背景 々 国語辞典 既存 換言知識 大規模コーパ 得 文脈 多様性 基 い 日 語 詞換言 提案 [梶原 14] 稿 文脈 類 似性 基 く他 換言手法 比較 提案手法 有効性

2.

関連研究

コーパ 得 文脈 類似性 基 い 換言 行う研

究 Marton et al. 機械翻訳 改良

知語 換言 行 い [Marton 09] コーパ 知語 文脈 出現 単語 換言候補 文脈 共起 度 特徴ベ 生 知語 特徴ベ 各換言 候補 特徴ベ コサイン類似度 計算 最 類似度 高い換言候補 換言 行う 機械翻訳 精度 改

善 い Bhagat and Ravichandran 250億語 コー

パ 換言 抽出 い [Bhagat 08] コーパ 中 単語 5

ラ 句 見 句 自己相互情報量 用い 特徴ベ 生 文脈 持 語 士 特徴ベ コサイン類似度 計算 最 類似度 高い語 組 換言

抽出 い

々 研究 単語 出現 度や共起 度 計算 い い点 研究 異 稿 文脈 多様性 注目 語 用い 文脈 種類数 用い 文脈 類似度 計算 換言先 語 選択 特徴 あ 換 言対象 語 多く 文脈 共有 換言候補 語 換言 可能性 高い いう考え 基 く

3.

提案手法

稿 大規模コーパ 得 文脈 多様性 基 文中 詞 他 詞 換言 似 意味 語 似 文脈 用い いう 仮 [Harris 54] 基

入力文 文脈 用い 詞 コーパ 抽出 抽出 各 詞 入力文中 詞 文脈 類似度 格フ ー 辞書 計算 類似度 高い 詞 換言 行 う 図1 提案手法 詞換言 概要 示

図1. 提案手法 詞 換言

3.1 文脈で用い 詞 抽出

手法 換言対象 詞 前後 1 文節 文脈 定義 入力文 文脈 用い 詞 コーパ 抽出

入力文 前文脈 後文脈 各々コーパ 探索 前文脈 後 出現 詞 後文脈 前 出現 詞 う 共通 詞 抽出

例え 空港 ア セ 調 いう入力文 対 ア セ 換言 い場合 空港 ◯◯ いう前文脈 ◯◯ 調 いう後文脈 コーパ 探索 ◯◯

該当 詞 う 共通 詞 抽出 図1 例 前文脈 後文脈 共通 用い 乗 換え 料金 行 方 3単語 抽出

連絡先:梶原智之,長岡 術科学大学 電気系,新潟県長岡 富岡町 6 3 , a wara@ rg

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 2 -

3.2 文脈類似度 計算方法

稿 次 2 仮 立 換言対象 詞 類似 文脈 用い 詞 式(1) 値 大 い 詞 定義

(1) 換言対象 語 換言候補 語が多く 種類 文脈を共

有す ほ 換言可能性 高く

(2) 換言候補 語が多く 種類 文脈を持つほ 換言可能

性 低く

��� �!,�! =����!,�! log /��! (1)

! 換言対象 詞 �! 換言候補 詞 表

com �!! 共通 用い 文脈 種類数

文脈 総数 �� 詞�! 用い 文脈 種類数 表

前 共通 文脈 種類 多いほ 大 く 後 換言候 補 文脈 少 いほ 大 く コア 高いほ

!! 文脈 類似 い 表

4.

実験方法

4.1 実験対象

稿 Web 日 語 N ラ [GNG] 用い 実験 行

Web日 語N ラ Web 約200億文 作

単語N ラ 稿 最 長い 7 ラ ー 文 見

全 570,204,252 文 用い う 先頭 詞

且 尾 動詞 原形 あ 1,365,705 文 選択

う 出 200 文 抽出 実験対象文 実験

対象文 う 文頭 い 詞 換言対象 詞 品詞 形態素解析器MeCab[MEC] 用い

4.2 実験手順

前節 抽出 換言対象 詞 文脈 用い 詞群 い 用い 文脈 類似度 京都大学格フ ー

[KCF] 用い 計算 京都大学格フ ー Web

約16億文 自動構築[河原 05] 述語 格関係

詞 実験 34,059語 述語 824,639語 詞

全 用い 述語 文脈 仮定 入力文 含 換言対象 詞 �! 前節 抽出 詞群 含

各 詞 �! 式(1) 用い 文脈 類似度 計算

4.3 評価

提案手法 評価 関連研究 挙 文脈 類似 性 基 く換言手法 比較 行 4.1 節 抽出 200

種類 入力文 換言対象 詞 対 提案手法 び

Marton et al. 手法[Marton 09] Bhagat and Ravichandran 手

法[Bhagat 08] 用い 類似度 10 含 詞

集 評価 3 人 評価者 換言対象 詞 入力文 中 換言可能 詞 1語 選

[Marton 09] 詞 文脈 共起 度 詞 特徴ベ

作 類似度 特徴ベ 士 コサイン類似度

求 [Bhagat 08] 詞 文脈 自己相互情報

量 PMI 詞 特徴ベ 作 類似度 特徴ベ 士 コサイン類似度 求 両手法 Web 日 語 N

ラ 用い 詞 係 関係 あ 詞 び動詞 文脈 定義 特徴ベ 作 式(2) 共起 度 式

(3) 自己相互情報量 式(4) コサイン類似度 定義

������������ �!,�! = ����!(�!,�!) !!∈!

(2)

��� �!,�!

=log

������������ �!,�! !!∈! !!∈!!����!(�!)

����! �!

!!∈! !!∈!����! �!

(3)

cos �,� =

� � (4)

し �!,!!, �!� あ � 文 集合

コーパス � 単語 集合 ����!(�!) 文� おけ

単語�! 出現頻度 ����!(�!,�!) 文� おけ 単語�!

単語�! 共起頻度 �,� 特徴ベクトルを表す

5.

実験結果お び考察

前章 述 200文 対 換言 評価結果 図2 び 図 3 示 3人 評価者A B C kappa係数

AB:0.64 BC:0.61 CA:0.59 あ 評価者間 一致度 十

高い 言え

図2 換言可能 評価 類似度1 詞数 あ 提案手法 2 比較手法 多く 詞 換言

示 い

[Marton 09] 多く共起 文脈 重要 文脈 考え

[Bhagat 08] 偏 共起 文脈 重要 文脈 考え い

[Marton 09] 単体 出現 度 高い単語 類

似度計算 強く反映 [Bhagat 08] 単体 出現 度

い 単 語 類 似 度 計 算 強 く反 映 い 例 え

[Marton 09] 200 組中100組 換言候補 現

[Bhagat 08] 等 匹 接尾辞 詞

換言候補 多く現 い

提案手法 文脈 出現 度 依存 い 影 響 少 く 換言対象 詞 換言可能 詞 コア 高く

図2. 換言可能 評価 類似度1 詞数

図 3 換言可能 評価 類似度 10

詞数 あ 10 見 [Bhagat 08] 提案手法

換言可能 詞数 近 い い 図4 図6 類似 度 換言可能 詞数 関係 示 提案手法 1

詞 換言可能数 2 詞 換言可能数 大 差

あ 対 [Bhagat 08] 1 3 換言可能

数 変化 少 い 提案手法 入力文 文脈 用い 詞 換言 行う いう制限 い 考

え [Bhagat 08] 入力文 文脈 考慮 い 入力文

い 換言可能 語 コア 最大 保証 い 例え 万 以 罰金 処 いう入力文 い 罰金

換言 場合 [Marton 09]や[Bhagat 08] 懲役 コ

0

10

20

30

40

50

60

評価者A

評価者B

評価者C

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 3 -

図3. 換言可能 評価 類似度 10 詞数

図4. 類似度 換言可能 詞数 関係 評価者A

図5. 類似度 換言可能 詞数 関係 評価者B

図6. 類似度 換言可能 詞数 関係 評価者C

ア 最 高く 次 科料 や 過料 い 金銭 関 単語 続い い 一方 提案手法 万 以 いう入力文 文脈 考慮 懲役 いう単語 換言候補中 現

罰金刑 コア 最高 次 過料 続い い 他 腰 負担 軽減 いう入力文 い 負担 換言 場合 比較手法 費用 経費 実費

負担 換言先 金銭 関 単語 換言候補 中 出現 換言可能 語 10 存 い 一方 提案手法 腰 いう入力文 文脈 考慮 負荷

続い ー 疲労 緊張 衝撃 当 迫感 荷重 迫 適 換言候補 挙

い 最後 表1 提案手法 換言 例 挙

表1. 提案手法 換言 例 オーナー 認→許可 必要 重要 課題→問題 組 い 良心的 料金→価格 提供

国 農業 発展→ 長 阻害 教育 拡充→強化 あ

6.

おわ に

稿 大規模コーパ 得 文脈 多様性 基 く 詞 換言手法 有効性 示 提案手法 入力 文脈 応 換言 可能 あ 換言対象 詞 多く 文脈 共有 詞 換言先 選択 単語 出現 度や共起 度 関わ 適 換言 得

研究 1語対1語 詞 換言 扱 今後 先行研究[梶原 14] 述 複数語 換言 拡張 行い い

使用 た言語資源お びツール

[GNG] 工藤拓, 賀沢秀人. Web日 語N ラ 第1版. 言語 資源協会, 2007. http://www.gsk.or.jp/catalog/gsk2007-c/. [KCF] 河原大輔, 黒橋禎夫. 京都大学格フ ー (Ver 1.0). 言

語資源協会, 2009. http://www.gsk.or.jp/catalog/gsk2008-b/. [MEC] 工藤拓. MeCab 0.993.

http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html

参考文献

[梶原 13] 梶原智之, 山 和英. 小学生 解支援 向

語釈文 語彙的換言 選択 手法. NLP若手 会第8

回 ンポ ウ , 発表23, 2013.

[梶原 14] 梶原智之, 山 和英. 文脈 多様性 基 く 詞換 言 提案. 言語処理学会第 20 回 次大会発表論文集, D5-1, 2014.

[Marton 09] Y. Marton, C. Callison-Burch and P. Resnik. Improved Statistical Machine Translation Using Monolingually-Derived Paraphrases. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp.381-390, 2009.

[Bhagat 08] R. Bhagat and D. Ravichandran. Large Scale Acquisition of Paraphrases for Learning Surface Patterns. In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics (ACL), pp.674-682, 2008. [Harris 54] Z. S. Harris. Distributional structure. Word, Vol.10,

No.23, pp.146-162, 1954.

[河原 05] 河原大輔, 黒橋禎夫. 格フ ー 辞書 漸次的自動 構築. 自然言語処理, Vol.12, No.2, pp.109-131, 2005.

0

20

40

60

80

100

評価者A

評価者B

評価者C

提案手法

[Marton 09]

[Bhagat 08]

0

10

20

30

40

評価者

A

提案手法

[Marton 09]

[Bhagat 08]

0

10

20

30

40

評価者B

提案手法

[Marton 09]

[Bhagat 08]

0

10

20

30

40

50

60

評価者C

提案手法

参照

関連したドキュメント

By an inverse problem we mean the problem of parameter identification, that means we try to determine some of the unknown values of the model parameters according to measurements in

В данной работе приводится алгоритм решения обратной динамической задачи сейсмики в частотной области для горизонтально-слоистой среды

[3] Chen Guowang and L¨ u Shengguan, Initial boundary value problem for three dimensional Ginzburg-Landau model equation in population problems, (Chi- nese) Acta Mathematicae

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

We show that for a uniform co-Lipschitz mapping of the plane, the cardinality of the preimage of a point may be estimated in terms of the characteristic constants of the mapping,

Our method of proof can also be used to recover the rational homotopy of L K(2) S 0 as well as the chromatic splitting conjecture at primes p > 3 [16]; we only need to use the

This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on

The time-frequency integrals and the two-dimensional stationary phase method are applied to study the electromagnetic waves radiated by moving modulated sources in dispersive media..