• 検索結果がありません。

PDFファイル 2A1 「自然言語処理」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 2A1 「自然言語処理」"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

画像

自然言語表現

同義性

Discriminating Synonymous Expressions by Using Images

那須川

哲哉

*1

克正

*1

鈴木

祥子

*1

森田

千明

*2

Tetsuya Nasukawa Katsumasa Yoshikawa Shoko Suzuki Chiaki Morita

*1

日本

株式会社

東京基礎研究所

IBM Research – Tokyo, IBM Japan, Ltd.

*2

日本

株式会社

開発製造

STG Laboratory, IBM Japan, Ltd.

Identification of word similarity plays important role in natural language processing. It supports wide varieties of applications such as text mining for aggregating synonymous expressions and machine translation for finding equivalent terms in different languages. Whereas state of the art of word similarity identification uses textual corpus as the knowledge resource, we propose a method to use images associated to each expression. After producing a list of candidate synonymous expressions for a query expression based on textual resources, images representing each candidate synonymous expression are compared with images representing the query expression for evaluating the synonymity.

1.

めに

自然言語処理 い ,同義性 定 要 役割 果

. 単 一言 語内 あ ば , 同義 表 現 集 約 表 現 多 様 性

吸 , マ ニン 応用 ,

複数言語間 同義表現 ,訳語 翻訳 応用 .

近 年 , 画 像 融 進 , 画 像 検 索 , 言 語 表

現 画像 実用規模 結び付 う . 環境

活 , 本 稿 , 言 語 表 現 同 義 性 各 表 現 紐 付 い

画像 類似性 用い 手法 そ 有効性 示 .

2.

自然言語処理

画像処理

融合

自然言語処理 い ,1990年代 コ ベ

処 理 手 法 盛 , 処 理 増 え

,解析 精度 向 . , 無

限 ば精度 100% わ い.構文解析 精

度 コ サ 100万文程度 ,格解析 精度 コ

サ 数 千 万 件 程 度 飽 和 傾 向 見 [喜 連 川

2011]. , 記 述さ 情 報 利 用 自 然

言語処理 限界 示唆 い 考え .

自然言語処理 い , 記述さ 言語表現

意味 適 扱う必要 あ .言語表現 意味 , 々

巻 外界 状況や個々人 経験 結び付い ,そ 状況や

経験 全 適 記述 い.

, 以外 情報 利用 言語表現 意味 扱う

,自然言語処理 精度 向 可能性 あ .

筆者 ,1980年代後半 , 内容 化

解釈 手法 検討 ,そ 実現 組 [那須川 1990]

,1990年前後 , 化 タや計算機能

力 問題 ,実用化 程遠い状況 あ .

近年,画 像や 動画 タ 化 進 , そ 解析技 術 向

結果,自然言語処理 画像や動画 情報 活用 試

本格的 始 あ .例えば, ッ 検索 ン ン

画 像 言 語 表 現 検 索 う , 多 様 言

語表現 画像 結び付い い . う 環境 利用 ,語

義 曖 昧 性 解 消[Barnard 2003; Barnard 2005]や 格 解 析 [Bergsma 2011a],訳語推定[Bergsma 2011b] 画像 活用

, , 言 語 表 現 参 照 先 画 像 中 特 定 [Krishnamurthy 2013] , 言 語 表 現 動 画 中 動 作 結 び 付 [Regneri 2013; Yu 2013] 試 報告さ い .

従来 自然言 語処理 限界 超え ,画像処理 融

さ 試 大 可 能 性 感 . , う

試 始 ば あ , 実 用 化 課 題 多 い .

例えば, [Bergsma 2011b] 訳語推定 実験対象 ,物体

示 表現 限定さ ,実用性 い.

3.

ける自然言語

同義性

本稿 ,実用的 自然言語処理 いう観点 ,膨大

タ 有 益 知 見 出 マ ニ ン [那 須

川 2006] 同義性 考え .営業報告や 具 事

象報告,コ ンタ 応対記録 い 多様

タ 対象 ,そ 記述さ 多様 内容 布傾向や増

減 傾 向 有 用 気 付 得 マ ニ ン 目 的

あ ,特定 内容 示 表現 把握 ,集約 同義

性 必 要 . そ 際 , 汎 用 的 同 義 性 , 析 対

象 タ 特化 同義性 要性 高 .

例 え ば , 米 国 政 府 機 関 あ National Highway Traffic Safety Administration (NHTSA)1 集 公開 い 自動車

具 情報

2

数十万件 タ 析 ,gasoline

fuel gas 基本的 燃料 いう点 同 内容 示 い

把握 い ば,多様 表現 記述さ 燃料 や燃料

漏 状況 集約 ,特定 車種や特定 環

境 燃料 や燃料漏 発生 問題 気付 易 .

うい 表現 多様性 , タ 依存 ,一般的 定義 通

用 限 い.例えば,NHTSA 自動車 具 情報

タ い ,liftgate い う 表 現 hatchback あ い

liftback 後 方 意 味 使 わ い 多 い .

1

http://www.nhtsa.gov/

2

http://www-odi.nhtsa.dot.gov/downloads/

連絡先:那須川哲哉,日本 株式会社 東京基礎

研究所, su w @ . .

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 2 -

Wikipedia ば, 使い方 誤用 い , 析対

象 タ い ,実際 後方 意味 使わ い 以 ,

マ ニ ン , 後 方 同義 語 扱 え

う 望 い.

従 ,実 い ,対象 タ 同義性

要 あ , 一 般 的 同 義 表 現 辞 書 予 用 意

, え タ 表現 使わ 方 応 同

義性 必要 あ .

自然言語処理 同義性 手法 ,対象

表現W 対 , タ 各所 出現 い W 周辺文脈表

現 例えば係 関係 あ 表現 布 類似性 比較

手法[Hindle 1990; Lin 1998; Gasperin 2001] 存在 . , 特 定 表 現 タ ン[Yu 2002]や 特 定 タ タ プ[Wu 2003] 依 存 手 法 , 多 様 タ 比 較 的 適 用 や

,汎用性 高い. 周辺文脈 布類似性 比較 手

法 , 異 言 語 タ 対 象 , 周 辺 文 脈 情 報 対 訳 辞

書 翻 訳 , 異 言 語 同 義 表 現 わ 訳 語 抽

出 適用 [Rapp 1995; Fung 1997; Fung 1998; Rapp 1999].

周辺文脈 布類似性 基 同義性 ,汎用性

高い 面,周辺文脈 表現 曖昧性や多様性

や , 高 い 精 度 出 い . 書 手 表 現

特 徴 考 慮[Murakami 2004] , 計 算 方 法 工 夫 [Andrade 2010] 多少 精度 向 さ

,出力結果 そ ,人手 確 抜 ,使

え ベ 至 い い.そ 実現 機能 ,同義表

現 抽 出 機 能 や 訳 語 抽 出 機 能 い う 同 義 表 現 抽 出 支 援 機 能 や 訳 語 抽 出 支 援 機 能 い う 相 応 い . 例 え ば , 前 出 NHTSA 自動車 具 情報 タ 国交省 自動車 具 情

報 タ

1

用い 訳語 抽出 実験 ,第 1 候補 正

い訳語 割 3割程度 [那須川 2009]. 5候補 中 正 い訳語 存在 6割程度 あ , 20候補 広 8割 9割程度 向 い

結 果 あ . , 訳 語 同 義 表 現 存 在 ,

正 い訳語 複数得 場 あ .そ う 場 ,

マ ニ ン い , 同 義 性 吸 析 効 果 生

.そ , マ ニン いう観点 ,自動的 出

力さ 訳語 結果 , 候補 N語中 複数 正 い訳語

存在 いう ベ あ ,人手 修正 加え

適 用 , 有 益 気 付 得 いう結 果[海 2010]

確 さ い .

4.

画像を

た自然言語表現

同義性

前 述 自 動 車 具 情 報 タ 対 象 , 自 然 言 語 処

理 同義表現や対訳表現 候補 抽出 ,各表現 紐付い

画像 特徴 比較 ,同義表現 抽出精度 向 さ

仕組 構築 ,有効性 調査 .

基本的 , 1 う ,対象 表現 W0 対 同

義表現や対訳表現 候補集 {Sj : j=1,…,m} 作 ,対象

表現W0 関連 画像集 {Pi :i=1,…,n} ,各候補表現 Sj 関連 画像集 {Qjk : k=1,…,n'} 特徴 比較 .

結果 ,W0 関連 画像 特徴 類似性 高い特徴

持 画像 関連 候補表現ほ W0 同義性 高い

断 う . 記 実 験 , 関 連 画 像 得

Google Image検索

2

利用

1

http://www.mlit.go.jp/jidosha/carinf/rcl/index.html

2

https://www.google.co.jp/imghp

1: 対象表現W0 そ 同義/対訳表現候補 画像 関係

4.1

日本語自動車不具合情報

同義性

自動車 フ ン 関 ,同義語 あ フ ン

フ ン フ ン ン フ ン ン ,

周 辺 文 脈 布 類 似 性 用 い ベ 処 理 同 義

語 候補 抽出さ 易い ワ 及び

同義性 評価 .各表現 対 5 関連画像 用い .

画像 特徴 抽出 類似度算出 記 ップ 通 .

1. surf[Bay 2008] 画像 keypoints 抽出

2. 同義語候補 画像 keypoints k-means タ

ン . タ個数 500 選択(visual words 抽出)

3. フ ン 画 像 , 各 同 義 語 候 補 画 像

keypoints タID(visual words) 付

4. 各画像 対 visual words 作 ,

画像ベ 利用

5. コサ ン類似度 算出

終的 得 類似度 25表現 表1 示 .表中

段 行 , フ ン 4番画像 フ ン ン

5番画像 類似度 高 示 い .結

果的 , フ ン 同義語 画像 類似度 並び,

本 手 法 同 義 語 有 効 性 確 . 非 同 義 語

ワ 類似度 高い画像 43番目 あ .

1: フ ン 類似性 高い関連画像 持 表現

同義語画像番号 ン

候補語 同義語 or 関連語

候補語画像番号 コサ ン類似度

ン ン .

ン ン .

ン ン .

ン ン .

ン .

ン .

ン .

ン ン .

ン .

ン .

ン .

ン ン .

ン ン .

ン .

ン .

ン .

ン .

ン .

ン .

ン .

ン .

.

ン ン .

ン .

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 3 -

2: 自然言語処理 対訳表現候補 抽出結果 類似順

4.2

米日自動車不具合情報

訳語獲得

NHTSA自動車 具 情報 タ 国交省 自動車 具

情報 タ 用 い ,周辺文脈 布類似性 ベ 英日

翻訳対 抽出 [那須川 2009] 得 表 2 結果 各

表現 関連画像 類似性 並 え 実験 行 .

画像 特徴 抽出 類似度算出 記 ップ 通 .

1. sift[Lowe 2004] 画像 keypoints 抽出 2. 日本語 訳語 候補画像 keypoints k-means

タ ン . タ個数 500 選択(visual words 抽出)

3. 英語画像 , 訳語 候補語画像 keypoints タ

ID(visual words) 付

4. 各画像 対 visual words 作 ,

画像ベ 利用

5. コサ ン類似度 算出

終的 得 類似度 ,表 2 各対訳表現 並

え 結果 表3~表6 示 . 線 候補語 正解

3: engine 対訳表現候補 画像類似度 ソ 結果

対象表現 画像番号

候補語

候補語画 像番号

コサ ン類似度

ン ン .

ヘッ .

写 .

ン ン .

写 鏡 .

ン .

ー ー .

ヘッ .

ン ン .

4: transmission対訳表現候補 画像類似度 ソ 結果

5: injury 対訳表現候補 画像類似度 ソ 結果

6: fire 対訳表現候補 画像類似度 ソ 結果

対象表現 画像番号

候補語

候補語画 像番号

コサ ン類似度

火災 .

火災 .

駐車場 .

火災 .

ン ン ー 内 .

火 .

火 .

煙 .

配線 .

火災 .

injury 対訳 あ 怪 関 ,表2 8番目

類似度 ,表5 3番目 ,高 い . ,第1候補

い い ,類似度 指標 , 値 対 頑

健 さ L1 距 変更 比較 .sift 出

特徴 各画像 L1距 測定 , さい順 ソ .

そ 結果,表7 通 , 怪 第1候補 .

7: injury 対訳表現候補 L1画像距 ソ 結果

対象表現画像番号 候補語 候補語画像番号 L 距離

怪我 .

バッ .

事故 .

衝突 .

バッ .

5.

課題

自然言語表現 同義性 画像 用い 手法 示 ,実

問題 タ 処理 結果 通 ,そ 有効性 示 .

画像処理 計算 考え ,画像 紐付い 全 表現

比 較 , 全 表 現 組 中 同 義 表 現 抽 出

現実的 い.実用 要 析対象 タ

同義性 あ , 析対象 タ 初

用い 自然言語処理 範 内 候補 抽出 ,比較対象

限定 画像処理 適用 ,全体的 処理効率

対象表現 画像番号

候補語

候補語画 像番号

コサ ン類似度

ー .

助手席 .

怪我 .

助手席 .

.

バッ .

サ ー .

バッ .

衝突 .

バッ .

対象表 現画像 番号

候補語

候補語画 像番号

コサ ン類似度

ン ッ ョン .

ン ッ ョン .

ン ッ ョン .

ヤ .

オー ッ ン ッ ョン .

ン .

ン ッ ョン .

ン ッ ョン .

ン ッ ョン .

(4)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 4 -

高 . わ , 自 然 言 語 処 理 画 像 処 理 融

さ ,効率良 自然言語処理 精度向 実現 う

いう 本手法 狙い あ .

検索 多様 表現 結び付い 画像 確 ,

物体以外 ,日本語 英語 類似 画像 結び付い い

表現 意外 多い.例えば,odor 臭い 画像 比較 ,

鼻 共通性 見 . ,philosophy

哲 学 い , 各 表 現 結 び 付 い 画像 中

哲学 絵画 共通 画像 見 . ,greeting

挨拶 う ,文化的 違い 異 画像 結び付い い

や,trouble 問題 う ,多義性 影響 ,画像

共通性 い 見 .

後 ,大規模 実験 通 ,本手法 有効 あ 表現

有 効 い 表 現 違 い 調 査 , そ 自 動 化 検 討

, 効 果 的 画 像 類 似 性 手 法 実 現 必 要

あ .本稿 紹 実験 範 ,人間 似 い

感 画像 類似度 ,逆 似 い い う

類 似 度 高 散 見 さ . 実 運 用 ,

同 義 性 結果 画 像 共 提 示 ン タ フ ,

活用方法 工夫 仕組 要 あ .

参考文献

[喜連 川 2011] 喜連川 優: 情報爆発 , 電

子情報通信学会 ,Vol.94 ,No8 ,2011.

[那須川 1990] 那須川哲哉, 寺西克之, 崔鐘根, 伊東幸宏, 高

木朗, 原啓 義 : 的対 象世界 用い 文章

理解, 第4回人工知能学会全国大会, pages 279-282, 1990. [Barnard 2003] Kobus Barnard, Pinar Duygulu, David Forsyth,

Nando de Freitas, David M. Blei, Michael I. Jordan: Matching words and pictures, The Journal of Machine Learning Research archive, Volume 3, Pages 1107-1135, 2003.

[Barnard 2005] Kobus Barnard and Matthew Johnson: Word sense disambiguation with pictures, Journal of Artificial Intelligence - Special volume on connecting language to the world archive, Volume 167 Issue 1-2, Pages 13-30, 2005. [Bergsma 2011a] Shane Bergsma and Randy Goebel: Using

visual information to predict lexical preference. In Proceedings of Recent Advances in Natural Language Processing, pages 399-405, 2011.

[Bergsma 2011b] Shane Bergsma and Benjamin Van Durme: Learning Bilingual Lexicons using the Visual Similarity of Labeled Web Images, In proceedings of International Joint Conference on Artificial Intelligence, pages 1764-1769, 2011. [Krishnamurthy 2013] Jayant Krishnamurthy, Thomas Kollar: Jointly Learning to Parse and Perceive: Connecting Natural Language to the Physical World, Transactions of the Association for Computational Linguistics, 1(2), pages 193-206, 2013.

[Regneri 2013] Michaela Regneri, Marcus Rohrbach, Stefan Thater, Dominikus Wetzel, Bernt Schiele, Manfred Pinkal: Grounding Action Descriptions in Videos. Transactions of the Association for Computational Linguistics, 1, pages 25-36, 2013.

[Yu 2013] Haonan Yu and Jeffrey Mark Siskind: Grounded language learning from videos described with sentences. ACL 2013, pages. 53-63, 2013.

[那須川 2006] 那須川哲哉: マ ニン 使う技術/作

技術―基礎技術 適用事例 本質 活用法, 東京電

機大学出版局, 2006.

[Hindle 1990] Donald Hindle: Noun Classification From Predicate-Argument Structures. Proceedings of the 28th Annual Meeting of ACL, pp.268-275, 1990.

[Lin 1998] Dekang Lin: Automatic Retrieval and Clustering of Similar Words, COLING - ACL, pp768-774, 1998.

[Gasperin 2001] Caroline Gasperin, Pablo Gamallo, Alexandre Agustini, Gabriel Lopes, and Vera de Lima: Using Syntactic Contexts for Measuring Word Similarity In the Workshop on Semantic Knowledge Acquisition & Categorisation (ESSLLI 2001), 2001.

[Wu 2003] Hua Wu and Ming Zhou: Synonymous Collocation Extraction Using Translation Information, Proceedings of the 41st Annual Meeting of ACL, pp.120-127, 2003.

[Yu 2002] Hong Yu, Vasileios Hatzivassiloglou, Carol Friedman, Andrey Rzhetsky, and W. John Wilbur: Automatic extraction of gene and protein synonyms from MEDLINE and journal articles, Proceedings of the American Medical Informatics Association (AMIA) Symposium, 2002.

[Rapp 1995] Reinhard Rapp: Identifying word translations in non-parallel texts, Proceeding ACL '95 Proceedings of the 33rd annual meeting on Association for Computational Linguistics, Pages 320-322, 1995.

[Fung 1997] Pascale Fung and Kathlen McKeown: Finding terminology translations from non-parallel corpora. In Proc. of the 5th Annual Workshop on Very Large Corpora, pages 192-202, 1997.

[Fung 1998] Pascale Fung and Lo Yuen Yee: An IR ap-proach for translating new words from nonparallel, comparable texts, In Proc. 17th COLING, pages 414--420, 1998.

[Rapp 1999] Reinhard Rapp: Automatic identification of word translations from unrelated English and German corpora, Proceeding of ACL '99 Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, Pages 519-526, 1999.

[Murakami 2004] Akiko Murakami and Tetsuya Nasukawa: Term aggregation: mining synonymous expressions using personal stylistic variations. In Proceedings of COLING '04, pages 806-812, 2004.

[Andrade 2010] Daniel Andrade, Tetsuya Nasukawa, and Jun'ichi Tsujii: Robust measurement and comparison of context similarity for finding translation pairs. In Proceedings of COLING '10, pages 19-27, 2010.

[那須川 2009] 那須川哲哉, Andrade, D., 海 裕也, 村松祐希,

山 本 和 英: 言 語 横 断 マ ニ ン 翻 訳 対 抽

出, 言 語 処 理 学 会 第 15 回 年 次 大 会 発 表 論 文 集, pages 108-111, 2009.

[海 2010] 海 裕也, 那須川哲哉: 言語横断 マ ニン , 第24回人工知能学会全国大会, 2010.

[Bay 2008] Herbert Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool: SURF: Speeded Up Robust Features, Computer Vision and Image Understanding (CVIU), Vol. 110, No. 3, pp. 346-359, 2008.

参照

関連したドキュメント

AI: Artificial Intelligence, DFFT: Data Free Flow with Trust, C4IR: Centre for the fourth Industrial Revolution network, GTGS: Global Technology Governance Summit, NFT:

In the first part we prove a general theorem on the image of a language K under a substitution, in the second we apply this to the special case when K is the language of balanced

(Construction of the strand of in- variants through enlargements (modifications ) of an idealistic filtration, and without using restriction to a hypersurface of maximal contact.) At

Theorem 2 If F is a compact oriented surface with boundary then the Yang- Mills measure of a skein corresponding to a blackboard framed colored link can be computed using formula

In particular, Proposition 2.1 tells you the size of a maximal collection of disjoint separating curves on S , as there is always a subgroup of rank rkK = rkI generated by Dehn

(93) Thus a non-Noether symmetry of Toda chain not only leads to n functionally independent conservation laws in involution, but also essentially enriches the phase space geometry

σ(L, O) is a continuous function on the space of compact convex bodies with specified interior point, and it is also invariant under affine transformations.. The set R of regular

P˚ uˇ za, Upper and lower solutions of boundary value problems for functional differential equations and theorems of functional differential inequalities.. ˇ Sremr, Some boundary