• 検索結果がありません。

PDFファイル 2I5OS08b オーガナイズドセッション「OS8 意味と理解のコンピューティング 」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 2I5OS08b オーガナイズドセッション「OS8 意味と理解のコンピューティング 」"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

幼児

学習

用い

意味

確率的表現

Probabilistic Representation of Word Senses using Learning Bias of Infant Children

高田

朋貴

*1

高木

友博

*1

Tomoki Takada Tomohiro Takagi

*1

明治大学理工学研究科基礎理工学専攻

Computer Science Course, Graduate School of Science and Technology, Meiji University

These days computers are needed to deal with human language more exactly because the language analysis by computers is growing important. In this paper, we aim to enable computers to deal with the ambiguous word sense by proposing the combination method of the learning bias of infant children and the previous machine learning method. First, we obtain the surround information for identifying the target word sense by using LS model. Next, we input these information into LDA and generate the target word sense distribution. We use the learning bias initialization instead of the random initialization. This enables estimating the number of topics automatically and the efficient learning.

1.

序論

近年 WEB 発 ー 呼ば う 大

ー 増加 続け い 例えばソー 発展

ー 能動的 WEB ー 生成 こ 容易

う こ う ー 用い 推薦 や

予 測 等 研 究 盛 行 わ い 単 語 意 味

考 慮 言 語 処 理 精 度 関 わ 非 常 要 問 題

あ ー 生成 web

け 単 語 や 記 号 表 現 幅 大 幅 広 こ

日 々 創 出 さ 単 語 辞 書 追 加 計 算 機 処 理 さ

け 十分 あ 今後 計算機 動

的 言語処理 能動的 単語 意味 推論

自然言語 い 計算機 理解さ い 方法論

検討 こ 必要 可 あ こ 実現 従来

機械学習 加え 知言語学や脳科学 発 心理学等 観

人 間 学 習 本 質 的 何 考 え

知見 積極的 入 こ 要 あ 考え い

本稿 幼児 学習 あ LDA

組 合わ こ 人間 う 単語 意味 定 い 過

程 抽 象 的 単 語 意 味 確 率 的 表現 方

法論 模索

2.

幼児の学習バイアス

幼 児 言 語 獲 得 い ワ 提 起 ー 問

題[Quine 1960] あ こ 問題 簡単 言えば あ 象

対 発 言葉 象 部分 指示 い

わ い いう あ 幼 児 こ 問 題 様

状 況 置 い いう 例えば 母 親 子 あ

言 葉 発 時 子 い う言 葉 意 味

白い動物 耳 長いこ 赤い目 こ 等 う 無数

意味 候補 推測 こ う こ 問題 解決

幼児 言葉 意味 推論 際 全 意味

ぶ 検 証 一 種 思 い込 う 意

味 可能性 制限 い い いう考え あ

考え方 一 制約理論 [今 2007][今 2003] あ

以 代表的 制約 示

2.1 形状類似性バイアス

形 似通 物 士 ベ 持 可能性 高い

解釈 仮 あ 幼児 未知 物 対 新奇 言葉

使わ 聞 言葉 特定 個体 指 固有 詞

ー 指示 普通 詞 あ 判 断 形

類似性 注目 形 似 他 物 言葉 適用

こ こ 注 目 幼 児 あ 物 ー

あ う 判 定 際 形 類 似度 従 判 定

い いう あ

2.2 相互排他性バイアス

相 異 ベ 対 象 物 関 連 け こ

い 解釈 仮 あ 幼児 既 知 い 物 対

未 知 言葉 聴 い 言 葉 指 示 既

前 知 い 異 あ 解釈 傾向 あ

3. Loosely Symmetric model

こ 人間 因果帰納等 在 対称性

び前節 述 相互排他性 いう 2 非

論 理 的 知 緩 や 持 確 信 度 あ

[篠原2007]

い 原因 象 p 結果 象 q 時 対称

性 → いう情 報 → 相互 排他

性 → ̅ → ̅ こ 示 こ 論

理 学 い 逆 裏 関係 あ 論 理的 誤 あ 人

間 因果帰納 い 度々こ う 推論 行う 知

い こ 柔 軟 扱 うこ 人 間 感 覚

近い結果 得 こ 示さ い

表1 う a b c d 象 共起頻度

ば LS 式(1) う 示 こ 出来

� | = + +

+ + + + +

連絡先:高田朋貴, 明治大学理工学研究科基礎理工学専攻

214-0034 川崎 多摩区 東 田1-1-1

Tel: 044-934-7483 [email protected]

2I5-OS-08b-3

表1 各事象の共起情報

̅

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 2 -

図1 提案 概要図

4.

言葉の意味の確率的表現

近年 言葉 意 味 確率 的潜 在意味 分析 確 率的 扱

う いう研究[持橋 2002][阿部 2007] さ 良 い精度

示 い 本稿 こ 先行研究 い 言葉 意味

確率的 表現 こ 目指 既 手法 Probabilistic

Latent Semantic Indexing pLSI ベー 用い い

本 稿 近 年 注 目 集 い 一 あ

Latent Dirichlet Allocation(LDA)[Blei 2003] 用い こ

手 法 大 利 単 語 意 味 各 潜 在 所 属

確率 分 表現 言葉 意味 確率 いう抽象

的 表現 計算機 表現 可能 あ

5.

提案シス

図1 提案 概要図 あ 学習 い単語

周 辺情報 得 ー 渡 各単語 周 辺情報

得 各 単語 文 書 得さ 周辺情報

文書 特徴語 LDA 入力 こ 時 通常 LDA

う 初期 用い 恣意的 初

期 行う LDA 得 文書 所属 分

各単語 意味 抽象的 表 確率的表現 扱う

5.1 LSモ ルを用いた周辺情報取得

本稿 単語 意味 定 周辺情報 入力さ

単 語 一 文 書 出 現 語 定 義 こ 考 え方

情 報 検 索 一 般 的 分 仮 踏 襲 幼 児 あ 未

知 語 聞 い 時 状 況 類 似 判 断 こ 周

辺情報 今回 1-gram 文 言語 い

1-gram 文 最 さい断 情報 あ 幼児 得 周

辺情報 一 一 断 的 情報 あ こ 想定さ

あ 但 こ 非常 多 情報 得 い

情報 意味 定 要 あ 判断 こ

い こ LS 用い LS 得

閾 以 文 入力さ 単語 因果性 高い情報

捨選 択 こ 処理 加 え こ 知

単語 意味 定 情報 有益 情報

得 考え

特徴 問題 あ 一般的 LDA 文書 対象

あ 特徴 整数 扱 う 特徴 語 付

け 行うこ LDA 実行 方法[Wilson 2010] あ LS

分散 非常 さい 付け

効果 い 考え 本稿 2種類 特徴

方法論 検討 一 目 単純 文 在 有無

特徴 0 1 扱 う方法 あ 先 述 う

LDA 文書 対 あ 文書 特徴

冪乗 う 則 従うこ 知 い こ 目

: 用い 初期

0. 初期 1 け あ 一番初 学習 入力

語 所属さ

1. 入力語 込 数 1 時 類似度 閾

�以 あ ば 初期 振 分け

�未 満 あ ば 新 い 生 成 新 規

振 分け 数 2以 時 手順 2 移行

う け ば 手順1 繰 返

2. 入力語 初期 済 全 語 類似度 計算

3. 初期 済 語 分 A 入力語 類似度 変

換公式 代入 得 結果 分 B 生成 分

A 時 所属確率 最大 あ 注目

分 B 得

4. 全 初期 済 単語 対 手順 3 終わ 各

最大 得

5. 各 総和 1 う 正規 分 C

生成

6. 分 C 一様分 否 以 う 分岐

a) 一様分 あ ば 新 生成 入力語

新 割 当

b) 一様分 け ば 分 C 基 初期

行う

7. 全 入 力 語 初 期 終 わ ば 終 了 う け ば

手順2 戻

冪乗分 う 特徴 変換 LS

求 Zipf 法則 当 方法 考え LS

あ 映さ 順序 着目 式(2) Zipf 法

則 当 こ 冪乗 う いう あ 単

純 Zipf 法則 当 う 1-gram 文 関連

単 語 さ あ 場合 順 付け 文 さ

あ 場合 特徴 非常 大 う

ー s 各文書 LS 最大 代入 こ

大 こ 抑 え こ 冪 乗

際 少 数 う あ 場 合 四 捨

入 こ 整数 行

�; �, � = ⁄�

�= (s: ー N:全要素 数 k:順 )

5.2 バイアスによるLDAの初期化

一般 LDA 2 問題 在 一 目

設計者 数 設定 あ 目 初期

精度依 問題 あ 前者 あ 設計者

数 前 設定 け ば 数 経験的 設定

け ば い 解決策 HDP-LDA[Teh 2006] う

確率的 数 求 手法 提案さ い

数 大 さ 生 こ や 出 力 中 人 間 解 釈

い出力 得 うこ あ 等 問 題 あ 後

者 最初 初期 局所解 容易 抜け出

精 度 影 響 え う いう問題 あ 記 2

問 題 解 決 提 案 手 法 記 示

う 学習 考慮 初期 手法 提案

手順2 類似度 式(3) cosine尺度 用い 但 特徴

語 使 わ 在 有無 ベ 扱 う 従

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 3 -

cos( ⃗, ⃗⃗) = ⃗ ∙ ⃗⃗

| ⃗||⃗⃗|

手順 3 用い 変換公式 式(4) あ こ 式 類似度

高け ば高い 現在注目 い 初期 済 単語

分 う 分 い 異 分

幼 児 形 状 類 似 性 類 似 い 物 対

ベ 適用 いう仮 形 類似 度合

一 ー う 判断 い 考え

本 稿 形 類 似 度合 周辺 情 報 士 類 似 度 見

類 似 度 高 け ば 一 あ 可 能 性 高 類 似 度

け ば 物 所 属 異 所

属 確率 高い 解釈 こ 式(6)

関数 あ 域 [0,1] う 調整 あ

� , �� =∑ (� , �� )� , ��

�, �� = �� �� ∗ � + ( − �� �� ) ∗ − �

�� � =

+ −�� � �− .5 (�: i 所属確率 sim:類似度)

手順6 一様分 否 新規 生成

判 定 一 様 分 各 所 属 確 率 等 確

率 あ 裏 返 ば 明確 所属 い いうこ

新 所 属 い う仮 基 い

い 一様分 あ う 判定 分 C 一様分

Jensen-Shannon Divergence 用い ここ 類似度

う 1 最 類似 い 計算 式(7) う 変

形 用い い こ 閾 以 あ 分 C

一様分 あ 判定

� � , = −��� ||

�� || = (� || + � || )

� || = ∑ � = � lo� � = �� = �

6.

実験

6.1 実験設定

実 験 ー 売新聞 1989,1990,1994 用 い

1989 1990 年 学 習 ー 1994 年 ー

Perplexity 測定 用 い 各閾 =0.5 �=0.5 =0.999

式(6) 関数 ー gain=10

LDA 推論 Collapsed Gibbs Sampler 用い ー

ー =1 =1 ー 回数 100回

学習 ー 中 出現 普通 詞52,703単語 今回学習

さ 単語

6.2 実験結果

初 LS 用い 得 周辺情報 い 述

表2 3 国会 ソ連 関 周辺情報 示

変換 Zipf 法則 当 変換 時 示

い 5.1節 述 う LS 分散 非常 さい

見 変換 冪乗 分 従う 変換さ い

各 単語 関連 い 文 一文 あ

関連 い 単語 想 起 こ 国会 あ

ば政党や議員 ソ連 あ ば 等

用い 初期 用い 時

増加具合 示 図 2 示 特徴 多少

増 加具合 異 い 指 数関数 的 増加

単語数 対 線形 増加 い

図3 4 初期 場合 用い 初期

場合 Perplexity い 示 あ ー

回数 初期 差異 現 い

回数 少 い場合 早 Perplexity 減少

続 い 生 成さ 各 語 意 味確 率 分 い 考 察

図5 6 国会 意味確率分 あ 図7 8 ソ連 意

味確率分 あ 図5 図6 図7 図8 比較

Zipf 法則 特徴 付け ZIPF 表示 方 全

特徴 1 得 時 ALL1 表示 尖 分

曖昧性 少 い 考え 分 あ こ

特徴 全 1 場合 特徴 文書間 い 鮮明

LDA 明 確 分割 こ

想定さ 分 散 ば 起 考え

初期 初期 比較 特徴

1 場合 単語分 い や う

ワー 確 率 持 初 期

場合 10 あ 対 初期 6

あ こ 初 期 精 度向 考 え

こ 出来 Zipf 法則 従い特徴 付 場合

い 見 更 Zipf 法則 特

徴 け 用い 場合 方 表3 4 う 式(7) 用い 意味

確 率 分 士 比 較 大 い 見 こ

特徴 全 1 場合 特徴 い 大

い 用 い 初期 結 果 大 影響 え こ

考え Zipf 基 特徴 既 特徴

時 大 差異 出 い 最終的 LDA 結果

大 差 生 考え

7.

結論

LS 用い 単語 意味 定 周辺情報

得 LDA 初期 幼児 基 手法 入

周 辺 情 報 対 特 徴 け い 文 在

有無 表 ベ 用い 方法 Zipf 法則

基 変 換 さ 用 い 手 法 方 生 成 さ 意 味

確率分 曖昧性 少 い分 幼児 学習

考慮 初期 手法 LDA 数 確率的

手法 依 自動的 決定 こ 学習初期 効

率 効果 こ 出来 初期 最終的 意

味確率分 精度向 優 性 示 こ

こ い 幼 児 学 習 考 慮 手 法 検

討 い 必要性 あ 考え い

本手法 単語 曖 昧 意 味 確率的 表現 こ

ば 細 い単語間 類似度 測定 更

一意的 単語 意味 捉え け 文脈 考慮 意味

確率分 変 さ 単語間 類似度 評価

推察 い こ 文脈 依 単語集合 生成

こ 人 間 う 概念表現 可 能

期 待 い 最 終的 人間 概 念生 成 計 算機 実 現

(4)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 4 -

図2 ピック数の推移

図2 ピック数の推移

参考文献

[Blei 2003] David M. Blei, Andrew. Y. Ng and Michael I. Jordan: Latent Dirichlet Allocation, Journal of Machine Learning Research, Vol. 3, pp.993-1022, 2003.

[Quine 1960] W. V. Quine: Word and Object, Cambridge, MA. : MIT Press, 1960.

[Teh 2006] Y. W. Teh, M. I. Jordan, M. J. Beal, and D. M. Blei: Hierarchical Dirichlet processes. Journal of the American Statistical Association, Vol. 101, No. 476, pp.1566-1581, 2006.

[Wilson 2010] Andrew T. Wilson and Peter A. Chew: Term weighting schemes for Latent Dirichlet Allocation, In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, vol. 10, pp. 465–473, 2010.

[阿部 2007] 阿部慶賀 中川正宣:言語統計解析 用い 確

率 的 言 語 知 識 構 築 心理 学 的 妥 当 性 検 証 知

科学 Vol.14 No.1 pp.91-117 2007.

[今 2007] 今 針生悦子: 構築 子

う 語 概念 学 い 岩波書店 2007.

[今 2003] 今 島久雄:人 学 ぶ いうこ

知学習論 観 樹出 2003.

[ 林 1999] 林 郁 夫 川 庸 一 今 尾 崎 知 伸:

機 能 論 理 幼児 詞 語 彙 獲 得

電 子情 報通 信学 会技 術 研究報 告 言語 理解

ー 研 究 会 NLC Vol. 99 No. 387 pp.29-36

1999.

[篠 原 2007] 篠 原 修 田 亮 桂 田 浩 一 新 田 垣 雄 : 因 果

性 基 信念形成 N本腕 問題

応用 人工知能学会論文 22巻1号G pp.58-68 2007.

[持橋 2002] 持橋大地 松本 裕治:意 味 確率 的表 現 情報

処理学会研究報告 自然言語処理研究会 2002-NL-147

77-84.

表2 LSモ ルか 取得さ た周辺情報

国会 ソ連

LS 変換 LS 変換

党 0.555 19 ソ 0.628 29

議 0.537 13 連 0.561 19

民 0.531 10 ワ 0.530 15

政 0.529 9 領 0.528 12

衆 0.529 8 0.527 11

国 0.527 7 国 0.527 9

案 0.525 7 0.525 9

会 0.524 6 0.523 8

院 0.522 6 0.522 7

員 0.520 5 0.521 7

1400 1600 1800

0 5 0 1 0 0

P E R P LE X IT Y ITERATION Bias Random 0 20 40 60 80 100

0 20000 40000 60000

学習単語数

ZIPF ALL1 0 0.5 1.0 P ro b a b il it y Topic Bias Random 1300 1400 1500 1600 1700

0 5 0 1 0 0

P E R P LE X IT Y ITERATION Bias Random 0 0.5 1.0 P ro b a b li ty Topic Bias Random 0 0.5 1.0 P ro p a b il it y Topic Bias Random 0 0.5 1.0 P ro b a b il it y Topic Bias Random

表3 バイアス初期化に 単語類似度

国会 ソ連

類似度 類似度

国会 1.000 ソ連 1.000

自民党 0.985 東 0.931

懇談 0.975 ワ 0.928

参院 0.970 西独 0.916

審議 0.968 0.916

可決 0.966 共和 0.915

辞任 0.964 ネー 0.914

党首 0.962 ワ 0.909

議員 0.960 日越 0.893

会派 0.951 東独 0.892

表4 ランダム初期化に 単語類似度

国会 ソ連

類似度 類似度

国会 1.000 ソ連 1.000

会派 0.960 共和 0.939

否決 0.954 東 0.912

両氏 0.942 ー 0.911

両院 0.939 0.911

議決 0.937 施 0.903

党首 0.933 0.903

党 0.927 0.900

各党 0.926 ワ 0.899

会期 0.925 0.895

図3 特徴量:ZIPF

図5 国会:ZIPF

図4 特徴量:ALL1

図6 国会:ALL1

図2 ピック数の推移

参照

関連したドキュメント

The only thing left to observe that (−) ∨ is a functor from the ordinary category of cartesian (respectively, cocartesian) fibrations to the ordinary category of cocartesian

The inclusion of the cell shedding mechanism leads to modification of the boundary conditions employed in the model of Ward and King (199910) and it will be

(Construction of the strand of in- variants through enlargements (modifications ) of an idealistic filtration, and without using restriction to a hypersurface of maximal contact.) At

W ang , Global bifurcation and exact multiplicity of positive solu- tions for a positone problem with cubic nonlinearity and their applications Trans.. H uang , Classification

It is suggested by our method that most of the quadratic algebras for all St¨ ackel equivalence classes of 3D second order quantum superintegrable systems on conformally flat

Since the boundary integral equation is Fredholm, the solvability theorem follows from the uniqueness theorem, which is ensured for the Neumann problem in the case of the

Answering a question of de la Harpe and Bridson in the Kourovka Notebook, we build the explicit embeddings of the additive group of rational numbers Q in a finitely generated group

Next, we prove bounds for the dimensions of p-adic MLV-spaces in Section 3, assuming results in Section 4, and make a conjecture about a special element in the motivic Galois group