The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 1 -
幼児
学習
用い
意味
確率的表現
Probabilistic Representation of Word Senses using Learning Bias of Infant Children
高田
朋貴
*1高木
友博
*1Tomoki Takada Tomohiro Takagi
*1
明治大学理工学研究科基礎理工学専攻
Computer Science Course, Graduate School of Science and Technology, Meiji University
These days computers are needed to deal with human language more exactly because the language analysis by computers is growing important. In this paper, we aim to enable computers to deal with the ambiguous word sense by proposing the combination method of the learning bias of infant children and the previous machine learning method. First, we obtain the surround information for identifying the target word sense by using LS model. Next, we input these information into LDA and generate the target word sense distribution. We use the learning bias initialization instead of the random initialization. This enables estimating the number of topics automatically and the efficient learning.
1.
序論
近年 WEB 発 ー 呼ば う 大
ー 増加 続け い 例えばソー 発展
ー 能動的 WEB ー 生成 こ 容易
う こ う ー 用い 推薦 や
予 測 等 研 究 盛 行 わ い 単 語 意 味
考 慮 言 語 処 理 精 度 関 わ 非 常 要 問 題
あ ー 生成 web
け 単 語 や 記 号 表 現 幅 大 幅 広 こ
日 々 創 出 さ 単 語 辞 書 追 加 計 算 機 処 理 さ
け 十分 あ 今後 計算機 動
的 言語処理 能動的 単語 意味 推論
自然言語 い 計算機 理解さ い 方法論
検討 こ 必要 可 あ こ 実現 従来
機械学習 加え 知言語学や脳科学 発 心理学等 観
人 間 学 習 本 質 的 何 考 え
知見 積極的 入 こ 要 あ 考え い
本稿 幼児 学習 あ LDA
組 合わ こ 人間 う 単語 意味 定 い 過
程 抽 象 的 単 語 意 味 確 率 的 表現 方
法論 模索
2.
幼児の学習バイアス
幼 児 言 語 獲 得 い ワ 提 起 ー 問
題[Quine 1960] あ こ 問題 簡単 言えば あ 象
対 発 言葉 象 部分 指示 い
わ い いう あ 幼 児 こ 問 題 様
状 況 置 い いう 例えば 母 親 子 あ
言 葉 発 時 子 い う言 葉 意 味
白い動物 耳 長いこ 赤い目 こ 等 う 無数
意味 候補 推測 こ う こ 問題 解決
幼児 言葉 意味 推論 際 全 意味
ぶ 検 証 一 種 思 い込 う 意
味 可能性 制限 い い いう考え あ
考え方 一 制約理論 [今 2007][今 2003] あ
以 代表的 制約 示
2.1 形状類似性バイアス
形 似通 物 士 ベ 持 可能性 高い
解釈 仮 あ 幼児 未知 物 対 新奇 言葉
使わ 聞 言葉 特定 個体 指 固有 詞
ー 指示 普通 詞 あ 判 断 形
類似性 注目 形 似 他 物 言葉 適用
こ こ 注 目 幼 児 あ 物 ー
あ う 判 定 際 形 類 似度 従 判 定
い いう あ
2.2 相互排他性バイアス
相 異 ベ 対 象 物 関 連 け こ
い 解釈 仮 あ 幼児 既 知 い 物 対
未 知 言葉 聴 い 言 葉 指 示 既
前 知 い 異 あ 解釈 傾向 あ
3. Loosely Symmetric model
こ 人間 因果帰納等 在 対称性
び前節 述 相互排他性 いう 2 非
論 理 的 知 緩 や 持 確 信 度 あ
[篠原2007]
い 原因 象 p 結果 象 q 時 対称
性 → いう情 報 → 相互 排他
性 → ̅ → ̅ こ 示 こ 論
理 学 い 逆 裏 関係 あ 論 理的 誤 あ 人
間 因果帰納 い 度々こ う 推論 行う 知
い こ 柔 軟 扱 うこ 人 間 感 覚
近い結果 得 こ 示さ い
表1 う a b c d 象 共起頻度
ば LS 式(1) う 示 こ 出来
� | = + +
+ + + + +
連絡先:高田朋貴, 明治大学理工学研究科基礎理工学専攻
214-0034 川崎 多摩区 東 田1-1-1
Tel: 044-934-7483 [email protected]
2I5-OS-08b-3
表1 各事象の共起情報
̅
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 2 -
図1 提案 概要図
4.
言葉の意味の確率的表現
近年 言葉 意 味 確率 的潜 在意味 分析 確 率的 扱
う いう研究[持橋 2002][阿部 2007] さ 良 い精度
示 い 本稿 こ 先行研究 い 言葉 意味
確率的 表現 こ 目指 既 手法 Probabilistic
Latent Semantic Indexing pLSI ベー 用い い
本 稿 近 年 注 目 集 い 一 あ
Latent Dirichlet Allocation(LDA)[Blei 2003] 用い こ
手 法 大 利 単 語 意 味 各 潜 在 所 属
確率 分 表現 言葉 意味 確率 いう抽象
的 表現 計算機 表現 可能 あ
5.
提案シス
ム
図1 提案 概要図 あ 学習 い単語
周 辺情報 得 ー 渡 各単語 周 辺情報
得 各 単語 文 書 得さ 周辺情報
文書 特徴語 LDA 入力 こ 時 通常 LDA
う 初期 用い 恣意的 初
期 行う LDA 得 文書 所属 分
各単語 意味 抽象的 表 確率的表現 扱う
5.1 LSモ ルを用いた周辺情報取得
本稿 単語 意味 定 周辺情報 入力さ
単 語 一 文 書 出 現 語 定 義 こ 考 え方
情 報 検 索 一 般 的 分 仮 踏 襲 幼 児 あ 未
知 語 聞 い 時 状 況 類 似 判 断 こ 周
辺情報 今回 1-gram 文 言語 い
1-gram 文 最 さい断 情報 あ 幼児 得 周
辺情報 一 一 断 的 情報 あ こ 想定さ
あ 但 こ 非常 多 情報 得 い
情報 意味 定 要 あ 判断 こ
い こ LS 用い LS 得
閾 以 文 入力さ 単語 因果性 高い情報
捨選 択 こ 処理 加 え こ 知
単語 意味 定 情報 有益 情報
得 考え
特徴 問題 あ 一般的 LDA 文書 対象
あ 特徴 整数 扱 う 特徴 語 付
け 行うこ LDA 実行 方法[Wilson 2010] あ LS
分散 非常 さい 付け
効果 い 考え 本稿 2種類 特徴
方法論 検討 一 目 単純 文 在 有無
特徴 0 1 扱 う方法 あ 先 述 う
LDA 文書 対 あ 文書 特徴
冪乗 う 則 従うこ 知 い こ 目
: 用い 初期
0. 初期 1 け あ 一番初 学習 入力
語 所属さ
1. 入力語 込 数 1 時 類似度 閾
�以 あ ば 初期 振 分け
�未 満 あ ば 新 い 生 成 新 規
振 分け 数 2以 時 手順 2 移行
う け ば 手順1 繰 返
2. 入力語 初期 済 全 語 類似度 計算
3. 初期 済 語 分 A 入力語 類似度 変
換公式 代入 得 結果 分 B 生成 分
A 時 所属確率 最大 あ 注目
分 B 得
4. 全 初期 済 単語 対 手順 3 終わ 各
最大 得
5. 各 総和 1 う 正規 分 C
生成
6. 分 C 一様分 否 以 う 分岐
a) 一様分 あ ば 新 生成 入力語
新 割 当
b) 一様分 け ば 分 C 基 初期
行う
7. 全 入 力 語 初 期 終 わ ば 終 了 う け ば
手順2 戻
冪乗分 う 特徴 変換 LS
求 Zipf 法則 当 方法 考え LS
あ 映さ 順序 着目 式(2) Zipf 法
則 当 こ 冪乗 う いう あ 単
純 Zipf 法則 当 う 1-gram 文 関連
単 語 さ あ 場合 順 付け 文 さ
あ 場合 特徴 非常 大 う
ー s 各文書 LS 最大 代入 こ
大 こ 抑 え こ 冪 乗
際 少 数 う あ 場 合 四 捨
入 こ 整数 行
�; �, � =∑� ⁄�⁄
�= (s: ー N:全要素 数 k:順 )
5.2 バイアスによるLDAの初期化
一般 LDA 2 問題 在 一 目
設計者 数 設定 あ 目 初期
精度依 問題 あ 前者 あ 設計者
数 前 設定 け ば 数 経験的 設定
け ば い 解決策 HDP-LDA[Teh 2006] う
確率的 数 求 手法 提案さ い
数 大 さ 生 こ や 出 力 中 人 間 解 釈
い出力 得 うこ あ 等 問 題 あ 後
者 最初 初期 局所解 容易 抜け出
精 度 影 響 え う いう問題 あ 記 2
問 題 解 決 提 案 手 法 記 示
う 学習 考慮 初期 手法 提案
手順2 類似度 式(3) cosine尺度 用い 但 特徴
語 使 わ 在 有無 ベ 扱 う 従
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 3 -
cos( ⃗, ⃗⃗) = ⃗ ∙ ⃗⃗
| ⃗||⃗⃗|
手順 3 用い 変換公式 式(4) あ こ 式 類似度
高け ば高い 現在注目 い 初期 済 単語
分 う 分 い 異 分
幼 児 形 状 類 似 性 類 似 い 物 対
ベ 適用 いう仮 形 類似 度合
一 ー う 判断 い 考え
本 稿 形 類 似 度合 周辺 情 報 士 類 似 度 見
類 似 度 高 け ば 一 あ 可 能 性 高 類 似 度
け ば 物 所 属 異 所
属 確率 高い 解釈 こ 式(6)
関数 あ 域 [0,1] う 調整 あ
� , �� =∑ (� , �� )� , ��
�, �� = �� �� ∗ � + ( − �� �� ) ∗ − �
�� � =
+ −�� � �− .5 (�: i 所属確率 sim:類似度)
手順6 一様分 否 新規 生成
判 定 一 様 分 各 所 属 確 率 等 確
率 あ 裏 返 ば 明確 所属 い いうこ
新 所 属 い う仮 基 い
い 一様分 あ う 判定 分 C 一様分
Jensen-Shannon Divergence 用い ここ 類似度
う 1 最 類似 い 計算 式(7) う 変
形 用い い こ 閾 以 あ 分 C
一様分 あ 判定
� � , = −��� ||
�� || = (� || + � || )
� || = ∑ � = � lo� � = �� = � �
6.
実験
6.1 実験設定
実 験 ー 売新聞 1989,1990,1994 用 い
1989 1990 年 学 習 ー 1994 年 ー
Perplexity 測定 用 い 各閾 =0.5 �=0.5 =0.999
式(6) 関数 ー gain=10
LDA 推論 Collapsed Gibbs Sampler 用い ー
ー =1 =1 ー 回数 100回
学習 ー 中 出現 普通 詞52,703単語 今回学習
さ 単語
6.2 実験結果
初 LS 用い 得 周辺情報 い 述
表2 3 国会 ソ連 関 周辺情報 示
変換 Zipf 法則 当 変換 時 示
い 5.1節 述 う LS 分散 非常 さい
見 変換 冪乗 分 従う 変換さ い
各 単語 関連 い 文 一文 あ
関連 い 単語 想 起 こ 国会 あ
ば政党や議員 ソ連 あ ば 等
用い 初期 用い 時
増加具合 示 図 2 示 特徴 多少
増 加具合 異 い 指 数関数 的 増加
単語数 対 線形 増加 い
図3 4 初期 場合 用い 初期
場合 Perplexity い 示 あ ー
回数 初期 差異 現 い
回数 少 い場合 早 Perplexity 減少
続 い 生 成さ 各 語 意 味確 率 分 い 考 察
図5 6 国会 意味確率分 あ 図7 8 ソ連 意
味確率分 あ 図5 図6 図7 図8 比較
Zipf 法則 特徴 付け ZIPF 表示 方 全
特徴 1 得 時 ALL1 表示 尖 分
曖昧性 少 い 考え 分 あ こ
特徴 全 1 場合 特徴 文書間 い 鮮明
LDA 明 確 分割 こ
想定さ 分 散 ば 起 考え
初期 初期 比較 特徴
1 場合 単語分 い や う
ワー 確 率 持 初 期
場合 10 あ 対 初期 6
あ こ 初 期 精 度向 考 え
こ 出来 Zipf 法則 従い特徴 付 場合
い 見 更 Zipf 法則 特
徴 け 用い 場合 方 表3 4 う 式(7) 用い 意味
確 率 分 士 比 較 大 い 見 こ
特徴 全 1 場合 特徴 い 大
い 用 い 初期 結 果 大 影響 え こ
考え Zipf 基 特徴 既 特徴
時 大 差異 出 い 最終的 LDA 結果
大 差 生 考え
7.
結論
LS 用い 単語 意味 定 周辺情報
得 LDA 初期 幼児 基 手法 入
周 辺 情 報 対 特 徴 け い 文 在
有無 表 ベ 用い 方法 Zipf 法則
基 変 換 さ 用 い 手 法 方 生 成 さ 意 味
確率分 曖昧性 少 い分 幼児 学習
考慮 初期 手法 LDA 数 確率的
手法 依 自動的 決定 こ 学習初期 効
率 効果 こ 出来 初期 最終的 意
味確率分 精度向 優 性 示 こ
こ い 幼 児 学 習 考 慮 手 法 検
討 い 必要性 あ 考え い
本手法 単語 曖 昧 意 味 確率的 表現 こ
ば 細 い単語間 類似度 測定 更
一意的 単語 意味 捉え け 文脈 考慮 意味
確率分 変 さ 単語間 類似度 評価
推察 い こ 文脈 依 単語集合 生成
こ 人 間 う 概念表現 可 能
期 待 い 最 終的 人間 概 念生 成 計 算機 実 現
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 4 -
図2 ピック数の推移
図2 ピック数の推移
参考文献
[Blei 2003] David M. Blei, Andrew. Y. Ng and Michael I. Jordan: Latent Dirichlet Allocation, Journal of Machine Learning Research, Vol. 3, pp.993-1022, 2003.
[Quine 1960] W. V. Quine: Word and Object, Cambridge, MA. : MIT Press, 1960.
[Teh 2006] Y. W. Teh, M. I. Jordan, M. J. Beal, and D. M. Blei: Hierarchical Dirichlet processes. Journal of the American Statistical Association, Vol. 101, No. 476, pp.1566-1581, 2006.
[Wilson 2010] Andrew T. Wilson and Peter A. Chew: Term weighting schemes for Latent Dirichlet Allocation, In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, vol. 10, pp. 465–473, 2010.
[阿部 2007] 阿部慶賀 中川正宣:言語統計解析 用い 確
率 的 言 語 知 識 構 築 心理 学 的 妥 当 性 検 証 知
科学 Vol.14 No.1 pp.91-117 2007.
[今 2007] 今 針生悦子: 構築 子
う 語 概念 学 い 岩波書店 2007.
[今 2003] 今 島久雄:人 学 ぶ いうこ
知学習論 観 樹出 2003.
[ 林 1999] 林 郁 夫 川 庸 一 今 尾 崎 知 伸:
機 能 論 理 幼児 詞 語 彙 獲 得
電 子情 報通 信学 会技 術 研究報 告 言語 理解
ー 研 究 会 NLC Vol. 99 No. 387 pp.29-36
1999.
[篠 原 2007] 篠 原 修 田 亮 桂 田 浩 一 新 田 垣 雄 : 因 果
性 基 信念形成 N本腕 問題
応用 人工知能学会論文 22巻1号G pp.58-68 2007.
[持橋 2002] 持橋大地 松本 裕治:意 味 確率 的表 現 情報
処理学会研究報告 自然言語処理研究会 2002-NL-147
77-84.
表2 LSモ ルか 取得さ た周辺情報
国会 ソ連
LS 変換 LS 変換
党 0.555 19 ソ 0.628 29
議 0.537 13 連 0.561 19
民 0.531 10 ワ 0.530 15
政 0.529 9 領 0.528 12
衆 0.529 8 0.527 11
国 0.527 7 国 0.527 9
案 0.525 7 0.525 9
会 0.524 6 0.523 8
院 0.522 6 0.522 7
員 0.520 5 0.521 7
1400 1600 1800
0 5 0 1 0 0
P E R P LE X IT Y ITERATION Bias Random 0 20 40 60 80 100
0 20000 40000 60000
ピ
ッ
ク
数
学習単語数
ZIPF ALL1 0 0.5 1.0 P ro b a b il it y Topic Bias Random 1300 1400 1500 1600 1700
0 5 0 1 0 0
P E R P LE X IT Y ITERATION Bias Random 0 0.5 1.0 P ro b a b li ty Topic Bias Random 0 0.5 1.0 P ro p a b il it y Topic Bias Random 0 0.5 1.0 P ro b a b il it y Topic Bias Random
表3 バイアス初期化に 単語類似度
国会 ソ連
類似度 類似度
国会 1.000 ソ連 1.000
自民党 0.985 東 0.931
懇談 0.975 ワ 0.928
参院 0.970 西独 0.916
審議 0.968 0.916
可決 0.966 共和 0.915
辞任 0.964 ネー 0.914
党首 0.962 ワ 0.909
議員 0.960 日越 0.893
会派 0.951 東独 0.892
表4 ランダム初期化に 単語類似度
国会 ソ連
類似度 類似度
国会 1.000 ソ連 1.000
会派 0.960 共和 0.939
否決 0.954 東 0.912
両氏 0.942 ー 0.911
両院 0.939 0.911
議決 0.937 施 0.903
党首 0.933 0.903
党 0.927 0.900
各党 0.926 ワ 0.899
会期 0.925 0.895
図3 特徴量:ZIPF
図5 国会:ZIPF
図4 特徴量:ALL1
図6 国会:ALL1
図2 ピック数の推移