Sentence Similarity
5.3 エージェント
本節では,前節の語彙獲得のモデルを用いたエージェントのモデルを提案する.本モデ ルは,第4章で提案した文法獲得のモデルと統合することを意図して構築されている.
5.3.1
エージェントとコミュニケーション
本モデルにおけるエージェントは,自分の語彙識別の能力を示す指標である類似度の閾 値2i(t)をコミュニケーションによって時間とともに変化させる.エージェント間のコミュ ニケーションは,以下の手順で行なう.
0.発話:あるエージェントが,自分の類似度の閾値以上の語を用いて発話する.この文 をS とする.
1.理解:その発話を次のエージェントが意味的に理解しようと試みる.発話された文の
類似度 sim(S;Ck) が,そのエージェントの閾値以上であれば理解できたとする.
2.発話 :
2-1 1で理解できたエージェントは,その文で用いられた語と,類似度が閾値以上の 語を用いて発話する.
2-2 1で理解できなかったエージェントは,類似度が閾値以上の語をランダムに用い て発話する.
3.計算:n 回の発話が終ったとき,全エージェントは類似度計算とクラスタリングを行 なう.このとき,ある閾値以下の語は捨てられる.1 へ戻る.
エージェントの類似度の閾値の計算は,以下のように行なう.ここで,Aはこのコミュニ ティにおけるエージェントのインデックスの集合,Sij
()(i;j 2A)は第iエージェントか ら第jエージェントへ時刻に発話された文であり,jSij()jはその長さ(語数)である.
いま,第 iエージェントが第 jエージェントに対して発話したとする.このとき,第i エージェントは,その発話した文における語と語の間の類似度の平均Uij()を計算する.
sim
i (W
k
;W
l
)は,第iエージェントの持つ行列における語WkとWlの類似度である.同様 に,その発話を聞いた第jエージェントも類似度の平均Lij()を計算する.
発話(Utterance)
U
ij ()=
1
jS
ij ()j
P
W
k 2S
ij ()
P
W
l 2S
ij ();k 6=l
sim
i (W
k
;W
l
) (5:8)
聴取(Listening)
L
ij ()=
1
jS
ij ()j
P
W
k 2S
ij ()
P
W
l 2S
ij ();k 6=l
sim
j (W
k
;W
l
) (5:9)
発話を理解した場合,理解された場合の閾値の増減は,これらのUij();Lij() を用いて,
以下のように定義される.
理解する(recognizing)
R
ij ()=
8
>
<
>
:
10L
ji
(); iはjの発話を理解できた.
L
ji
(); iはjの発話を理解できなかった.
(5:10)
理解される(being recognized)
B
ij ()=
8
>
<
>
:
10U
ij
(); iの発話はjに理解された.
U
ij
(); iの発話はjに理解されなかった.
(5:11)
以上の定義より,類似度の低い語からなる文を理解したときの閾値の上昇は大きく,理解 できなかったときの閾値の低下は小さい.しかし,類似度の高い語からなる文を理解した ときは閾値の上昇は小さいが,理解できなかったときの閾値の低下は大きい.これは,「理 解される」においても同様である.つまり,あまり使われていない語の並びを発話した場 合は理解されない危険が大きいが,理解されたときの利益は大きい.逆に,よく使われて いる語の並びを発話した場合は理解される確率が高いが,理解されなかった場合の不利益 は大きいことを意味する.
第i エージェントの類似度の閾値の関数 2i(t) は,以下のように定義される.ここで,
p
r
;p
bは,発話を理解した,もしくは,理解されたときの閾値の上昇・低下に関わるパラメー タであり,ptは時間減衰のパラメータである.
2
i
(t)=p
r 1
jAj P
j2A P
2[t01;t]
R
ij
()+p
b 1
jAj P
j2A P
2[t01;t]
B
ij
()+p
t 2
i
(t01): (5.12)
式(5.12)は,第4章で提案したエネルギー量の漸化式(式(4.5))と同様の定義を行なっ ている.つまり,閾値の関数は,他のエージェントとのコミュニケーションがない限り,時 間を追って指数関数的に減少する関数となっている.これは,文法のモデルと語彙のモデ ルの統合を意図しているためである(詳細は,第5.4.3節で述べる).
5.3.2
コミュニケーションと語彙の獲得
式(5.12)により求められた時刻tにおける類似度の閾値2i
(t) は,クラスタリングの際 の閾値にも対応する.つまり,言語の異なるエージェントと接した場合,コミュニケーショ ンが成立せず,その閾値は低下する.これに対応して,クラスタリングの閾値が下がり,こ れまで持っていなかった語彙を獲得しやすくなる.新しい語彙を獲得し,それをコミュニ ケーションに用いることで,閾値を大きく上昇させることが可能となり,徐々に確実なコ ミュニケーションが可能となっていく.このプロセスを本モデルでは,語彙獲得の過程と みなす.
本モデルの手法のように,「意味」を直接的に扱わないのでは,語彙を獲得してもコミュ ニケーションには役に立たないと考えるかもしれない.しかし,Karovらの研究[20]でも,
機械可読式の辞書を併用することで,これらの類似度から語義の曖昧性を解消している.
本モデルにおいても,今後,他のモーダルからの入力を統合処理することにより,本来の
「意味」を表現することは可能であると考える.