社 団法 人 電 子情 報通 信学会
T H EI N S TI T U T EO FE L E C T R O N I C S,
I
NFOR九mTI O NA N DC O L , n l U MC A T I O NE N G I N E E R S
信学技 報
IEICETechnicalReport
N
L C
2005‑76.S
P2005‑109(200か 12)頑 健 な言語理解 のた めの文法 とワー ドスポ ッティングを 併 用 した音 声認識手法の検討
鈴木 貞之
†小暮 悟
†伊藤 敏 彦
‡甲斐 充彦
†小西 達裕
†伊東 幸宏 千
†静 岡大学 〒
43 2
‑8011静 岡県浜松市城北3
̲5̲i‡北海 道 大学 〒
06 0‑ 081 4
北海道 札幌 市北 区北1 4
条西9
丁 目E珊 a i l :
千c s oo 47 @S ・ c s ・ i nf ・ s hi zu ok a ・ a c ・ j p
・千i k o gu r e
,k o n i s hi , i t o hi @i n f ・ s h 主 z u ok a . a c . j p
,†ka i @s ys ・ e n g
・shi z u oka ・ a c 麻
‡t ‑ i t o h@me di a ・ e
ng・ h o k u d
ai ・ a
cJ p
あ らま し 本稿 で は, カーナ ビゲー シ ョンの 目的地設定 をタスクと した 自由発話において,文 レベル での文法制 約 を用 いた音 声認 識 で得 られ る
N‑ b e s t
候補 と・ワー ドスポ ッテ ィングによる音声認識で得 られ る単語 ラテ ィス情報 とを組 み合 わせ ,先行研 究 でのN‑ be s t
候補 か らの音声理解 の枠組みにおける性能改善のため,N‑ b e s t
候補の精度腫 解 候補 の順 位 や含 有 率 な ど)を高 め る手法 を提 案す る・まず, ワー ドスポ ッテ ィングか ら各発話 における単語 の確から しさを計算 し,そ の確 か ら しさの情報 を利用 して,文 レベル での文法制約 による
N‑ b e s t
候補の単語尤度 の上昇や 単語 の交換 等 を行 う・評価 実験 にお いて,特 に,間投詞や未知語が存在す る文において,本手放射 削 、る ことに よ って正解 単語 のN‑ b e s t
候 補 の 出現順位 が上昇 し,本 手法 の有効性 を示せた.キー ワー ド 音 声認 識 , ワー ドスポ ッテ ィング, 自由発話,未知語処理
S pe e c hRe c o g ni t i o nus i ● n gCFGi nc o mb i n a t i o nwi t hWo r dS p o t t i n g
f orRobus tLa ng ua geUnde r s t a nd i ng
SadayukiSUZUKI† sa t or u KOGURE† Tos hi hi koI TOH‡ At s uhi koKAI † Ta t s uhi r oKONI SHIT a nd Yhki hi r oI TOH†
†Shi z u o kaUni ve r s i t y 3 ‑ 5 ‑ 日o ho ku
,Ha ma ma t s u
,Shi z u o k a , 4 3 2 瑠Ol りa p a n
‡ Ho
kka i d oUni v e r s i t y Ki t a ‑ 1 4
,Ni s hi
‑9,Ki t a ‑ k u
,Sa p p o r o
,Ho
kk a i d o
,0 6 0 ‑ 0 81 4J a p a n E‑ ma i l : 千c s OO4 7@S ・ c s ・ i nf ・ s hi z u o k a・ a c ・ j p, 千i k og u r 抽 o ni s 帆i t o hi @i n f . s h i z u ok a . a c 血
†k a i@s y s . e n g. s hi z u ok a . a c . j p
,‡t ‑ i t oh @me d i a . e n g. h o k u da i . a c . j p
Abs t r a c t l nt hi sp a p er
,wepr o p コ O S et h et e c h n i q u ef o ri mp r o vl n gt h eN‑ b e s tc a n d i d a t e sa c c u r a c yl ● naS P , O n t a n e O u Su t t e r a r We b yd e s t i n a t i o ns e t t i n gt a s kw it hc a rna vl ● g a t i o n , c o mbi ni n gt h eN‑ b e s tc a n d i d a t e su s i n gag r a mma t i c a l c o n s 打a i n t
at
sentence an d t
hewo r dl a t t i c eu s l ● n gwo r ds p o t t i ng
,t oi mp r o v ep e r f o r ma n c ei nt h e舟a me wo r ko fs p e e c hu n d e r s t a ・ n d i n g触m撤eN凝 S 濫 c a n di d a t e si ne a r l yr e s e a r c h. Th es ys t e mc a l c ul a t e st h er e l i a bi l i t yo ft h ewo r do fe a c hu t t e r a n c eb yu s i n gt h ewo r だ Ha t t i c e .We u s et her e l i a bi l i t yt or a i s et h ewo r dl i k e l i ho o da n dt oe x c h a n g et h ewo r do ft h eN‑ b e s tc a n d i d a t eb yg r a mma 扇c a l c o n s t r a i n
t・ As ar e s ul to ft h ee v a l u a t i o ne x p e r i me n t
,wer a is et h ea pp ea r a n c eo r d e ri nt h e
〜‑ b l e s tC a n d i d a t eo ft h ec o L r r e C tWo r db yu s 王 ● 噸 鮎S t e c h n i q u ei nt h es e n t e n c ewh e r et h ei n t e r j e c t i o na ndOOVwo r d se x i s t c d・ Wes h o wt h ee f f e c t i v e n ・ e s SO fo u rp mP O 紀dme
血o且I● ■ ̲ I . . . 1 1 + Ke y wor d s pe e c hr e c o g n l t 1 0 n
,wo r ds p o t t i n g
,s p o n t a n e o u su t t e r a n c e
,u n k n o wnw肘dp r o ・ c e S s 丑 n g 1 .
は じめ に近 年 ,音 声認 識 処 理 技 術 の 向上 に よ り, さま ざまな 音 声 対 話 システ ム が 実用 化 され て い る
川.
音 声 鮒話 カ ー ナ ビゲー シ ョンな どは そ の いい例 で あ る.カー ナ ビ ゲー シ ョンシ ステ ム を利 用す る状 況 を考 えた場 合 ,そ の入 力形 式 は リモ コン よ りも,音 声入 力 ・音 声 出力のら現在の音声静織処理技練では,隈騒観 を完 全に回避 す る ことは困難 である.熟騒織が生 じる と, システ ム がユ‑ザの発音 を正 しく理解できないために,蕊‑ 磨 の意 図に反 した動作 ・応答 を行 うことにな る.歴酌結 果 , システムがユーザ 発話を正 しく理解 したff;‑倉 上i; も対話が スム‑ ズに連 窓な くな 腎,ユーザ に不快感 を 与 え るこ とにな る.
先 行 研 究 の カ ー ナ ビゲ ー シ ョ ン に お け る 目的 地 設 定 を タス ク と した 音 声 対 話 シ ス テ ム【51の 研 究 に お い て ,文 レベ ル のN‑best候 補 か ら計 算 され る各 単 語 の信 緯 度 や ユ ー ザ の 発 話 意 図の 推 定 結 果 , 対 話 履 歴 な どを 利 用 す る こ とで 言 語 理 解 精 度 の 向 上 を行 っ て き た ・
この研 究 で は , 発 話 可能 な キ ー ワー ドが 属 す る カテ ゴ リを設 定 して , シ ス テ ム が ユ ー ザ 発 話 の 発 話 タイ プ を推 定 し, カテ ゴ リ レベル で ユ ー ザ 発 話 を正 し く理 解 す る こ とで シス テ ム 全 体 の 精 度 向 上 を 目指 した . しか しな が ら, この 研 究 に お け る 問題 点 と して, 文 レベ ル のN.best候 補 に 出 現 しない 正 解 単 語 は シ ステ ム の理 解 結 果 に含 ま れ な い こ とが挙 げ られ る .
こ の 問 題 へ の 対 応 と して , 本 研 究 で は 文 レベ ル の N‑best候 補 とワー ドス ポ ッテ ィ ン グ に よ る単 語 ラテ ィ ス情 報 を統 合 して ,最 終 的 なN‑best候 補 を生 成 す る こ
とを 目標 と して い る .
そ こで 本 研 究 で は , 文 レベ ル で の 文 法 制 約 を 用 い た 音 声 認 識 器 で は認 識 で きな い , 非 文 で あ るが 発 話 した キー ワー ドが既 知 語 で ある よ うな 発 話 に 対 して , ワー
ドス ポ ッテ ィン グ に よ って 補 完 す る こ とを考 え る . ワー ドス ポ ッテ ィ ン グ とは ,検 出 対 象 の 単 語 に つ い て任 意 の 区 間 で の 音 響 尤度 を 求 め , 当 該 単語 の 存 在 可 能 性 が 高 い 区間 の 開 始 ・終 了 フ レー ム と, そ の 音 響 尤 度 の 三 つ組 か らな る複 数候 補 (単 語 ラ テ ィス)の 情 報 を 出 力 す る音 声認 識 手 法 であ る【2】.音 声 認 識 の 分 野 で は , あ る程 度 大 きな タ ス ク で,か つ そ の タ ス ク(あ る い は そ の タ ス ク に 関連 した タ ス ク )に お け る 大 量 の 対 話 想 定 文 が 用 意 で きる場 合 は ,統 計 情 報 を用 い た bi‑granや tri‑gramを用 い る手 法 が主 流 で あ る .これ らN‑gramを 用 い た 音 声 認 識 は 統 計 情 報 の み を用 い た 認 識 で あ り, 非 文 も認 識 結 果 に 現 れ る可 能 性 が あ る た め, 本 研 究 で は 有 効 な 手 法 の 一 つ で あ る【3,41.しか し,現 在 は カ ー ナ ビゲー シ ョン に お け る 目的 地 設 定 タ ス クの み を想 定 して お り, ま た語 嚢 サ イ ズ 1万 単 語 程 度 を対 象 と して い るの で , それ に 対 応 した 大 量 の 対 話 文 を収 集 す る に は コ ス トが か か りす ぎ る こ とか ら,本 研 究 で はN・gram を用 い る音 声認 識 に つ いて は 対 象 と しな い .
キー ワー ドス ポ ッテ ィン グ を用 い た 単 語 認 識 は , 請 乗 数 や タ ス クが 非 常 に小 さい 場 合 に 有 効 で あ る が , 般 的 に, あ る程 度 大 き な タス ク にお い て は ,CFG等 の 文 法 制 約 を用 い た 音 声 認識 の 方 が , 全 体 の 単 語 正 解 率 は 高 くな る. 文 レベ ル での 文 法 制 約 を用 い た 音 声認 識 で は, 想 定 され た 文 型 の発 話 に 対 して 雑 音 が 付 加 され た デ ー タで あ っ て も, あ る程 度 の認 識 精 度 を 得 る こ と が 可 能 で あ る・ しか し,想 定 され て い な い 文 型 (非 文 ) の 発 話 に対 して は , 発 言古した キ ー ワ ー ドが 語 嚢 内 に 入 っ て い た と して も認 識 され な い 可 能 性 が 高 い . 結 果 と して, 発 話 され た キ ー ワー ドが 認 織 結 果 に 出 現 しな い
可 能 性 が あ る .
本研 究 で は , この 文 レベ ル で Uj文法 制 約 を用 いた 音 声 誰 織 にお け る , 非 文 あ る い は 想 怒 文 型 で あ って も‑
部 が 未 知 語 で あ るた め に 本 来 既 知 猶 で あ る 部 分 の詑 職 に も失 敗 して しま う欠 点 を 補 うた め , 文 レベ ル での 文 法 制 約 に よ り得 られ る N‑best候 補 に 含 まれ る単語 を ,
ワー ドス ポ ッテ ィ ン グの 組 織 結 果 を使 っ て 更 新 す る .
2 .
システ ム概 要本 研 究 で扱 うシ ス テ ム は , 音 声 組 織部, 倍 精 度 生 成 那 , 言 語 理 解 部 , 応 答 分 生 成 部 ,GUI教 示 部 , 音 声 合 成 融 の6つ の構 成 要 寮 か ら成 る . 図 1に シ ステ ムの 構 成 図 を示 す .
音 声 認識 部 で は , 入 力 音 声 を 菅 野 誰 級 して , 音響 的 な尤 度 で順 位 付 け され た 複 数 候 補N‑bestか らな る隠 識 結 果 を信 頼 度 生 成 部 に 渡 す .
借 頼 度 生 成 部 で は, 晋 轡 的 な 尤 度 とN‑best候 補 で の 出現 頻 度 を利 用 して 単 音杏の 値 糖 度 を 生 成 す る. 生成 さ れ た信 頼 度 付 きN‑best候 補 は 常 滑 理 解 部 に 渡 され る .
言 語 理解 部 で は ∴ まず 生 成 され た 値 糖 度 付 きN‑best と対 話 履歴 を利 用 して , 各 単 語 の 単 嘗杏ス コ ア を生成 す る. 次 に, 最 新 発 話 を 含 め た 対 脂 に お い て , 発話 され て きた カテ ゴ リを求 め , そ の カ テ ゴ リ理 解 の 結 果 と対 話 履 歴 か ら発 話 され た 単 語列 (以 下 言 語 理 解 結 果 )を 生 成 す る . 生 成 され た 密 語 理 解 結 果 は 応 答 文 生 成 部 に 渡
され る.
応 答 文 生 成 部 で は , 言 語 理 解 結 果 の 単 語 ス コア に 基 づ い て ,応 答 パ タ‑ ン を 切 り替 え て 応 答 文 を 生 成 す る . 生成 され た応 答 文 は ,GUI教 示 部 ・音 声 合 成 部 ‑ と送
られ る.GUI表 示 部 で は 応 答 文 を 表 示 し, 音 声合 成 部 で は 生 成 され た応 答 文 の 音 声 合 成 を 行 い , ユ ー ザ に音 声 出 力 を行 う.
■音声入力
、′′メ‑章qv毒‑L書Wを・毒^・・・星章蔓.I...圭..I‑‑1.,1\
粛ih
信頼度生成部 ...二irI、1,:‑Ll'、t.:ep、V..I.■ト.r.,一‥.'J).、}・T\L:!..い・・Jrl・○、
言語理解部Hl■HI‑▲‑JJTl・■llJ 一丁 ̀■叩 べ‑.JV'VH';'‑i
応答文生成部 豊 山、I..I‑・▲・‑‑‑日.・‑/‑‑■・・・・.ヽLi・・■Ir.ヽ・.・L・.〜.1.t.l・.〜・..
GUl表示部
● rA'/N〜‑〜+√rr/rJ'*'Fハイ′●●榊′r●■小,rJJJ㌦山.J,〟一l.Jr,'〝■ll.叩J…
状態表示
音声合成部RIH′1rY■■f‑ 蔓1,.…….."…叫….,仰..
∴ ...‥〜;.,.∴ ‥‥了 こ
■ ここ
音声出力 図 1.シ ス テ ム構 成
先 行 研 究 で は , 言 語 理 解 部 で の カ テ ゴ リ理 解 精 度 の 向 上 を実 現 した【5].しか し, これ 以 上 の カ テ ゴ リ理 解 精 度 の 向 上 を 見 込 む こ とは 難 しい こ とが 確 認 され , シ
ス テ ム 理 解 精 度 を Lよ り向 上 させ る た め に は , 単 語
正
解 精 度 や 単 語 ス コ ア UJ)改 密 に 着 手す る必 要 が あ る .そ こ で 本 研 究 で は , 音 声 認 織 部 に お い て 正 解 単 語 を で き る か ぎ りN‑best候 補 に 出 現 させ る こ と, お よび 正 解 単 語 の N‑best出 現 順 位 を 上 位 に 更 新 す る こ と を 目指 す .
3.
提 案 手 法本 研 究 で は, ワー ドス ポ ッテ ィ ン グ を 用 い た 音 声 認 職 結 果 に 出 現 す る キ ‑ ワ‑ ドに 対 して , あ るル ー ル を 適 用 し, 利 周 す る キ ‑ ワ‑ ドの 絞 込 み を 行 う. これ に よ り取 り出 され た キ ‑ ワー ド群 と , 文 レベ ル で の 文 法 制 約 を 用 い た 音 声 組 織 結 果 中 の キ ー ワー ドとを 照 合 L て N‑bestの 更 新 を 行 う こ と で ,頑 健 な 宮 詣 理 解 を 目指 す .
3. 1.
音 声 認 識 器本 研 究 で は , 晋 声 組 織 牌 と して , 塵 橋 技 術 科 学 大 学 の 中 川 研 究 室 で 開 発 され た 日本 静 連 綿 音 声 認 織 シ ス テ ム
SPOJ US回
を 用 い る . 本 研 兜 で 用 い た2
つ の 音 声 認 識 牌 の 特 徴 とそ れ らの 統 合 手 法 に つ い て 以 下 に 示 す .3. 1. I.
文 レベ ル で の文 駄 制 約 を用 い た音 声 認 織文 レベ ル で の 文 捷 制 約 を 用 い た 音 声 誰 織 糖 (以 下 ,
cFG
版SPOJ US)
で は , 督 轡 モ デ ル と して , 出 力 確 率 を 確 率 繊 度 関 数 で あ る ガ ウ ス分 布 で 近 似 した 5状 態 4出 力 の 音 節 rlMMを 用 い る . 単 滑 の 駆 織 に お い で は , そ れ らの 骨 節 目MMを 連 結 した もの を 単 勝 HMM と して 利 用 す る .鼎 終 的 な 昏 声 組 織 結 果 は ,
CFG
に よ る 文 法 制 約 に 沿 っ て 予 測 され る 次 の 単 静 に つ い て の 昏 轡 尤 度 を 次 々 に 求 め , 戯 終 フ レ‑ ム 嘉 で の 誰 織 に お い て , 累 積 の 音 響 ス コ ア が 商 い 順 にN個 の 単 語列がN‑best候 補 と して 得 ら れ る . な お , 本 研 究 で は 20‑bestま で の 誰 職 結 果 を 利 用 し て い る .3. 1. 2.
ス ポ ッテ ィ ン グ に よ る音 声認 識ワ ー ドス ポ ッ テ ィ ン グ を 用 い た 音 声 誰 織 碁 (以 下,
ws
版spoJ US)
で は ,前 述 のCFG版SPOJ US
を 改 良 し, フ レー ム ご と に 単 語 の 確 か ら し さ を 計 策 して い る .文 レベ ル の N・〝・best候 補 が 持 つ 音 響 尤 度 に 対 して , あ る 区 間 (仮 に ,tlフ レー ム か ら t2フ レー ム とす る )に 注 目 した と き ,そ の 区 間 に 単 滑Wが 終 織 され た 確 か ら し さ (どれ だ け , そ の 単 語 ら しい か :Rw)を 求 め る ・ 入 力 音 声 の 開 始 フ レー ム か ら(tl‑I)フ レー ム ま で の 全 体 の 音 響 尤 度 を p‑,入 力 督 声 の 開 始 フ レ‑ ム か らt2フ レー ム ま で の 全 体 の 音 響 尤 度 を P・之とす る . こ の と き , log(P2)‑ log(p‑)が そ の 単 静 の 音 響 尤 度 とな る ・
さ ら に そ の 対 象 区 間 に お い て ,任 意 の 音 節 接 続 を 許 し て 誰 織 を 行 い, 結 果 と して 得 られ た 音 節 列 に よ る 音 響 尤 度 pfreesylと で フ レー ム 正 規 化 され た 尤 度 比 Rwは 次
の 式 で 求 め られ る.
Rw = l o g ( P 2 ト l og ( Pl )‑l og( P
/yL,is,/)t 2
‑gl十1
つ ま り,Rwが0に近 けれ ば近 い ほ ど, そ の 単 語 が 確 か ら しい と判 定 す る・なお Pfrees,,の 定 義 上 ,Rwは 0以 下 とな る .
3. 2.
統合文 レベ ル の N・best候 補 の 情 報 と単語 ラテ ィ ス の情 報 と を 統 合 して ,
N
‑best候 補 の 更 新 を行 うア ル ゴ リズ ム を 図2に 示 す .図2.統 合 ア ル ゴ リズ ム
ま ず , 図 2 の「a.前処 理」で は , 単語 ラテ ィ ス の情 報 に存 在 す る 単 語 情 報 をル ー ル に従 っ て選 出す る .例 を 図3に示 す .
・
'フレームの重なり除去前 フレームの重なり除去後 ミミ
■
店l単 一2.8992竺空002 ′
② 支 129二3二IU朋04C+0029
③支店230‑3.461112e十00ユ9
④ 支店23ト3.931756e+0030 9 支嘩 6
1 支店
* 128‑388‑2.2脚92.0517464C4+0028e+0026 .63息7.,3JBエ31之8拙0 02 5
Rw 症 ) ::.ー@●一㌧l::
・⑤
㊨
③ 画
フレーム 図3.前 処 理
図3車 の ① 〜⑥ の単語 は 全 て 同 単 語 名 で あ る が , そ れ ぞ れ 認 識 され た フ レー ム 区 間 の 開 始 フ レー ム や 終 了 フ レ‑ ム , 音 響 尤 度 比 (Rw)な どが 鼎 な る . こ こ で , ①
〜 ④ お よび ⑤ ・⑥ は, そ れ ぞ れ 単 語 の 存 在 す る フ レー ム 区 間 に重 な りが 見 られ る . こ こで , ① 〜 ④ に つ い て
は① の持 つ音響 尤 度 比 が最 大 とな って い る た め , ① が 運 出 され る. 同様 に⑤ ・⑥ につ い て も, ⑥ の 持 っ 音 響 尤 度 比 が最 大 とな っ て い るた め, ⑥ が 選 出 され る .
この よ うに して , フ レー ムの重 な りを 除 去 す る こ と で , 単語境 界 の 嘆 昧 さに捕 らわれ ず に キ ー ワー ドを選 出す る こ とが で き る .
続 いて,図2の「b.各 認 識 結 果 の 単語 情 報 を比 較 ・照 合」の詳 細 を,一図4に示 す .
図4.N・best候 補 中の 単 語 情 報 の 更 新
こ こで は,文 レベ ル で の N・best候 補 に お け る単 語 情 報 と, 単語 ラテ ィス に お け る単語 情 報 とを比 較 ・照 合 す る .
まず ,文 レベ ル のN‑best候 補 に含 まれ る単 語 が 持 つ 開始 ・終 了 フ レー ム と, 単語 ラテ ィス に含 まれ る・単 語 が持 つ 開始 ・終 了 フ レー ムが ,10フ レー ム(約87msec) の誤 差 範 囲 内 で 一 致 す るか ど うか を判 定 す る .
そ の 後 , 単語 ラテ ィス に含 まれ る単語 が 持 っ 音 響 尤 度 比 が 開催 を超 えて いれ ば ,文 レベ ル のN‑best候 補 の 単 語 名 ・音 響 尤 度 と単 語 ラテ ィス の 単 語 名 ・音 響 尤 度 を置 換 す る. ま た , 単 語 ラテ ィス に含 ま れ る 単 語 が 持 つ 音 響 尤度 比 が 闇値 を超 えて い な くて も, そ れ ぞ れ の 単語 名 が‑致 す れ ば , 単 語 ラテ ィ ス に含 まれ る単 語 の
信 頼 度 を文 レベ ル で のN‑best候 補 の 音 響 尤 度 に 加 算 す る .
こ こで ,文 レベ ル のN‑best候 補 と単 語 ラ テ ィ ス の 情 報 とを統 合 す る 際 ,文 レベ ル のN‑best候 補 の 単 語 ス コ ア が 単 語 レベ ル で の 音 響 尤 度 で あ る の に 対 し, 単 語 ラ テ ィス の単 語 ス コ ア が フ レー ム 正 規 化 され た 音 響 尤 度 比 で あ るの で , 単 語 ラテ ィ ス の 音 響 尤 度 比 を シ グモ イ ド関 数 を使 っ て ,0‑ 1の 確 率 空 間 に 変 換 して 利 用 す る こ とを考 え る・ 単 語 ラテ ィ ス の 尤 度 比
R
wに つ い て , 以 下 の 式 を用 い て シ グモ イ ド変 換 を施 す こ とで , 尤 度 比 Rwの確 率 値 で あ る sig(Rw)を 求 め る こ と が で き る . ここ で ,a,b,Cは 定 数 とす る .s i g( R
w)I1‑C 1 +
be‑(Rwa)ま た ,全 て の 単 語 に つ い てsig(Rw)を 求 め る の で は な く,Rwが 闇 値 Rthresh.ldを 超 え る 単 語 に つ い て 信 頼 度 log(sig(Rw))を 求 め ,闇 値 Rthresh。ldを超 え な い 単 語 に つ い て はlog(sig(Rth,eshold))を 求 め る .
以 上 よ り,sig(Rw)の log値 を 単 語 ラ テ ィ ス の 信 緯 度 と して ,文 レベ ル の N‑best候 補 の 音 響 尤 度 に 加 算 (確 率 空 間 で は 掛 け 算 )す る こ とが 可 能 と な る .
た だ し, この ま ま で は い ず れ の 場 合 に も該 当 しな か っ た 文 レベ ル のN‑best候 補 の 音 響 尤 度 に は ,何 の 処 理 も な され な い . す る と, 単 語 ラ テ ィ ス の 信 頼 度 が 加 算 され た 文 レベ ル の.N‑best候 補 の 音 響 尤 度 は ,何 の 処 理 も な され な い 音 響 尤 度 よ りも低 くな る .
そ こで そ の 対 応 と して , 何 の 処 理 も な され な い 単 語 に つ い て は ,logtsig(Rthreshold))を加 算 す る .こ う して , 文 レベ ル の N‑best候 補 に 含 ま れ る 単 語 全 て に 対 して 音 響 尤 度 を更 新 して い る .
4 .
評 価 実 験CFG版 spoJUSとws版 spoJUSとの 併 用 に よ る 有 効 性 を確 認 す る た め に , カ ー ナ ビ ゲ ー シ ョ ン に お け る
目的 地 設 定 を タ ス ク と した 実 験 を行 っ た .
今 回 の実 験 で は ,文 レベ ル のN‑best候 補 に 対 して 単 語 ラ テ ィス の 情 報 を 統 合 した 場 合 の 最 大 誤 り改 善 率 , 単 語 ラテ ィ ス に お け る一 定 条 件 下 で の 正 解 単 語, 文 レ ベ ル のN‑best候 補 に お け る正 解 単 語 の 出 現 順 位 の 変 動 を 対 象 と して 調 査 を行 っ た .
4. 1 .
実験 条 件実 験 で 使 用 した 音 声 デ ー タ に つ い て の 説 明 を 以 下 に 示 す .
まず 発 話 例 に つ い て は , カ ー ナ ビゲ ー シ ョン に お け る 目的 地 設 定 タ ス ク を 前 提 と して , 情 報 系 大 学 学 部 生 ・大 学 院 生 10人 を 対 象 に して 収 集 され た 対 話 例 84 文 を採 用 した .た だ し,この 84文 に は 想 定 され た 文 型
か ら外 れ た 文 (非 文 )や , 認 識 辞 書 に 登 録 され て い な い 単 語 (未 知 語 )も含 ま れ る . ま た , こ の よ うな 非 文 ・未 知諸吾を 含 む 文 を 修 正 して , 文 受 理 率 100% の 発 話 例 68 文 を 用 意 した . さ ら に 84文 と68文 の そ れ ぞ れ に つ い て , 「え〜 」や 「あ の 〜 」と い っ た 間 投 詞 を 含 む タ イ プ を 用 意 し, 計 304発 話 を 用 意 した . こ こ で ,304発 話 に つ い て 9つ の 発 話 分 類 を 行 っ た の で , 表 1に そ の 概 要 を 示 す .
表 1.発 話 分 類
面 短 詞 含 ま な い 含 む
非 文 p.未 知 語 有 り 無 し 有 り 無 し
A
○
‑ ‑ ‑良 ‑
○
‑ ‑C ‑ ‑
○
‑D ‑ ‑ ‑
○
E(‑A+B)
○ ○
‑ ‑F(‑C+D) ‑ ‑
○ ○
G(‑A+C)
○
‑⊂ )
‑H(‑B+D) ‑
○
‑○
I(‑A十B+C+D)
○ ○ ○ ○
発 話 文 に 含 ま れ る 単 語 数 は 1,728単 語 で , 話 者 は 3 名 で あ る . な お , 音 声 デ ー タ の サ ン プ リ ン グ 周 波 数 は Il.025[kHz】で あ る .
ま た 音 声 認 識 器 に つ い て は SPOJUSを 用 い る .CFG 版 spoJUSで 使 用 した 単 語 辞 書 は , 語 嚢 サ イ ズ 9,555 単 語 で ,施 設 名 称 ドメ イ ン が 静 岡 県 を 対 象 と して い る . ws版 SPOJUSで 使 用 し た 単 語 辞 書 は , 語 嚢 サ イ ズ 9,799単 語 で , 施 設 名 称 ドメ イ ン が 静 岡 県 を 対 象 と し て い る .
そ れ ぞ れ の 辞 書 の 語 嚢 サ イ ズ が 異 な る の は ,WS版 spoJUSの 単 語 辞 書 に は ,CFG版 SPOJUSに 登 録 され て い る 単 語 に 加 え , 登 録 され て い る 各 単 語 の 部 分 単 語 も 登 録 して あ る た め で あ る .
4. 2.
実 験 結 果今 回 の 実 験 で 得 られ た 結 果 を 以 下 に 示 す .
4. 2. 1.
最 大 誤 り改 善 率単 語 ラ テ ィ ス の 情 報 を 用 い る こ と で , 文 レベ ル の N‑best候 補 の 単 語 正 解 率 が, 最 大 で ど の 程 度 改 善 す る
こ と が 見 込 め る か に つ い て 調 査 を 行 っ た . 表 2.最 大 誤 り改 善 率
cFG版
正 解 至 正 解 合
計
W
̀S版 正解 188.7/5.184 1189/5184 3076/5184
【36.4ト ーユ.3.0] [59.4】̲̲̲̲ 不 正 解 236/5184 1873/5184 2109/5184
【4.6】 【3.6.01 【40.6】
合 計 21[23/41」510184 ・3062/【59.5Ⅰ0184. ‑ 話 者 3名目か認 識 結 果 に つ い て ,CFG版 SPOJUSに お い て は 認 識 し た 単 語 列 と 正 解 単 語 列 (実 際 に 発 話 され た 文 )と を 照 合 し , 正 解 ・不 正 解 を 判 定 して い る ・
WS
版 spoJUSに お い て は 正 解 単 害酎 業 際 に 発 話 きれ た 単 請 )が 認 識 結 果 に 含 ま れ て い る か い な い か で 判 定 を 行 っ た . そ の 結 果 を 衷2に示 す .
表 2よ り,文 レベ ル のN‑beSt候 補 で 不 正 解 と な っ た 単 語 が ,3,062単 語 あ る . そ の うち , 単 語 ラ テ ィ ス で は 正 解 とな っ た 単 語 が 吊 89単 語 あ る の で , 予 想 され る
WS
版spoJUSで の 最 大 張 り改 蓉 率 は38.8%とな る .4 . 2 . 2.
単語 ラテ ィスの分析WS版 spoJUSを利 用 す る こ とで ,CFG版 spoJUS の 単 語 正 解 率 を 改 善 で き る 可 能 性 が あ る こ と を 確 認 で き た . 次 に , 単 語 ラテ ィス に お け る, 全 単 語 の 音 響 尤 度 比 ご との 正 解 単 語 の割 合 お よび ,
WS
版 spoJUSで 認 識 され た 単 語 フ レー ム長 を 50フ レー ム で 区 切 っ た 場 合 に お け る 正 解 率 を 図5に 示 す . な お , こ こ で 言 う 正 解 率 とは , フ レー ム の 重 な りを除 去 した 総 単 語 数 に お け る , 正 解 単 語 の割 合 を示 す .0.9 0.8 0.7 線 0..6
# 0.5 出 0 .0.0.0.0.4320I
‑‑‑0≦単語フレーム長く50
・ サヤ
「
;
・ 心V‑ト….
ミかこ
' 敏一.
0 . 0
‑0.5 ‑1.0 ‑I.5 ‑コ.0 ‑2.5 ‑3̲図5.正解 率
図5よ り, 全 単 語 ラテ ィ ス の 中 で ,正解 単 語 の 含 ま れ る割 合 が 音 響 尤 度 比 ‑I.0以 上 の 場 合 に お い て 正 解 単 語 の 割 合 が 高 い と推 測 され る . 音 響 尤 度 比 ・1.0以 上 の 単 語 の み を 考 慮 す る と,過 剰 検 出率 は 193.2%と な っ て い る . つ ま り, 本 実験 で 用 い た ス ポ ッテ ィ ン グ の 単 語 候 補 の 持 つ 尤 度 比 の 闇 値 の 設 定 で は , の ペ 発 話 単 語 数 の 約 1.9倍 の 候 補 を含 む 程 度 の 条 件 とな っ て い る . さ らに ,図5か ら分 か る よ うに 単 語 フ レー ム 長 が50フ レ ー ム 以 上 の 場 合 に お い て 正 解 率 が 高 くな っ て い る の で , 本 研 究 で は 音 響 尤 度 比 の 闇 値 を‑1.0, 使 屑 す る 単 語 の 単 語 フ レー ム 長 を50以 上 と した .
4 . 2 . 3.
文 レベ ル の N‑ be s t
候 補 出現順 位 の更 新 単 語 ラテ ィス の 分 析 を も と に 開 催 を設 定 し, 文 レベ ル のN̲best候 補 を 更 新 した .更 新 前 と更 新 後 に お け る 正 解 単 語 の 平 均 出 現 順 位(〜‑best鱗 補 に 含 ま れ る正解
単 語 の , 最 も高 い 順 位 の総 和 に 卸 しで の ,N‑besも陳 婦 に含 まれ る 正 解 単 語 数 )とそ れ らの 差 を 寮3に 示 す ・寮 3中 の ラ ン ク とは ,例 え ば 更 新 前 の 出 現 順 位 が 第 10位 で あ っ た と き, 更 新 後 に 第 5位 に 上 昇 す れ ば 「・5』と な る .単 語 数 は ,出 現 順 位 が 愛 執 した 正 解 単 語 数 で あ る ・ ま た 文 レベ ル の帖 best候 補 に 含 まれ る 単 語 と単 語 ラ
テ イス に含 まれ る単 語 との 置 換 に よ っ て ,N‑best候 補 に 新 規 に 出 現 した 正 解 単 語 数 と そ の 割 合(N‑best候 補 に含 まれ な い正 解 単 語 の総 数 に 対 して の , 新 規 出 現 し た 正 解 単語 数 ),N‑best候 補 か ら欠 落 した 正 解 単 語 数 と そ の割 合(N・best候 補 に 含 ま れ る 正 解 単 語 の 総 数 に 対
して の ,欠 落 した 正 解 単 語 数 )を 表 4に 示 す . 表3.出 現 順 位 の 変 動
発 話 分類 更 新 前 更 新 後 変 動 (ラ ン ク/単 語 数 ) A I.30 I.31 0.01(4/I) B 1.03 I.03 0.00(0/0) C I.49 I.49 0.00(0/0) D I.81 1.80 ‑0.01(‑5/ヱ) E 1.13 I.13 0.00(4/1) F 1.69 I.68 ‑0.01(‑5/2) G I.38 I.38 0.00(4/1) H 1.34 I.33 ‑0.01(‑5/ユ)
表4.単 語 置 換 に よ る 正 解 単 語 の 出 現 と欠 落
発 話 新 規 出現 欠 落
分 類 単 語 数 (割 合 ) 単 語 数 (割 合 ) A 5(0.4%) 日 0.2%) B 0(0.0%) 2(0.2%) D 2(0.6%) 1(0.2%) E 5(0.4%) 3(0.2%) F 6(0.4%), 2('0.2%) H 2(0.6%) 3(0.2%)
表3よ り,発話 パ ター ンD(間 投 詞 含 む, 非 文 ・未 知 語 な し)にお い て,正解 単 語 2単 語 の 出 現 順 位 の 変 動 の 和 が 「づ」とな り, 出現 順 位 を 向 上 す る こ とが で き た . また 発 話パ ター ン A(間 投 詞 含 ま な い ,非 文 ・未 知 語 あ り)にお い て ,正 解 単 語 1単 語 の 出 現 順 位 の 変 動 の 和 が
「4」とな り, 正 解 単 語 の 出 現 順 位 が 低 下 した . 全 体 (秦 中 の 発 話 パ タ ー ン りで は , 正 解 単 語 の 出 現 順 位 が 上 昇 した ・た だ し, 更 新 前 後 のN‑best候 補 の 中 で 正 解 単 語 に該 当す る2,366単語 の な か で , 出 現 順 位 が 変 動 した の は3単語 の み で あ・る .
表4よ り,更 新 前 のN‑best候 補 に 出 現 して い な か っ た 正 解 単 語 に 該 当す る 2,813単 語 の う ち , 更 新 後 の N‑best候 補 で は Il単 語 が 新 た に 正 解 単 語 と して 出 現 した ・ これ らは 発 話 パ ター ン B(間 投 詞 含 ま な い , 非 文 ・未 知 語 な し)を 除 い た 全 て の 発 話 パ タ ー ン で 新 た に 出 現 してお り,い ず れ もN‑best第 1位 の 単 語 と置 換 さ れ て い る・ な お , 発 話 パ タ ー ン B は , 発 話 パ タ ー ン A,B・C,Dの な か で 単 語 正 解 率 が ‑ 番 高 か っ た . 一 方 , 更 新 前 のN‑best候 補 に 出 現 して い た 正 解 単 語 に 該 当 す る2,371単語 の うち,5単 語 が N・best候 補 か ら欠 落 し た ・ い ずれ もN‑best第1位 の 単 語 と置 換 され て い る .
本 結 果 よ り, 間 投 詞 を含 む 発 話 や 非 文 ・未 知 語 の あ る発 話 に対 して, 本 堤 案 手 法 が 有 効 で あ る こ と を確 誰 で き た ・今 後 は , 単 語 ラテ ィ ス に お け る 正 解 単 語 の 割
倉 を 高 め る こ と が 必 要 と な る ・ ま た , 単 語 ラ テ ィ ス に お け る信 糖 度 の 生 成 や , フ レー ム 濃 な りの 除 去 に お け る パ ラ メ ー タ の 調 整 な ど を 行 う こ と で , iE解 単 語 の N‑best候 補 出 現 順 位 の 向 上や 一文 レベ ル の N‑best候 補 に 正 解 単 語 を 新 規 に 出 現 させ る こ と の で き る , 有 効 な 単 語 ラ テ ィ ス を 演 出す る 必 要 が あ る .
5 . ま とめ
頑 健 な 言 語 理 解 の た め の 文 法 と ワ ‑ ドス ポ ッテ ィ ン グ を 併 用 した 音 声 誰 織 手 法 に つ い て 検 討 した . 埠 薬 事 法 で は ,単 滑 ラ テ ィ ス の 情 報 を 文 レベ ル の N‑best候 補 と統 合 す る こ とで ,N‑best候 補 の 正 解 単 語 出 現 順 位 の 上 昇 を行 っ た ・20‑bestで の 正 解 単 猶 班 馴 酎 立の 変 動 を 調 べ , 正 解 単 語 の ラ ン ク が 向 上 した こ と が 確 認 で き た ・ 今 後 は よ り多 くの N‑best候 補 を 対 象 と し て い く.
これ に よ り多 く の 単 語 出 現 順 位 の 変 動 を 確 認 す る こ と が で き る と予 想 され る た め , そ れ に 対 し て 単 語 ラ テ ィ ス の 有 効 性 を確 絡 す る .
ま た ,CFG版 SPOJUSで 用 潜 され て い る CFGか ら, サ ン プ ル 対 話 を 逆 生 成 し, 生 成 され た 擬 似 対 詣 文 を 用 い て bトgram を 学 習 させ , そ れ を 用 い て 統 計 情 報 を 用 い た 音 声 認 織 を 行 い ,文 レベ ル の N‑best候 補 と 単 語 ラ テ ィ ス と も に , 統 計 情 報 に よ る 組 織 結 果 を 用 い た 手 法 に つ い て も検 討 す る .
最 後 に ,
WS
版s
poJUSの 単 語 辞 番 に , 登 録 され て い る各 単 語 の 部 分 単 雷膏(準 キ ー ワ ‑ ド)を 登 録 し, そ の 部 分 単 語 が 認 職 され た 場 合 に , そ の 部 分 単 語 を 含 む 単 語 の 尤 度 を 上 昇 させ る こ と な ど を 検 討 す る 必 要 が あ る .仁射撃宜る理.田す処05安容報201J1ーL 文 献
, ヂ ネ ッ ケ ・マ テ ィ ア ス , "未 知 語 を 許 詣 シ ス テ ム に お け る 対 話 状 態 予 測 ",情 会 研 究 報 軌 2005‑SLp‑057,pp.105‑109, r2】 FrankK SOONG,Wa主‑KitLO,中 村 哲 , "連 続 音 声 認 織 候 補 受 理 / リ ジ ェ ク シ ョ ン の た め の ワ ー ド ス ポ ッテ ィ ン グ 仮 説 検 証 手 法 ", 情 報 処 理 学 会 研 究 報 乳 2003‑SLP・049,pp.287‑292,2003.
【3]駒 谷 和 範 , 鹿 島 博 晶 , 田 中 克 明 , 河 原 達 也 , "檀 合 的 言 語 制 約 に 基 づ く キ ー フ レ ー ズ 検 出 を 用 い た 汎 用 的 な デ ー タ ベ ー ス 検 索 音 声 対 話 プ ラ ッ ト フ ォ ー ム ", 情 報 処 理 学 会 研 究 報 告 , lPSH NL4405018, pp・1333‑1342,2003.
【4]李 晃 呼 ,河 原 達 也 , 堂 下 修 司 , ̀̀単 語 N‑gramと段 階 的 探 索 を 用 い た 大 語 褒 連 続 音 声 認 識 ",情 報 処 理 学 会 研 究 報 軌 1997‑SLp‑016,pp.19‑24,1997・
削 水 野 智 士 , 高 木 浩 吉 , 小 暮 悟 , 甲 斐 充 彦, 伊 藤 敏 彦 , 小 西 達 裕 , 伊 東 幸 宏 , "頑 健 な 意 味 理 解 の た め の 音 声 認 織 信 頼 度 と 対 話 履 歴 を 利 用 し た 発 言舌 意 図 推 定 手 法 ",情 報 処 理 学 会 研 究 報 告 , 2005‑SLp ‑055,pp・77‑82,2005.
[6]中 川 聖 ‑ , 甲 斐 充 慶 , "文 脈 自 由 文 法 制 御 に よ る OnePass型 HMM連 続 音 声 認 織 法 '',電 子 通 信 学 会 論 文 誌 ,vol・J76‑D