3.4.3. 実験結果
図3-9にシミュレーション実験の結果を示す.横軸は,おはようの他に活性化した 単語の数を表し,縦軸は変換順位の確率を表す.1位から6位になるまでの確率は凡 例に示すようにバーの色を変えて表す.
図3-93-93-93-9 シミュレーション実験結果
3.4.4. 考察
図3-9より,「お」から始まるその他の単語が 10個になっても"おはよう"が一位に なる確率は40%を上回っている.現実に"おはよう"を入力することを考えると,前日 に"おやすみ"を入力している可能性が高い.よって,過去最近の入力情報を利用して 予測変化を行う従来手法では,"おはよう"の優先順位は低くなり,前日に"おやすみ"
を入力していた場合には最低でも2位以下となる.単語ツリーを使用した予測変換で は,「お」から始まるその他の単語が10個になっても,"おはよう"の順位が2位以下 になる確率は60%程度である.このことから,従来手法と比較して入力効率が向上す ることが言える.
単語ツリーを使用しても順位が2位以下になる場合,"おは"まで入力すれば"おはよ う"が予測される可能性は高くなる.従来手法では,"おは"まで入力して予測変換した としても,以前入力した"おはぎ","お花見","おはじき"などが優先される可能性も ある.このことからも,目的の語を確定するまでの必要入力数は減少することがわか
3.5. 商品データベースによる実験
3.5.1. 実験概要
入力効率の改善を検証し,従来手法と比較する実験を行った.本システムによる予 測変換を利用した場合と,Google日本語入力[26]のサジェスト機能を利用した場合で,
想定する目的の単語を予測変換した場合の優先順位を比較する.本実験では,使用す るワードツリーの構築のために,総務省が設定する日本標準商品分類(平成2年6月 改定版)[27]を語彙辞書として利用する.日本で流通する商品について以下に示す 10 項目の大分類がある.その中の「食料品,飲料および製造たばこ」(以下,食料品)に は食品を指す約2600個の単語が内包されている.さらに「農産食品」などの7項目 の中分類,さらに「果実」などの小分類が設定されていて,ツリー構造のデータとな っている.ツリー構造の一部を図3-10に示す.
・粗原料及びエネルギー源
・加工基礎材及び中間製品
・生産用設備機器及びエネルギー機器
・輸送用機器
・情報通信機器
・その他の機器
・生活文化用品
・スクラップ及びウェイスト
・分類不能の商品
・食料品,飲料および製造たばこ
・農産食品
・果実
・米殻
・飲料、氷及び製造たばこ
図3-103-103-103-10 日本標準商品分類のツリー構造の一部
本実験では,このデータを元にワードツリーを作成して利用する.ただし,すべて の単語を平仮名として設定する.
3.5.2. 実験方法
食べたいものを聞かれた返答として,"おれんじ"と"りんご"を入力することを想定 する. この二つは「食料品」以下に含まれる.
ワードツリーを利用する場合は,単語"食べ物"の活性化条件を音声認識により満た したものとして,「食料品」で登録されている全単語を活性化させる.Google日本語 入力のサジェスト機能を利用する場合は,事前学習はないものとする.また,2014 年6月10日時点での最新バージョンを利用する.
"おれんじ"を予測変換するために入力する文字(列)は,"お"・"おれ"・"おれん"と 入力する文字数を変えて実験を行う."りんご"の場合も同様に行う.
本手法を用いた予測変換では,変換候補に現れた単語の並び順は,五十音昇順で並 べるものとする.
3.5.3. 実験結果
実験結果を表3-2に示す.表中の予測変換種類では,Google日本語入力を従来手 法,ワードツリー利用を本研究手法と表記する.
Google日本語入力用した場合は,入力文字"お"では"おれんじ"の予測変換が出現せ
ず,変換が不可能だった.ワードツリーを利用した場合は優先順位 27位で予測変換 することが可能である.入力文字"り"からの"りんご"予測変換も同様に,Google日本 語入力では予測変換が不可能であったが,ワードツリーを利用する場合は優先順位13 位で予測変換が可能である.現在の実装では同様の優先度を持つひらがなの単語があ った場合,五十音昇順でソートされるため,"おくら"や"おごのり"などの単語の優先 順位が"おれんじ"よりも高くなる."お"で始まる単語が一般的であることが原因でも ある."り"で始まる単語は,"お"で始まる単語より比較的少ないため,より高い効率 の予測変換が可能であることが言える.
"おれ"まで入力した場合は,Google日本語入力でも優先順位3位で"オレンジ"が予
測変換可能であるが,本ワードツリーの場合では1位で予測変換可能である."りん ご"の場合でも同様の結果が得られている.
表 3-23-23-23-2 日本標準商品分類を利用した実験結果
3.5.4. 考察
実験結果から,従来の予測変換よりも少ない入力文字数で予測変換可能であること が言える.周囲状況に合った適切な単語を,高い優先順位で予測変換することが可能 である.表3-2は,大分類「食料品」以下の単語をすべて活性化させた場合の結果であ る.小分類「果実」の単語を活性化させた場合では, “りんご”が順位1位となるが,
「飲料」以下の「果実飲料」を活性化させた場合は”オレンジ”の順位が1位で予測変 換可能であることを確認した.この結果より,より深い層の単語が活性化することで,
話題の内容により厳密な予測変換が実現可能であることが言える.
本実験では,ワードツリーを利用することによる有用性は示せたが,使用したデー タベースは商品分類の名称を示すものであり,日常会話で一般的に使用する単語とは 言えない.「果実」を活性化させた場合に"オレンジ"が変換候補とならないことも一 般的な予想とは異なり,データベースとして利用するには難点がある.このため,健 常者へのフィードバックも期待できない.この実験では,一般的な単語をより多く含 むデータベースの利用が今後の課題であることが明らかになった.
予測変換種類 入力文字(列)
"お" "おれ" "おれん"
従来手法 未出現 3 1
本研究手法 27 1 1
予測変換種類 入力文字(列)
"り" "りん"
従来手法 未出現 4
本研究手法 13 1