携帯端末向けWeb検索手法の有効性について
6
0
0
全文
(2) 表 1: 数字キーとかな文字の対応関係. 1:あいうえおー 4:たちつてとっ 7:まみむめも *:( 半)濁音. 2:かきくけこ 5:なにぬねの 8:やゆよゃゅょ 0:わをん. 表 2: 数字キーとアルファベットの対応関係. 可能なキーの数が必然的に制限される.一般 的な携帯電話においては,0∼9,*,#の 12 個の キーが装備されており,この 12 キーを用いて 検索キーワードの入力が行われる.当然,キー ワードとして用いられる文字の種類は 12 種類 以上存在するので,このような少数のキーを 用いて文字を入力するためには,独特の入力 方式が必要となる.. 1: 4:GHI 7:PQRS. 現在,携帯電話での文字入力に広く一般に 用いられている手法は,文字循環指定方式と 呼ばれるものである.この入力方式において は,1 つのキーに複数の文字を割り当て,それ を押す回数により文字を明示する.かな文字, アルファベットの各数字キーへの割り当てを表 1, 2 に示す.例えば,日本語において「に」と いうかな文字を入力するためには,数字キー 「 5 」を 2 回押す必要がある.よって, 「にほん」 という 3 文字のかな文字列を入力するために, この入力方式においては,2+5+3=10 の打鍵 数が必要となる.さらに,日本語とアルファ ベットのように異なる文字種の文字を入力す る場合には,これらを切り替える必要があり, 入力操作が煩雑となる.このように 1 文字の入 力に複数回の打鍵が必要となることから,複 数のキーワード を迅速に入力することは困難 であると考えられる. そこで,迅速な Web 検索を可能とするため に,文字列の情報を縮退して入力を行い,こ れから直接検索を行う Web 検索手法を提案す る.本手法においては,文字列の迅速な入力 を可能とするために,少数のキーのみを用い て 1 文字につき 1 打で入力が可能な文字情報 縮退方式1 [1] を採用している.これにより,例 えば「にほん 」というかな文字列を入力する 場合,文字循環指定方式では,2+5+3=10 の 打鍵数が必要なのに対し ,文字情報縮退方式 1. 3:さしすせそ 6:はひふへほ 9:らりるれろ #:句読点. 2:ABC 5:JKL 8:TUV. 3:DEF 6:MNO 9:WXYZ. では,1+1+1=3 の打鍵数で入力が完了する. このようにして迅速な入力が可能となる反面, 1 文字につき 1 打で入力された数字列は多くの あいまいさを含んでいる.しかしながら,こ のあいまいさは,Web 検索時にシステムによ り自動的に解消する.よって,本手法におい て,使用者は意図したキーワード に対応した 数字列の入力のみを行い,検索処理の過程に おいて,単語の変換等,他の処理を一切行う 必要はない.そのため,検索処理全体として の処理を高速化できるものと考えられる. 本稿では,本手法で用いる入力方式を説明 したうえで,本手法の処理過程を説明し ,さ らに本手法に基づくシステムを作成し実験を 行った結果から,本手法により携帯電話等の 小型端末において Web 検索を高速に行うこと が可能であることを述べる.. キーワード の入力. 2 2.1. 入力方式. 現在,携帯電話での文字入力には,文字循 環指定方式が広く一般に用いられている.こ の入力方式においては,1 文字の入力に複数回 の打鍵が必要となるため,迅速な文字列の入 力は困難である. この問題を解決し ,文字列の迅速な入力を 目指して,主にアルファベットの入力におい ては T9 2 [2] ,日本語入力においては文字情報 縮退方式を採用した文字入力手法が提案され 2. 現在,電話番号自動案内サービスに利用されている.. 開発元は Tegic Communications Inc. である. http://www.tegic.com/. 2 −40−.
(3) 表 3: 本手法における文字の割り当て. 1:あいうえお 1 4:たちつてとっ GHI 4 7:まみむめも PQRS 7 *:(半) 濁点. 2:かきくけこ ABC 2 5:なにぬねの JKL 5 8:やゆよゃゅょ TUV 8 0:わをん 0. ている [3][4].このような手法を利用して検索 キーワードを入力することにより,現在の携帯 電話上で一般的に用いられる文字循環指定方 式に比べて,入力に要する打鍵数を減少させ ることができるものと考えられる.しかしな がら,このような方法により Web 検索を行う 場合,少なくとも数字列からキーワード への 変換処理が必要となる.ここでの目的は Web 検索であり,この処理過程であるキーワード への変換に多くの打鍵数を要することは,処 理全体としての速度低下につながるものと考 えられる.. 3:さしすせそ DEF 3 6:はひふへほ MNO 6 9:らりるれろ WXYZ 9 #:空白( 単語区切り). 能である.本手法における各文字の数字キー への割り当てを表 3 に示す.なお,それぞれ の文字種における各文字のキーへの割り当て は,現在広く一般に普及しているものと同様 である.よって,使用者はキーの割り当てを 覚えなおす等,特別な訓練を行うことなく使 用することができるものと考えられる.. 3. 数字列入力による Web 検索手 法. また,最近の携帯電話等では,入力予測機 能 [5][6] を組み込んだ端末も存在している.精 度の高い予測を行うためには,前後の文字列 とのつながりを考慮する必要がある.しかし ながら,Web 検索における検索キーワードは, 普通,単語ごとに入力される.このように,検 索キーワード においては長い単位での入力が 期待できないことから,予測に必要な文脈情 報を得ることは困難であると考えられる.そ こで,本手法においては,1 文字につき 1 打で 入力可能な入力方式を採用している.. 本手法の概念図を図 1 に示す.本手法にお いては,文字情報縮退方式を採用し,1 文字の 入力を 1 打で行うことにより,簡便かつ迅速 に文字列の入力を行うことが可能である.そ して,この入力された数字列をキーワード に 変換することなく,この数字列から直接検索 を行うことにより,高速な Web 検索の実現を 目指している.入力された数字列の変換候補 として複数のキーワードが存在する可能性が あるが,このあいまいさは Web 検索時にキー ワード 同士の共起情報を利用することにより, システム側で自動的に解決する.. 図 1 の例では,使用者が意図した検索キー ワード「岩手」 「県立」 「大学」に対応した数字 各文字のキーへの割り当ては,入力する文 「 2094」 「 4*12*2」を入力している. 列「 104 」 字種ごとに異なっているのが普通である.よっ この数字列に対する変換候補の例を表 4 に示 す.表 4 の例では, て,例えば,アルファベットと日本語文字が 「 岩手」 「県立」 「大学」の 混在した文字列を入力するためには,これら 共起頻度は高い,すなわち,これを検索クエ を切り替えて使用する必要があるので,入力 リーとして Web 検索を行った場合にヒットす 操作が煩雑となり,迅速な入力は困難である. るページ数が多いのに対して, 「 岩手」 「官立」 そこで,この問題を解決するため,本手法に 「同額」や「 インチ」 「県立」 「土井垣」を検索 おいては文字種を混在させて各数字キーに割 クエリーとして Web 検索を行った場合のヒッ り当てることとした.これにより,アルファ ト数は少ない,すなわち,これらの共起頻度 ベットと日本語文字を混在して入力する場合 は低いものと考えられる.よって,このよう であっても,割り当てを切り替える必要がな に Web 検索時のヒット数に基づく共起情報を 利用することにより,使用者が検索キーワー いので,簡便かつ迅速に入力を行うことが可. 2.2. キーへの文字の割り当て. 3 −41−.
(4) 数字列の入力. 104 2094 4*12*2. 数字列の入力 変換候補検索 Web検索. あいまいさの解消 岩手県立大学の Webページ. 検索. Web. 単語辞書. ページの選択 単語学習. 図 1: 数字列入力による Web 検索手法 表 4: 変換候補の例 数字列. 変換候補. 104 2094 4*12*2. 岩手,磐田,インチ 県立,官立,瓦田 同額,大学,土井垣. ド を明示しなくとも,数字列の持つあいまい さを解消可能であると考えられる. このようにして,本手法においては,使用 者によるキーワード の決定処理を省略するこ とにより,検索処理全体としての処理速度の 高速化を目指している.. 4. 処理過程. 本手法の全体の処理過程を図 2 に示す.図 2 に示されるとおり,数字列の入力,変換候補 検索,Web 検索,ページの選択,単語学習の 順に処理が行われる.. 4.1. 数字列の入力. 表 3 の文字の割り当てに従い,1 文字につき 1 打で入力を行う.1 つの数字キーに文字種を 混在させて割り当てているため,使用者は文 字種を意識することなく迅速かつ簡便に入力 を行うことが可能である.複数のキーワード を入力する際には, 「 # 」により区切ることとし ている.. 4.2. 変換候補の検索. 入力された数字列に対応する変換候補を単 語辞書より検索する.検索された変換候補を 用いて Web 検索に用いる検索クエリーを作成. 図 2: 処理過程 する.各数字列に対応する変換候補を or でつ なぎ ,さらにこれらを and で連結することに より,検索クエリーを作成する. 表 4 の例では,検索クエリーは「 (岩手 or 磐 田 or インチ) and (県立 or 官立 or 瓦田) and (同額 or 大学 or 土井垣) 」となり 27 種類の解 釈が可能であるが,このあいまいさは Web 検 索時に解消する.. 4.3. Web 検索. 前述の処理において作成した検索クエリー により Web 検索を行う.複数の変換候補から 生成された検索クエリーの解釈は,多数存在 することになる.しかしながら,Web 検索時 の共起情報,すなわち,ヒット件数により検 索結果を順位付けすることにより,このあい まいさを解消し,意図した Web ページを検索 することができるものと考えられる. 前述の検索クエリーにおいては, 「 岩手 and 県立 and 大学」のヒット数は多いが , 「 岩手 and 官立 and 同額」や「インチ and 県立 and 土井垣」等のヒット数は少ないものと考えら れる.よって,これを順位に反映した検索結 果を出力することにより,使用者は意図した ページを容易に選択することが可能である. な お ,こ こ で は 検 索 エ ン ジ ン と し て Google3 を利用し た.前述の検索クエリーを 検索エンジンに渡し,その結果を Web 検索結 果としている. 3. 4 −42−. http://www.google.com/.
(5) 60%. 表 5: 最後の 5 日間の実験結果. 50%. Web 検索精度 平均解釈数 打鍵数. 43.5[%] (10/23) 10.3 (238/23) 617. 一般的な手法による打鍵数. 662. 40% 精 30% 度 20% 10% 0%. 0. 5. 10. 15. 20 日数. 25. 30. 35. 表 6: 学習後の単語辞書. 40. 単語数. 図 3: Web 検索精度. 4.4. 数字列数 平均重複度. ページの選択. エントロピー 全単語が等確率で出現 した場合のエントロピー. 検索結果には複数のページが含まれている ので,この中から使用者は意図したページを 選択することにより,Web 検索処理が完了す る.なお,システム側では,この選択された Web ページを使用者の嗜好に沿った正解と判 断し ,これから単語の学習を行う.. 4.5. 5.1. 単語学習. 使用者が選択した正解ページから単語を学 習し ,単語辞書に登録する処理である.使用 者が検索に使用するキーワード はある程度限 定されており,類似したキーワード を使用し やすい,という仮定に基づき,本手法におい ては,正解ページから名詞を獲得し ,単語辞 書に登録することとした.そして,これを用 いて次回からの検索を行っていく.このよう にして,検索処理を繰り返し ,使用者に合わ せた単語を学習していくことにより,次第に, その使用者にとっての Web 検索精度を向上さ せることができるものと考えられる. なお,ここでの単語の獲得には,形態素解 析器「茶筌」4 [7] を利用した.正解ページ中の すべての名詞を抽出し ,これらを,読み仮名 に対応する数字列とともに単語辞書に登録し ている.. 評価実験. 本手法の有効性を確認するために,前述の 処理過程に基づいたシステムを作成し ,評価 実験を行った. 4. http://chasen.naist.jp/hiki/ChaSen/. 14.0[bit]. 実験データおよび実験手順. 実験データとして,2005 年 8 月 1 日から著 者が実際に行った 40 日分の Web 検索履歴 181 件を用いた.このデータを用いて,実験システ ムにより 1 件ずつ検索,学習を行っていく.な お,検索に用いられるキーワード は使用者ご とに異なるものと考えられるので,それぞれ の使用者に合わせて学習を行うものとし ,辞 書は空の状態から実験を行っている. 検索結果は 1 ページに 10 件出力されるので, 上位 10 位以内に意図したページがヒットした 場合には,ページを切り替える必要がなく,容 易に意図したページを選択することができる. よって,意図したページが検索結果の 1 ペー ジ中に含まれる,すなわち,上位 10 位以内に 含まれる場合に検索正解とした.検索正解と ならなかった場合には,正し く検索を行うた めに,現在の一般的な入力方式である文字循 環指定方式により完全な検索クエリーを与え, 再度検索を行うこととした.この際の打鍵数 に関しても評価を行った.. 5.2. 5. 16,343 10,377 1.6 12.8[bit]. 実験結果および考察. Web 検索を行った 5 日ごとに評価の集計を 行った.Web 検索精度の推移を図 3 に示す.ま た,最後の 5 日間における Web 検索精度,検 索の際に生成されたクエリーの解釈数,およ び意図したページを得るために要した打鍵数 を表 5 に示す.なお,40 日分の Web 検索を 5 −43−.
(6) 終え,正解ページ中のすべての単語を学習し た結果,生成された単語辞書の情報を表 6 に 示す. 図 3 から分かるとおり,辞書が空の状態か ら徐々に使用者に合わせた単語を学習してい くことにより,次第に検索精度が向上してい る.最終的に 43.5[%] までの上昇が確認され た.検索誤りの大部分は,意図したキーワー ドが辞書に未登録であることに起因していた. よって,検索を繰り返し学習が進むにつれて, さらに精度を向上させることができるものと 考えられる. また,表 5, 6 から分かるとおり,最後の 5 日間 23 件の検索における 1 クエリーあたりの 平均解釈数は 10.3 であり,40 日間の学習後の 辞書における 1 数字列あたりの平均単語重複 度は 1.6 程度となっている.このように,入力 された数字列は多くのあいまいさを含んでい るにも関わらず,Web 検索時にキーワード 同 士の共起情報を利用することにより,このあ いまいさを解消し ,正し く検索を行うことが できている. 結果として,最後の 5 日間において 23 件の 検索を行うのに要した打鍵数は 617 であった. 同様の検索を,現在の一般的な入力方式であ る文字循環指定方式により行った場合に必要 となる打鍵数は 662 であった.よって,本手 法により打鍵数を 9[%] 程度減少させることが でき,本手法により Web 検索を高速に行うこ とが可能であることが確認された.. 6. おわりに. 本稿では,携帯電話等の小型端末上で高速 な Web 検索を可能とする手法を提案した.文 字列の情報を縮退することにより迅速な入力 を可能とし ,入力された数字列から直接 Web 検索を行うことにより,高速な Web 検索の実 現を目指している.入力の際に発生するあい まいさは Web 検索時に解消することにより, 使用者は意図したキーワード に対応した数字 列を入力するだけで Web 検索を行うことが可 能である. 評価実験の結果,現在の一般的な手法であ る文字循環指定方式により入力を行い Web 検 索を行う場合に比べて,同様の結果を得るた. めに要する打鍵数が少ないことが分かり,本 手法の有効性が確認された. なお,今回の実験で使用したデータは 40 日 分であり,これによる検索精度は 44[%] 程度 であった.基本的には,学習データを増やせ ば単語辞書に登録される単語が増大するので, 検索精度も向上するものと考えられる.しか しながら,単純に学習データを増やしていく と,数字列に対する変換候補が増大すること になり,処理量の増加,検索精度の低下を招く ものと考えられる.これを防ぐ ためには,使 用者の検索履歴を考慮し ,辞書に登録されて いる単語に重み付けを行うことなどが考えら れるが,これは今後の課題とする.また,個 人が普段使用する検索キーワード の調査や既 存辞書の利用に関する検討なども,今後行う 予定である.. 参考文献 [1] 佐藤 亨, 東田 正信, 林 智定, 奥 雅博, 村上 仁一, “PB電話機を利用した日本語入力方 式,” 1997 年電子情報通信学会総合大会,D-66, pp.102, March 1997. [2] Cliff Kushler, “AAC USING A REDUCED KEYBOARD,” Proceedings of CSUN98, Los Angeles, March 1998. [3] 松原 雅文, 荒木 健治, 桃内 佳雄, 栃内 香次, “文字情報縮退方式を用いた帰納的学習によ るべた書き文の数字漢字変換手法の有効性に ついて, ” 電子情報通信学会論文誌 D-II, J83D-II, No.2, pp. 690-702, February 2000. [4] 田中 久美子, 犬塚 祐介, 武市 正人, “携帯電話 の 10key を用いた日本語入力 –子音だけで日 本語が入力できるか –, ” 情報処理学会論文誌, Vol.43, No. 10, pp.3087-3096, October 2002. [5] Toshiyuki Masui, “POBox: An Efficient Text Input Method for Handheld and Ubiquitous Computers, ” Proceedings of the International Symposium on Handheld and Ubiquitous Computing (HUC’99), pp. 289300, September 1999. [6] 市村 由美,齋藤 佳美,木村 和広,平川 秀 樹, “入力予測機能を組み込んだ仮名漢字変 換システム, ” 電子情報通信学会論文誌 D-II , Vol.J85-D-II , No.12 , pp.1853-1863, December 2002. [7] 松本 裕治,北内 啓,山下 達雄,平野 善隆, 松田 寛, 高岡 一馬, 浅原 正幸, “日本語形態素 解析システム『茶筌』 version 2.3.3 使用説明 書, ” 奈良先端科学技術大学院大学, August 2003.. 6 E −44−.
(7)
関連したドキュメント
当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文
児童について一緒に考えることが解決への糸口 になるのではないか。④保護者への対応も難し
奥付の記載が西暦の場合にも、一貫性を考えて、 []付きで元号を付した。また、奥付等の数
奥付の記載が西暦の場合にも、一貫性を考えて、 []付きで元号を付した。また、奥付等の数
ASTM E2500-07 ISPE は、2005 年初頭、FDA から奨励され、設備や施設が意図された使用に適しているこ
模擬授業では, 「防災と市民」をテーマにして,防災カードゲームを使用し
15 校地面積、校舎面積の「専用」の欄には、当該大学が専用で使用する面積を記入してください。「共用」の欄には、当該大学が
図および図は本学で運用中の LMS「LUNA」に iPad 版からアクセスしたものである。こ こで示した図からわかるように iPad 版から LUNA にアクセスした画面の「見た目」や使い勝手