ベイズ理論を用いたキー入力の間違い推定法の検討

(1)

ベイズ理論を用いたキー入力の間違い推定法の検討

西村希槻 * 寺澤卓也*

A study on error estimation method of key input using Bayesian theory

Kizuki NISHIMURA* Takuya TERASAWA*

Abstract: In this paper, we proposed and evaluated a novel method to find mistypes in documents based on Bayesian

theory. We considered that the characters entered just before mistyping are factors causing input errors. First, log data of key input is acquired for each user. Next, we obtain only the characters entered just before mistyped characters from the log data then analyze them. Finally, with these parameters, using the Bayes' theorem formula, the probability of mistaking the character immediately after the character which becomes the factor of mistype is calculated for each character. Under the cooperation of students, we confirmed there is a habit of keyboard input that cause mistype for each user, which we supposed for our method. Using documents from students that were made by themselves, we verified our method. Comparing characters that were placed just before mistypes found by eyes in a document and the characters with high probabilities that were calculated for that student by our method produced match rate of 93% in a realistic case.

Keywords: Proofreading Support, Bayes' Theorem, Keyboard input log data analyze, n-gram

1. はじめに近年，PC で数千字の文書を書くことは少なくない．これだけの字数があると，一定量の誤入力が起きることが考えられる．しかし，数千字の中から目視で誤字を検出することは困難である．そのため， PC で文書作成，資料を作成する際には文書校正機能の必要性は高い．ワードプロセッサには，文法的な校正機能が搭載されており，日本語の文法情報が登録された辞書を用いて，文章の文法構造が正しいかチェックしている．したがって文法構造が正しい場合は，単語の打ち間違いや文章中の不自然な位置に入力された文字の校正ができないことがある．その例を図 1 に示す．図 1 ワードプロッセッサによって検出できない誤入力の例（Microsoft Word 2016）図 1 の例は，それぞれ「自動的に、」，「アンドロイドの開発ツールである。」とするはずであったと考えられる．これらは，文法的には正しいと判断された＊ _{東京工科大学大学院バイオ・情報メディア研究科}

Graduate School of Bionics, Computer and Media Sciences, Tokyo University of Technology

ため，誤入力として検出されなかったと考えられる．また，文書の誤りでは，ミスタイプや誤変換といった局所的に現れる誤りのほうが文法的な誤りよりも多いといわれている[1]_{．現在は，ワープロソフト} によっては校正用辞書があり，単語の打ち間違いを校正する機能がある．しかし，単語を入力する際にどの文字を別の文字として打ち間違うことが多いかなど，打ち間違いのパターンを把握した上で，登録する必要がある．例えば，あるユーザが「あと」と入力しようとして「あっと」と入力してしまったとする．この場合，文法構造が正しいと判断されると，これが打ち間違いであると判断されるには，単語の校正辞書に「あっと」が打ち間違いであること，そして正しい単語が「あと」であることが１つのパターンとして登録されている必要がある．そのため，個人ごとの打ち間違いパターンに適応するためには，事前に個人単位でどのように打ち間違えるかなどの詳細な入力間違いパターンを知る必要がある．そこで本研究では，PC で文書作成を行うユーザを対象に，各自にキーボード入力の癖があることを前提に校正用辞書を用いずに，入力間違いを検出する方法を提案する．具体的には，まず，ユーザごとに PC のキーボード入力を一定量取得し解析する．そして打ち間違えたキー入力の直前に入力された文 JeLA学会誌 Vol.19 2019 2019.4.12 採録

(2)

字を取得し，それらの文字ごとに，総入力回数と打ち間違えた文字の直前に出現して，打ち間違いの要因となった回数を解析する．そして，ベイズの定理 [2][3]_{で計算することで，その文字の直後に入力する} 文字がどのくらいの確率で間違いになるかを示す．この手法では，図 1 のようなケースの誤入力の検出が可能になる． 2. 関連研究校正支援については，形態素解析や構文解析を使用するなど自然言語処理を応用した研究が以前から行われている[4]_{．近年では機械学習で推敲などが行} われるようになっており，一般ユーザでも利用できるように API として機能を提供している企業もある [5]_{．また，日本語の読点の位置に明確な基準がない} ことを問題としてあげ，大量の文章の形態素や係り受け，節境界などの情報を分析し，読点の位置に関する統計データから，適切な読点の位置を検出する研究がある[6]_{．この研究ではある程度読点の位置を} 検出できる結果が得られている．また直近では， RNN の１つである LSTM[7]_{の手法を用いて，長期的} かつ連続性を持つデータの学習が可能になり，この連続性の利用が，校正などの分野で注目を集めている．これに関して，パラメータ調整，学習データの選択などの調査が行われている[8]_{．また，この手法} を用いた製品も存在しており実用化されている[9][10]_．一方，我々は，ユーザから得たキー入力ログから，同じユーザの新規文書の打ち間違い箇所を推定する手法を提案した[11]_{．この手法によってある程度打ち} 間違いを検出することができたが，確率が高いほど打ち間違いが存在しやすい傾向があるなどの，相関関係を見つけるまでには至らなかった． 3. 提案手法本研究では，まず確率を算出するためのキー入力を取得する必要がある．そのため，打ち間違えた文字や，BackSpace キーなどによる修正の過程を含んだキー入力全体の取得を行う．ここで本来入力するはずだった正しい文字を「本来文字」，本来文字の代わりに間違えて入力した文字を「誤入力文字」と呼ぶことにする．図 2 本研究の処理の流れ次に，得られたキー入力の中から，打ち間違いを引き起こす要因と考えられる，誤入力文字の直前に入力された英数字のキー入力をローマ字に対応する平仮名もしくは片仮名単位で抽出する．以降，これを「要因文字」と呼ぶ．そして，抽出された数字，文字について，総入力回数と誤入力文字の直前に出現した回数をカウントする．最後にベイズの定理を使用することで，文字ごとに今後その文字が要因文字となるかを確率で示す．そして，その確率の結果を校正対象の文書に適用し，誤入力文字と推定された文字をユーザに提示する．この処理の流れを図 2 に示す． 3.1. キー入力の取得方法キー入力を取得する方法としてキーロガーを用いた．キーロガーは英数字や記号によるキーボードの入力を監視し，入力のログデータを主にテキスト形式などで記録できるソフトウェアである．これを使用し，ユーザから，一定量のキー入力を取得する．ベイズの定理では，少ないデータ量でも，推定はできるが，データ量が増えるほど，推定に関する精度が向上するという特性がある[12]_{．本研究の場合，事} 前のキー入力の取得量がデータ量にあたるため，一定の精度を得るには，ある程度の量を取得する必要性がある．またキーボードの種類が違うなど，入力環境の違いによって，同一人物でも打ち間違いの傾向などが異なってしまう可能性がある．そのため，キー入力（ログデータ）を取得するための入力作業と，校正対象となる文書の作成は同一の入力環境で行う必要がある． 3.2. 打ち間違いの直前の文字の抽出ログデータ内には，Tab キーなど文そのものとは関係のないキーの入力が入っていることが考えられる．そのため，まずログデータから Delete キーと BackSpace キーおよび英数字キー以外のキー入力を取り除く．次に，打ち間違いを抽出する．BackSpace もしくは Delete キーで訂正された文字の直前に入力されたローマ字に対応した平仮名もしくは片仮名に着目する．そのため，ローマ字表記の平仮名もしくは片仮名のように，子音と母音，母音のみで構成されるものと，アルファベットなど 1 文字で処理する英数字に分ける必要がある．それを Python のライブラリを用いたプログラムを作成することで実現した．しかし，このプログラムは単純にログデータのアルファベットを参照し，ローマ字の平仮名と片仮名に対応するかのみで判断しているため，例えば「apple」という単語に関しては最初の「a」を「あ」

(3)

としてしまい，意図通りに取得できない．したがって，ある程度の人間の手による修正は必要である．ローマ字に対応した平仮名もしくは片仮名に分類した後は，要因文字を抽出する．図 3 は「ぴったりの人物」という文の一部分であり「じ」を入力するために本来文字である「J」を入力する際に，誤って「G」と入力してしまっている．この場合，「の」にあたるローマ字表記の要因文字「NO」が本来文字「J」を入力間違えさせてしまった要因になったと考えられ，この場合，要因文字「NO」を取得する．仮に，要因文字を「NO」ではなく，アルファベット単位の「O」にすると，ローマ字の構成上，母音が要因文字になることが多くなり，推定に大幅な偏りが発生する可能性が高いため，ローマ字 1 文字単位の取得を行う．図 3 打ち間違いの直前の文字の取得しかし，BackSpace または Delete が複数回押されることもあるため，その場合の対応策を考える必要もある．図 4 は，BackSpace が 4 回押された例である．「傍聴席」とするため「聴」を「C」，「H」，「O」，「U」と入力しようとして，誤って「S」，「H」，「O」，「U」と入力してしまったものである．この場合，ローマ字表記で「傍」の「う」にあたる要因文字 1 の「U」が誤入力文字 1 の「SHO」を，ローマ字表記で「しょ」にあたる要因文字 2 の「SHO」が，直後にある誤入力文字 2 の「U」と入力間違いをさせた要因文字であると考えられる．しかし，誤入力文字 2 の「U」と本来文字 2 の「U」は同じであることから，「U」は打ち間違いとは考えられない．そのため，ここでは要因文字 1 の「U」のみを取得する．図 4 打ち間違いが複数ある場合以上の処理を行い，要因文字としてローマ字に対応する平仮名もしくは片仮名 1 文字相当のローマ字，あるいは，英単語の末尾などの場合は，英数字のみを取得する． 3.3. 打ち間違えた要因となった文字のカウント要因文字を取得した後，Python のライブラリである gensim[13]_{のクラスの 1 つである Phrases を使用} して，要因文字と誤入力文字をセットにする．これにより，文書中（以降，特定の記載がない限り，「文書」はログを取得した文書を指すものとする）において要因文字が実際に要因となった回数をカウントする． Phrases は本来，分かち書きによって，意図しない部分で切られてしまった単語を一つの単語として扱えるようにするために用いられる．分かち書きする際，名詞などの単語は意図しない部分で区切られてしまう場合がある．そこですべての分かち書きされた単語を参照し，設定した出現回数以上，その単語同士がセットで出現した場合，それらを一つの単語として扱うものである．本研究では，それらの機能を利用し，要因文字と考えられる文字のカウント，そして１回しか打ち間違えていないような，偶発的に打ち間違えてしまったパターンを取り除く処理に使用した． 3.4. ベイズの定理による推定ベイズの定理は，結果を示す数値などの観測データ（結果）から，式を用いて原因を推定するときに用いられる．つまり，結果に対し，因果関係が成り立つ原因を推定する前提で，結果を示す観測データが集まることで適用することができる．応用例として，スパムメールの分類[14]_{のベイジアンフィルタな} どがある．ベイズの定理では，事前に保有しているデータを活用することができ，データ量の増加によって，精度の向上が期待できる．また収集したデータの数が少ない場合においても，求めたいパラメータの値の推定をある程度することができる利点がある．そのため，本研究において，ユーザすべてのデータの統計を参照するのではなく，ユーザごとに対応した結果を算出するにあたって，一定量のデータがない場合でも推定することが可能と判断した．ベイズの定理を用いて推定する場合，まず事前確率を求める必要がある．この事前確率は観測者が観測した結果からもっともらしい確率をあらかじめ設定するものである．この値は通常，確率密度関数といわれる確率分布から決定することが多い[15]_．キー入力の場合は，ユーザごとの複数の文書のキー入力のログデータが集まるにつれ，そのログデータ中の要因文字が文字ごとに文書内で何回出現したかの，もっともらしい事前確率を推定することができる．次に，事前確率を利用し，被験者の文書から取得した実際に要因文字となった文字の出現回数，

(4)

入力した文字の総数などの数値を用いて，式( 1 )で，事後確率𝑃𝑃(𝐵𝐵|𝐴𝐴)を求める． 𝑃𝑃(𝐵𝐵|𝐴𝐴) =𝑃𝑃(𝐴𝐴|𝐵𝐵)𝑃𝑃(𝐵𝐵)_{𝑃𝑃(𝐴𝐴)} … ( 1 ) 𝑃𝑃(𝐵𝐵|𝐴𝐴)を求めることにより，文字ごとに，実際に文書中で要因文字として出現した回数を用いて，校正対象文書内で要因文字として出現する確率を推測できる．式( 1 )の𝑃𝑃(𝐵𝐵)は前述の事前確率である．𝑃𝑃(𝐴𝐴|𝐵𝐵) は同時確率または尤度であり，A と B の両方の事象が起こる場合の確率をさす．𝑃𝑃(𝐴𝐴)は通常，規格化定数と呼ばれ，事後確率の総和が１になるように設定するための定数である． 3.5. 事前確率事前確率の設定方法として，ユーザごとに，要因文字が文書中にどの割合で存在したか，確率密度関数などを使用して事前確率として，あらかじめ設定する必要がある．本研究では，実験において使用したデータが 1 文書の入力ログ１つであったため，１つのデータから事前確率のもっともらしい確率を決定する方法として，3.3 の手法で１つの文書内の文字をカウントした結果を用いて，次の式( 2 )で，事前確率を求めた． 𝑃𝑃(𝐵𝐵)＝文書内の要因文字の総計文書内の総文字数 … ( 2 ) これは，ユーザが文書を作成すると，要因文字がどの程度出現するかを確率化したものである．そして，要因文字と判断した文字の直後には，必ず誤入力文字が出現すると仮定している．また，要因文字が文書内にどのくらいの割合で含まれているかを反映した観測データであるため，要因文字がユーザの校正対象の文書内にどの程度出現するかを推定する確率として適切だと判断した．これは，式( 1 )の𝑃𝑃(𝐵𝐵)にあたる． 3.6. 同時確率次に同時確率である𝑃𝑃(𝐴𝐴|𝐵𝐵)は，3.3 の手法を用いて，式( 3 )で，求めることができる． 𝑃𝑃(𝐴𝐴|𝐵𝐵)＝文書内でその文字が実際に要因文字となった回数文書内の要因文字の総計 … ( 3 ) この場合，いずれかの要因文字が出現する時に，特定の要因文字の直後の文字を打ち間違えた確率になる． 3.7. 規格化定数 𝑃𝑃(𝐴𝐴)は，事後確率の合計を 1 に設定するための定数であり，次の式( 4 )で，求めることができる．

P(A)＝P(B)P(A|B) + P�B�P�A|B� … ( 4 ) これによって推定されたすべての文字の確率を足した際に 1 になるように設定することで，式( 1 )の適切な分母を設定することができる．この場合の 𝑃𝑃�𝐴𝐴|𝐵𝐵�は， 𝑃𝑃�𝐴𝐴|𝐵𝐵�＝1−𝑃𝑃(𝐴𝐴|𝐵𝐵) … ( 5 ) で求められる．つまり，ある 1 つの要因文字ではない要因文字が出現する場合の確率になる．そして，式( 2 ) ，式( 3 )，式( 5 )の計算結果を使用し，式( 4 ) を用いて要因文字ごとに算出したすべての確率を足した際に 1 になるように𝑃𝑃(𝐴𝐴)を設定できる．したがって，これらの数式を要因文字ごとに用いて，文書中において実際に要因文字となった文字の出現回数に応じた確率設定が可能になる． 3.8. 要因文字の入力回数の反映この段階では，文書中において実際に要因文字となった文字の出現回数のみが，反映されており，要因文字の文書内での入力回数が反映されていない．そのため，要因文字が文書内で出現した回数のみが反映された確率になってしまう．このままでは，例えば「j」が文書内で 10 回入力され，3 回要因文字として出現した際の確率と，「k」を文書内で 100 回入力し，3 回要因文字として出現した際の確率は一緒になる．しかし，両者は実際に要因文字となる度合いが異なる．そこで，文字ごとに要因文字を何回入力することで要因文字として出現したかの観測データを使用することにした．式( 6 )がそのデータから要因文字へのなり易さを求める式である． 𝛼𝛼 =文書内でその文字が実際に要因文字となった回数その要因文字の文書内での総入力回数 … ( 6 ) これを，数式( 1 )で算出された確率に式( 7 )のように掛け合わせる． 𝑃𝑃′(𝐵𝐵|𝐴𝐴)＝𝑃𝑃(𝐵𝐵|𝐴𝐴)𝛼𝛼 … ( 7 ) これにより実際に要因文字として出現した回数が同じ文字同士であっても，要因文字の入力回数の影響を掛け合わせ，それを反映させることができる． 𝑃𝑃′(𝐵𝐵|𝐴𝐴)を文字ごとに算出し，今後その文字が打ち間違いを引き起こす確率として使用する． 4. 評価，実験，結果 4.1. 実験概要本研究では，大学生 13 名に協力してもらい実験を行った．この中の 7 名には，キー入力と校正対象の文書を提供してもらった．13 名のタイピング能力の熟練度は，ポジションが確立されており，タッチタイピングができるレベルであった．キーロガーは

(5)

特性上，英数字しか取得できない．IME などの通常のインプットメソッドでは，日本語入力モードでローマ字入力をすると，例えば「KI」は自動的に「き」に変換されてしまうため，修正は１度の BackSpace となり，ログで取得される文字と実際に入力される文字との整合性が取れなくなる．そのため，ローマ字を直接入力モードで入力する形にした．その際，事前の実験で入力時に参照する文章が，ローマ字表記しかされていないと，日本語の感覚で入力できないことがわかった．これは，入力環境面を考慮する上で不適切である．そこで，ローマ字の上に日本語のルビを振ることで，ローマ字と日本語を対応して見られるようにした．また紙媒体を見ながらの入力と PDF ファイルなどの電子媒体を同一画面上で見ながらの入力の実験を行った結果，紙媒体の場合は画面から目を離す，もしくはその逆があるため，入力している箇所が分からなくなる現象が起きた．それらを考慮し図 5 の実験環境を PC 画面上に実現し，被験者に入力してもらった．図 5 実験における PC 上の入力環境被験者にあらかじめ入力してもらう文章のローマ字の入力文字数はアルファベット 10000 文字程度として実験を行った．ベイズの定理においては，明確な標本数が存在しないため，今回は被験者が１時間半で入力できる 10000 文字程度とした．入力する文書の特性として，今回は「＃」のような Shift キーを押しながら記号を入力するキーは使用しないようにし，数字，Shift キーを押さず入力できる記号，日本語に対応したローマ字，日本語では使用頻度の低いキーを使用してもらうため英字略語を対象とした．日本語のニュースサイトの文章がそれに該当したため，これをローマ字化しルビをローマ字の上に振ることで被験者の入力テキストを作成した．そして，被験者が使用できるキーは文字キー，括弧や句読点などの記号キー，そして BackSpace キー，Delete キーに限定し，キーロガーで取得できない文字をなくした．次に，あらかじめ提供してもらった校正対象文書から目視で誤入力箇所の検出を行った．そして，検出した誤入力箇所の直前に存在する，要因文字を検出した．最後に，10000 文字の文書を本研究の手法により解析して推定した要因文字の中に，目視で検出した箇所の要因文字が含まれているかを検証した．図 6 に 13 名の収集したログデータの言語，時期，入力時に参照した文書の環境を示す． 4.2. 癖が要因文字に与える影響の調査 4.2.1. 概要今回の手法を，我々が以前検証した時点[16]_では，要因文字の出現傾向にキー入力の「癖」が影響しているかは不明確であった．これについて，被験者ごとに要因文字の出現傾向が同じであれば，何らかの癖が存在し，それが入力ミスに影響すると仮定し，調査を行った．検証するにあたり，事前に取得した図 6 の被験者 A，B，G，H のログデータを使用し，以下の 3 つの調査を行った．図 6 調査における被験者リスト比較 1：同じアルファベットで構成される英語とローマ字では違いが生じないと考え，英語テキストとローマ字のみのテキストの調査を被験者 4 名（被験者 A，被験者 B，被験者 G，被験者 H）に実施した．比較 2：期間をあけることで要因文字の出現傾向が変化するかを調査するため，間をあけて取得したローマ字ルビありのデータについて比較した．1 名（被験者 B）から取得した 1 月のローマ字ルビありの結果，7 月のローマ字ルビありの結果を比較した．比較 3：取得するごとに要因文字の出現傾向が変化するかを調査するため，時間を置かずに同じ分量，同じ英文テキスト，同じ環境で入力すると同じ結果が得られるか，2 名（被験者 G，被験者 H）で検証した．時間は 1 日あけた．

MS Word への入力

例文 PDF の表示

(6)

4.2.2. 調査結果まず，英語テキストとローマ字テキストの入力で調査した比較 1 の 4 名（被験者 A，被験者 B，被験者 G，被験者 H）の結果を記述する．ある程度タイピングの熟練度が高いと，要因文字の出現回数の多少の増減はあるが，出現する文字が同じである傾向があった．そのため，英語とローマ字の場合で要因文字の出現傾向に変わりがないことから，キー入力の癖があり，それが原因で出現していることがうかがえる．次に，比較 2 で調査した 1 名（被験者 B）の結果について記述する．1 月と 7 月のデータに共通して存在する要因文字の割合は７割であり，共通して存在する要因文字は，それほど大きく変化しなかった．そのため，ある程度のタイピングの熟練度があれば期間をあけても癖は変化しないものと判断できる．最後に，比較 3 で調査した 2 名（被験者 G，被験者 H）の結果を記述する．特にタイピングの熟練度が高いと考えられる被験者 H からは，2 回のデータで約 95%の共通した要因文字を検出することができた．これら 3 つの結果から，タイピングには各個人の癖があり，その習熟度が高いと少なくとも半年程度では癖は変化しないと言える．そのため，本研究の手法は，タイピングの習熟度が高い人であれば有効であることが確認された． 4.3. 実験結果と評価まず実験日と，提供してもらった校正対象文書の作成日が近く，それがユーザ自身でほとんど校正を行っていない文書であり，特に誤入力文字が多かった被験者１名（被験者 M）の解説を行う．まず，本研究で取得した被験者 M の 10000 文字程度の入力ログから，１回しか出現しない偶発的と考えられる誤入力の場合は削除した上で，要因文字と推定された文字と，今後，要因文字となりうる確率，実際に要因となっていた回数，要因文字の総入力回数を表 1 に示す（確率が高い文字から降順にソートしている）．表 1 取得したログからの推定結果（被験者 M）打ち間違いの要因となった直前の文字今後打ち間違いの要因となりうる確率ログ内で打ち間違いの直前に出現した回数ログ内で入力された総入力回数ｊ 0.010526316 2 4 ｓ 0.004678363 2 9 う 0.00426983 12 355 じゅ 0.002631579 2 16 い 0.00215311 9 396 か 0.001691729 6 224 ば 0.001684211 2 25 ら 0.001199201 3 79 る 0.000937989 3 101 っ（子音２回） 0.000937989 3 101 や 0.000935673 2 45 た 0.000859291 4 196 。 0.000838379 3 113 き 0.000823799 3 115 も 0.000725953 2 58 く 0.000627396 3 151 と 0.000595829 3 159 り 0.00056899 2 74 が 0.000421053 2 100 に 0.000316581 2 133 し(shi) 0.000273411 2 154 ん(n) 0.000180709 2 233 次に，同じ被験者 M の作成した校正対象文書（3200 文字程度）から，目視で検出した要因文字と，その文字が要因文字として，表 1 中に存在するかを検証した結果を表 2 に示す．これを「う」の例で説明する．まず，ログ内で実際に要因文字となっていた文字の確率を算出した結果，「う」は０以外の値が算出されたため，今後要因文字になる可能性がある文字と「推定」される．これにより，「う」は表 1 に掲載されている．次に，「う」は校正対象文書内で要因文字になっていることが確認されている．したがって，表 2 に掲載されている．表 2 中の「う」が，要因文字と推定される文字のリストである表 1 に存在しているので推定は当たり，実際に「検出」できたとして，表 2 では「◯」としている．以降，ログ中のある文字が実際に要因文字となる確率をベイズの定理を用いて算出した結果，0 以外の値が算出されることを要因文字として「推定」されたと表現する．そして校正対象文書で，目視で実際に要因文字になっていた文字が，推定された文字の中に存在していれば，その文字，あるいは，それによる誤入力を「検出」できたと表現する．表 2 校正対象文章中から目視で検出された要因文字（被験者 M）目視で検出した打ち間違いの要因になった文字その文字が表 1 に存在するか文書内で要因文字として出現した回数、 × 1 る ◯ 3 や ◯ 1 く ◯ 1 い ◯ 4 う ◯ 3 た ◯ 1 以上から，この１名に関しては「、」を除いた要因文字を検出することができた．検出できなかった文字は校正対象文書中の「もはやインターネット意識せずともそこにあり，に常時接続可能な状態ということから」という文に存在する「に」の前の「、」である．この理由として考えられるのは以下のようなシナリオである．ユーザが文書を作成した直後には「、に」の位置にもっとフレーズが存在しており，その後にユーザ自身が BackSpace キーを使用して「、」と「に」の間に存在していた文の一部分を削除する

(7)

という，ユーザ自身の校正が行われた．そのため，目視で打ち間違いと判断した「に」と打ち間違いの要因と考えた「、」には入力時の連続的な前後関係がないため本手法では推定できなかったと考えられる．本手法によって算出された表 1 の推定結果と，実際にその要因文字が校正対象文書内で，打ち間違いにつながった回数との関係を図 7 に示す．図 7 推定された要因文字と直後に打ち間違えが見つかった回数の関係図 7 のグラフは，より上の文字の方が実際に打ち間違いにつながった回数が多い，三角形状の結果になることが期待された．今回の結果はその傾向が見てとれ，本手法の有効性を示している．確率が最も高い 2 種の文字の直後に打ち間違いが生じなかった理由として，ログを取得するための文書内で入力する回数が少なかったことが考えられる．表 1 の結果から，特に「j」は，ログ内で 2 回要因文字として出現しているが，4 回しか入力されていない．そのため確率を算出して推定を行っているが，精度面ではあまりよくないことが考えられる．「s」に関しても要因文字として出現した回数が２回であり，入力された回数が 9 回であるため同様のことが言える．つまり要因文字の入力回数が極端に少ないことによって十分な推定ができないことがわかる．したがって， 10000 文字の入力ログは，必ずしも十分な量とは言えず，入力内容を多様化し量も増やす必要がある．一方，ログ内で入力回数が多く，推定確率が高い「か」の後に誤入力文字が出現しなかったのは，被験者 M の校正対象文書が 3200 文字程度であり，字数が少なかったことが原因と考えられる．このため，校正対象文書の字数がもっと多ければ，出現するものと考えられる．最後に他の被験者 6 名（B，E，I，J，K，L）の結果を表 3 に示す．検出できた場合は「◯」，できなかった場合は「×」，偶発的と判断されたが検出できた文字は「△」として，検出の可否を記述している．偶発的な誤入力は，本研究の手法では検出できないものとしているため確率は記載していない．表 3 の校正対象文書内で要因文字として出現した文字ごとの回数については，被験者 L の「る」のみが 2 回であり，その他の文字が出現した回数は 1 回である．表 3 被験者 B，E，I，J，K，L の実験結果被験者名校正対象文書中で見つかった要因文字被験者ごとの検出結果今後打ち間違いの要因となりうる確率ログ内で打ち間違いの直前に出現した回数ログ内で入力された総入力回数被験者B ｈ × ｓ ◯ 0.004678363 2 9 じ × う ◯ 0.00426983 12 355 被験者E 、 △ 1 122 被験者I も ◯ 0.000851323 2 58 ら ◯ 0.000940852 3 79 う ◯ 0.000833964 12 355 被験者J こ △ 1 91 き ◯ 0.000823799 3 115 に ◯ 0.000316581 2 133 被験者K ｐ × か ◯ 0.001691729 6 224 被験者L る ◯ 0.000937989 3 101 まず，検出できなかった文字として，被験者Bの「h」，被験者 K の「p」は，英語の単語の打ち間違いであった．今回ログで取得した文字は，ほぼすべて日本語であることから，日本語の入力データからは英語の打ち間違いを正しく推定することができないと考えられる．次に，被験者 B の「じ」は「その中でも、同じの間違いが何回存在したら、」という文であった．これは，「の」が誤入力文字で，「じ」が要因文字であるが，この場合の「の」は格助詞である可能性が高い．そのため，被験者 M の校正対象文書で検出できなかった「、」と同じで，「じの」の位置に元々，フレーズが存在しており，作成した後にユーザ自身の校正が行われたため，入力時の連続的な前後関係がないと考えられる．被験者 E の「、」と被験者 J の「こ」は，それぞれ校正対象文書の文字数が約 1200 文字，2500 文字程度であり，文字数が少ないため検出できなかったと考えられる．データの傾向として，被験者 J の「に」，この 6 人より先に解説した被験者 M の「く」以外は比較的確率が高い文字が，要因文字になる傾向がある．被験者７名の結果から，ユーザごとにキー入力のログを取得することで，本人の新規文書中の誤入力文字がある程度検出できると実証できた．本手法がどの程度の検出性能を持つかを，ログ内確率高

(8)

で推定した文字が，どの程度，目視で校正対象文書から検出した要因文字の中に含まれているかの割合で評価した．具体的には、被験者 M を例にとると，表 2 の最も右の列の「校正対象文書内で要因文字として出現した回数」の総数のうち，中央の列で丸がついているものの合計の割合となる．被験者 M の場合は 13/14=約 93%である．同様の計算を他の被験者に対しても行うと，0%1 名，50%2 名，66%1 名， 100%2 名となった。この値のばらつきは，各被験者のタイピングの正確さや校正対象文書の文字量，どの程度校正された状態で提供されたかなどに左右される．今回は表 3 に示すように，M 以外の 6 名から提供を受けた校正対象文書中にはそもそも少数の種類の要因文字がそれぞれ 1 回もしくは 2 回だけ出現していたことが原因であると考えられる．したがって，ある程度の文字数があり，あまり校正されていない初期段階の文書に対しては，本手法は被験者 M の場合のように有効であると考えられる． 5. おわりに 本研究では，ベイズの定理を用いて，誤入力の要因文字を推定する手法を提案し，それを実際に検証することで，性能の評価を行った．また，その前提である誤入力はキー入力の癖が原因で発生している可能性が高いことを明らかにした．本手法は，ある程度の文字数があり，あまり校正されていない初期段階の校正対象文書に対しては，被験者 M における 93％の検出性能のように有効であると考えられる．ベイズの定理の特性から，各個人の大量の入力データが集まることによって，推定の精度向上が望める．その際，定期的に入力データを集めるようにすることで，タイピングの癖の変化にも対応できるものと考えられる．またキー入力のログを取得した文書内で入力が少なかった要因文字は，データ量が増加するに従って，確率の推定精度が向上すると考えられる．今後は，入力ログの量を増やし，精度の向上を実証するとともに，どの程度のログ量が十分なのか検証する必要がある．また，本研究の実験の対象ではなかったが，目視では校正対象文書中の脱字を確認しており，その脱字は要因文字の直後に存在した．そのため，脱字が存在している文書を対象に推定結果を適用させ，実証を行いたいと考えている． 6. 今後の展望 6.1. n-gram の手法を用いた改善本研究では，要因文字の推定から誤入力文字をある程度検出できることが明らかになった．しかし，実際に校正対象文書で見つかった誤入力の直前の文字（要因文字）はログから推定された要因文字と一致する割合が高かったが，これは，校正対象文書中で，ログから推定された要因文字である文字が入力された箇所のすべてで誤入力文字が発生していることを意味するわけではない．実際，文献[11]_ではシェアウェアのエディタを用いて要因文字のハイライト表示を試みたが，対象箇所が多すぎ，実用性に乏しかった．これを改善するため，要因文字を 1 文字だけではなく，複数文字取得することを検討している．例えば本論文の手法では，要因文字が「RA」の場合，すべての「RA」の後に誤入力文字があると推定されてしまう．そこで，「RA」の直前に入力された文字も取得し，同じ「RA」であっても実際に要因文字であるかを区別できるようにする．このように，n-gram を利用することにより，誤検出される誤入力文字を減らせる可能性がある．そして，この手法は，日本語のように分かち書きされず，大規模な語彙を対象とした場合に誤り箇所の指摘に有効な手法である[17]_{．次に，n-gram とマルコフ連鎖}[18]_{を用いる方} 法は，自然言語で書かれた文を評価することができる．これを文書校正に応用した手法として，n-gram 統計データを生成し，マルコフ連鎖確率が連続して落ち込む回数に着目して，誤りを校正する手法がある[19]_{．しかし，推定通りの位置で推定通り落ち込ま} ない場合があると言われている[20]_．そこで本研究では，次のような改良を検討している．まず，ユーザのキー入力から要因文字を上記の n-gram の手法で取得し，文字ごとにベイズの定理で確率を算出する．次に，算出した確率を用いて，要因文字のマルコフ連鎖確率の統計データを作成する．それを校正対象の文書に適用し，確率が高い箇所を校正箇所とすることで，誤入力文字の誤検出の改善を行う． 6.2. キー入力ログの取得法の改善ログの取得に関して，直接入力だけではなく，IME などのインプットメソッドを対象とできる可能性がある．これは，Python のプログラムを改良することで，入力されたローマ字が，どの平仮名に変換されたかを，取得したログ中のアルファベットの並びから判断する．そして，BackSpace の箇所を IME などのインプットメソッドと整合性が取れるように調整することで，平仮名に変換された文字を対象にできる．しかし，IME などのインプットメソッドは，平仮名だけでなく，漢字の変換も含まれている．どの漢字に変換したかを，ログで取得した文字などで判断するのは困難である．したがって，取得したログの使用以外で判断する別のアプローチを考える必要がある．また，Shift キーなどのキーは，キーロガーによって取得できることから，アルファベットの大文字などの Shift キーを押しながら入力する文字は Python のプログラムの改良で対応できる．今後は，実用性を高めた検証を行うため，IME などのインプットメソッド，Shift キーを押して入力される文字を対象とした実験を行う．入力ログを増やすことに関しては，様々な種類の文章をより多く取得するため，仮に個人の日常的なキーボード入力を安全に継続的に取得できることが可能であれば，精度が向上すると考えられる．例として，OS レベルで取得を行い，ワープロソフトやメールソフト，Web ブラウザなどに本研究の手法による推定結果が利用できれば，プラグイン程度の実装でこれらのソフトの入力支援・校正機能を向上させられる可能性が高いと考えられる．

(9)

参考文献 [1] 鈴木恵美子，武田浩一，藤崎哲之助，日本語文書校正支援システム CRITAC，情報処理学会研究会報告ヒューマンコンピュータインタラクション(HCI) 1986(57(1986-HI-008))，pp.1-9(1986) [2] 岩波データサイエンス刊行委員会，岩波データサイエンス vol.1，岩波書店(2015) [3] ベイズ推論による機械学習入門，須山敦志，杉山将，講談社(2017) [4] 池原悟，小原永，高木伸一郎，文書校正支援システムにおける自然言語処理，情報処理学会情報処理 vol.34 No.10，pp.1249-1258(1993) [5] A3RT，(株式会社リクルートテクノロジーズ)： https://a3rt.recruit-tech.co.jp/ [6] 村田匡輝，大野誠寛，松原茂樹，日本語テキストにおける読点位置の検出，言語処理学会第 16 回年次大会発表論文集，pp.812-815(2010) [7] S. Hochreiter, J. Schmidhuber, Long

short-term memory. Neural computation, 9(8), pp.1735-1780(1997) [8] 中島寛人，山田剛，誤り文の自動生成による校正エンジンの学習，言語処理学会第 24 回年次大会発表論文集，pp.1272-1275(2018) [9] 文賢，(株式会社ウェブライダー)： https://blog.bun-ken.net

[10] DATUM STUDIO，(DATUM STUDIO 株式会社)：https://datumstudio.jp [11] 西村希槻，寺澤卓也，キー入力の癖に基づく入力間違い推定法の検討，情報処理学会第 79 回全国大会講演論文集，pp.611-612(2017) [12] 岩崎篤，吉永博之，ベイズ統計を用いた回帰係数分布の更新による損傷同定モデルの高精度化，日本機械学会論文誌(A 編)77 巻 783 号， pp.95-105(2011) [13] gensim，(Radim Řehůřek)： https://radimrehurek.com/gensim/ [14] 田端利弘，SPAM メールフィルタリング：ベイジアンフィルタの解説，情報科学技術協会情報の科学と技術 56 巻 10 号，pp.464-468(2006) [15] 辻義之，田中宏彦，大野哲靖，確率密度関数とその応用，プラズマ・核融合学会誌 = Journal of plasma and fusion research， pp.665-673(2009) [16] 西村希槻，寺澤卓也，キー入力の癖に基づく入力間違い推定法の検討，日本 e-Learning 学会 2017 年度学術講演会，pp.55-61(2017) [17] 河田岳大，工藤峰一，外山淳，中村篤洋，両方向 N-gram 確率を用いた誤り文字検出法，電子情報通信学会論文誌 D-Ⅱ Vol.J88 No.3， pp.629-635(2005) [18] 小高知宏，はじめての AI プログラミング C 言語で作る人工知能と人工無能，オーム社(2006) [19] 荒木哲郎，池原悟，塚原信幸，小松康則，田川崇史，橋本憲久，m 重マルコフ連鎖モデルを用いた日本語文の誤字，脱落，挿入誤り文字列の検出と訂正法，電子情報処理学会論文誌 D-II Vol.J83-D-D-II No.6，pp.1516–1528(2000) [20] 荒木哲郎，池原悟，佐藤政伸，榮代正男，マルコフ連鎖モデルを用いた日本語文の置換型，挿入型及び脱落型誤りの検出・訂正法の改善，電子情報通信学会論文誌 D–II Vol. J85-D-II No. 1，pp.66–78(2002)

[著者紹介]

1994 年慶應義塾大学大学大学院理工学研究科博士課程単位取得満期退学．1994 年東京工科大学工学部講師．1996 年博士（工学）．現在，同大学メディア学部および大学院バイオ・情報メディア研究科教授．コンピュータネットワーク、IoT、AI、テキスト処理、並列分散処理等の研究に従事．情報処理学会，電子情報通信学会，ACM，IEEE 各会員 2017 年東京工科大学メディア学部メディア学科卒業， 2017 年同大学大学院バイオ・情報メディア研究科メディアサイエンス専攻修士課程入学，テキスト処理、機械学習等に興味を持つ．日本 e-Learning 学会，情報処理学会の学生会員寺澤卓也（非会員）西村希槻（学生会員）

ベイズ理論を用いたキー入力の間違い推定法の検討