• 検索結果がありません。

文字認識を用いた分割表記文字の処理

N/A
N/A
Protected

Academic year: 2021

シェア "文字認識を用いた分割表記文字の処理"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)

愛知県立大学情報科学部 平成30年度 卒業論文要旨

文字認識を用いた分割表記文字の処理

情報科学科 乾 亮 指導教員:山村 毅

1

はじめに

現代社会では,様々な場所に文章が存在し,一般的に新聞や 本などでは,正書法に則った正しい文章が使われている.しか し近年では,LINETwitterなどのSNSが使われるようにな り,そこでは,通常は検閲や校正などは行われないので,様々な 正規でない表現が含まれる文章が使われることがある.

本研究では,インターネットの文章で見られるような分割表 記の文字を含む日本語文章を解析する方法を提案する.

2

分割表記の文字とは

分割表記の文字とは例えば「死」という文字を「歹」と「匕」

に分けて,「おまえ歹匕ねよ」のように,文字を複数の文字に分 割して表記するというものである. これはTwitterなどで暴言 を書き込むときによく使われ,監視に引っかからないように文を 偽装する一つの方法である.このような表記を,本研究では分 割表記文字と呼ぶことにする.

3

提案手法

分割表記文字の部分は,コンピュータの側からは,「誤り」と 同じであるので,これまでの自然言語処理システムで用いられ てきた誤り検出の方法を用いれば,特定することができる(例え

ば,林ら[1]は,bi-gram辞書を利用して漢字変換誤り検出を行

う方法を提案している)

本研究では,文字のbi-gramを利用して,文中から分割表記 文字部分を抽出し,これを画像に変換したあと,文字認識処理を 行なって,分割表記文字を元の文字に変換する.具体的な処理 手順は以下の通りである.

1. 文字のbi-gram辞書をコーパスから計算して用意しておく

2. 入力文のbi-gramを先頭から順に取り出して並べる

3. bi-gram辞書を用いて入力文のbi-gramで低頻度または存 在しないもの(ゼロbi-gram)を検出する

4. 検出されたゼロbi-gramの位置から分割表記文字候補の2 文字を取り出す

5. 取り出した文字をそれぞれ画像にし,サイズや間隔を調整 して一つの画像にする

6. 画像を文字認識し,入力文の対応する位置に戻す

システムの流れを図1に示す. この図の例ではゼロbi-gram を検出した結果,「整王」「王里」「里す」の3つの並んだ部分 が検出されている.次にこれらの結果から,「整王」と「里す」

で挟まれた「王里」を分割表記文字として取り出し,これを画像 に変換,文字認識を行う(「理」となる).最終的には,入力文は

「物を整理する」となった.

4

実験方法

Twitterの文を抜粋して作った100文を対象に,システムで

評価実験を行った.なお,本研究では1文につき分割表記文字 1つの文を対象としている.

1 システムの流れ

5

実験結果と考察

結果を表1,成功した例を以下に示す. 1 評価実験結果 成功した文 失敗した文 合計

69 31 100

早く歹ヒね早く死ね 糸エ白に出る紅白に出る 失敗の内訳を表2,その説明を以下に示す.

2 失敗の内訳

内訳 文数

文字認識の失敗 19

ゼロbi-gram未検出 5

ゼロbi-gramの過剰検出  7 文字認識の失敗

文字認識で,誤った結果が出力されたことによる失敗 ゼロbi-gram未検出

検出で,ゼロbi-gramが見つからなかったことによる失敗

ゼロbi-gramの過剰検出

検出で,分割表記文字でない文字列が誤ってゼロbi-gramとし て検出されたことによる失敗

6

おわりに

本研究では,文字認識を取り入れることで分割表記文字を含 む日本語文章を解析する方法を提案した.文字認識を使うことは 有効ではあったが,検出の仕方,文字認識結果の複数候補の出力 など課題があることがわかった.

今後は,本研究で得られた課題や,1文につき分割表記文字が 2つ以上の文の場合について研究を取り組みたい.

参考文献

[1] 林 秀治,山本 和英: “漏れのない漢字変換誤り検出と誤り可 能性によるレベル分け”,言語処理学会第22回年次大会発表 論文集, pp.1145–1148, 2016

参照

関連したドキュメント

節の構造を取ると主張している。 ( 14b )は T-ing 構文、 ( 14e )は TP 構文である が、 T-en 構文の例はあがっていない。 ( 14a

「文字詞」の定義というわけにはゆかないとこ ろがあるわけである。いま,仮りに上記の如く

睡眠を十分とらないと身体にこたえる 社会的な人とのつき合いは大切にしている

それぞれの絵についてたずねる。手伝ってやったり,時には手伝わないでも,"子どもが正

明治33年8月,小学校令が改正され,それま で,国語科関係では,読書,作文,習字の三教

あれば、その逸脱に対しては N400 が惹起され、 ELAN や P600 は惹起しないと 考えられる。もし、シカの認可処理に統語的処理と意味的処理の両方が関わっ

図表の記載にあたっては、調査票の選択肢の文言を一部省略している場合がある。省略して いない選択肢は、241 ページからの「第 3

神はこのように隠れておられるので、神は隠 れていると言わない宗教はどれも正しくな