• 検索結果がありません。

シーンテキスト位置の高速検出手法の提案-日本語と英語を対象として-

N/A
N/A
Protected

Academic year: 2021

シェア "シーンテキスト位置の高速検出手法の提案-日本語と英語を対象として-"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

DEIM Forum 2016 E4-3

シーンテキスト位置の高速検出手法の提案

-日本語と英語を対象として-

馬屋原

†1

篠原 正太

†2

山名 早人

†3†4

†1 早稲田大学基幹理工学部 〒169-8555 東京都新宿区大久保 3-4-1

2 早稲田大学基幹理工学研究科 〒169-8555 東京都新宿区大久保 3-4-1

†3 早稲田大学理工学術院〒169-8555 東京都新宿区大久保 3-4-1

4 国立情報学研究科〒101-8430 東京都千代田区一ツ橋 2-1-2

E-mail: †{silversoul, shinohara, yamana}@yama.info.waseda.ac.jp

あらまし 近年,スマートフォンの普及により,いつでもカメラで撮影できる環境にあり,撮影した画像からテ キストなどの情報を得ることは有用である.特に,看板やポスターなどを撮影した情景画像内に含まれるテキスト をシーンテキストと呼び,他言語のテキストが一緒に撮影される場合がある.シーンテキストの位置検出では,周 囲の光や撮影時の角度による陰影,ノイズ,歪みなどの影響が検出精度に大きな影響を与える.従来のシーンテキ スト位置の検出手法では,大量の文字候補領域を検出し,その候補領域の中で文字領域と判断された領域のみを結 合してテキスト領域を検出することから計算量が膨大となっている.本稿では,PC に比較して処理能力の低いスマ ートフォンでのシーンテキスト位置の検出を可能とすることを目指し,多段階クラスタリングによる文字候補領域 の結合手法を提案する.文字候補領域の中心座標に着目したクラスタリングにより非文字領域を削除し,特徴量の 計算コストを抑え,クラスタリングを行う範囲を一定の範囲に限定することで高速化を図る.評価実験では,英語 のみのシーンテキストのデータセットである ICDAR2011 と,日本語と英語が含まれるシーンテキストを用いた. 評価実験の結果,提案手法は既存手法と比べF 値を ICDAR データセットでは 0.028,著者が作成した JEST データ セットでは0.202 向上させ,実行時間はそれぞれ約 6.9,10.1 倍の高速化に成功した. キーワード シーンテキスト,位置検出

1.  は じ め に

現 在 , ス マ ー ト フ ォ ン の 普 及 に よ り 人 々 は 手 軽 に 画 像 の 撮 影 を す る こ と が で き る . 日 常 の 風 景 を 撮 影 し た 画 像 に は テ キ ス ト が 含 ま れ る こ と が あ り , こ れ ら の テ キ ス ト は シ ー ン テ キ ス ト と 呼 ば れ る . 例 え ば , 街 中 の 店 名 の 看 板 や 壁 に 貼 ら れ て い る ポ ス タ ー , 本 の タ イ ト ル , 商 品 の ラ ベ ル な ど が 挙 げ ら れ る . ま た , 日 本 に お い て は , 日 本 語 以 外 に も 英 語 の テ キ ス ト が 含 ま れ る こ と が 多 い . ま た , シ ー ン テ キ ス ト を 読 み 取 る こ と に よ り , ア プ リ ケ ー シ ョ ン へ の 応 用 と し て , 道 案 内 や テ キ ス ト の 翻 訳 , 未 知 の キ ー ワ ー ド の 即 時 検 索 な ど が 挙 げ ら れ る . さ ら に , ド ロ ー ン に 代 表 さ れ る 自 律 移 動 型 ロ ボ ッ ト 制 御 へ の 応 用 も で き る と 考 え ら れ て い る . シ ー ン テ キ ス ト の 位 置 検 出 方 法 は テ ク ス チ ャ ベ ー ス[1]と 文 字 領 域 ベ ー ス [2][3][4]の 2 つ に 分 類 で き る . さ ら に ,文 字 領 域 ベ ー ス の 手 法 は エ ッ ジ ベ ー ス[4],連 結 成 分 ベ ー ス[2],ス ト ロ ー ク ベ ー ス [3]の 3 つ の 手 法 に 分 類 で き る . 近 年 の シ ー ン テ キ ス ト の 位 置 検 出 で は 文 字 領 域 ベ ー ス の 手 法 に 分 類 さ れ る 連 結 成 分 ベ ー ス の 手 法 が 用 い ら れ る 傾 向 に あ る . こ れ は , テ キ ス ト の サ イ ズ や 方 向 , フ ォ ン ト な ど に 依 存 し に く い た め で あ る . し か し , 1 文 字 単 位 で の 文 字 の 領 域 検 出 で は , 候 補 領 域 が 画 像 内 の 文 字 数 と 比 較 し て 過 剰 に 検 出 さ れ る 傾 向 に あ る .し た が っ て ,非 テ キ ス ト 領 域 を 削 除 す る 際 に , 過 剰 に 検 出 さ れ た 領 域 の 特 徴 量 を 効 率 良 く 計 算 す る 必 要 が あ り , 計 算 量 が 膨 大 と な り , 精 度 と 速 度 は ト レ ー ド オ フ の 関 係 に あ る . ま た , リ ア ル タ イ ム に シ ー ン テ キ ス ト の 位 置 を 検 出 す る 手 法[2]は ,文 字 が 1 つ の 連 結 成 分 で 構 成 さ れ て い る こ と を 前 提 と し , 英 語 に 適 し た 手 法 で あ る . し か し な が ら , 日 本 語 の 漢 字 は ア ル フ ァ ベ ッ ト と は 異 な り 複 数 の 部 首 に よ っ て 構 成 さ れ る . 日 本 語 を 対 象 と し た 手 法 [5][6]も 存 在 す る が , こ れ ら に は 前 提 条 件 や 問 題 が 存 在 す る . 例 え ば , 看 板 の 背 景 色 情 報 を 利 用 し た 手 法[5]で は ,前 提 条 件 と し て ,看 板 の 背 景 色 を 既 知 と し て い る . ま た , カ ラ ー 情 報 お よ び 明 度 情 報 を 利 用 し て 作 成 し た2 値 画 像 か ら テ キ ス ト の 文 字 の 連 結 性 を 利 用 す る 手 法[6]で は 実 用 的 な 計 算 時 間 が 得 ら れ な か っ た と 報 告 さ れ て い る . 上 記 の 問 題 を 解 決 す る た め に , 本 稿 で は , 文 字 領 域 に 対 し て 多 段 階 ク ラ ス タ リ ン グ を 行 う こ と で , 日 本 語 と 英 語 を 対 象 と し た シ ー ン テ キ ス ト の 位 置 を 高 速 に 検 出 す る 手 法 を 提 案 す る . ま ず , 文 字 候 補 領 域 を 検 出 す る . こ の と き , 文 字 候 補 領 域 は 先 に 述 べ た 通 り 文 字 の 一 部 を 構 成 す る 可 能 性 が あ る た め ,1 段 階 目 の ク ラ ス タ リ ン グ に よ っ て , 文 字 の 一 部 を 構 成 す る 領 域 を ま と め る こ と で 文 字 候 補 領 域 を 得 る . 次 に ,2 段 階 目 の ク

(2)

ラ ス タ リ ン グ に よ っ て , 複 数 の 文 字 候 補 領 域 を 結 合 す る こ と で テ キ ス ト 領 域 を 検 出 す る . こ の と き , 文 字 候 補 領 域 の 中 心 座 標 に 着 目 し た ク ラ ス タ リ ン グ に よ り , 非 文 字 領 域 を 削 除 し , 特 徴 量 の 計 算 コ ス ト を 抑 え る . さ ら に , ク ラ ス タ リ ン グ を 行 う 範 囲 を 一 定 の 範 囲 に 限 定 す る こ と で 高 速 化 を 図 る . 本 稿 の 構 成 は 以 下 の 通 り で あ る . 第 2 節 に て 関 連 研 究 ,第 3 節 に て 提 案 手 法 に 手 法 に つ い て の 説 明 を 行 う . 第 4 節 に て 評 価 実 験 お よ び 結 果 に つ い て の 考 察 を 行 う . 最 後 に , 第 5 節 に て ま と め る .

2.  関 連 研 究

本 節 で は , 本 研 究 に 関 連 す る 研 究 に つ い て 述 べ る . シ ー ン テ キ ス ト の 検 出 手 法 は テ ク ス チ ャ ベ ー ス と 文 字 領 域 ベ ー ス と そ の 両 方 を 組 み 合 わ せ た ハ イ ブ リ ッ ド 手 法 の 3 種 類 に 分 類 さ れ る .

2.1.  テクスチャベースの手 法

2.1.1.  Gang ら [1]の 手 法

2011 年 に Gang ら [1]は ,テ ク ス チ ャ 特 徴 量 と し て , Histogram of Oriented Gradients(HOG), Mean of Gradients(MG),Local Binary Patterns を 用 い た 手 法 を 提 案 し た . こ れ ら 3 つ の 特 徴 量 を sliding window を 用 い て ,入 力 画 像 の 一 部 の 矩 形 領 域(window)に 注 目 し , そ の 領 域 の 座 標 , サ イ ズ , 比 率 な ど を 変 化 さ せ な が ら , 検 出 器 に か け る こ と で シ ー ン テ キ ス ト の 検 出 を 行 う . Gang ら の 手 法 の 問 題 と し て , 主 に 水 平 方 向 の テ キ ス ト デ ー タ セ ッ ト を 用 い て 学 習 し て い る の で , 水 平 で な い テ キ ス ト の 検 出 が で き な い と 述 べ て い る .つ ま り , 検 出 し た い テ キ ス ト と 同 じ 傾 き を 持 つ テ キ ス ト の 訓 練 デ ー タ を 用 意 し な け れ ば 傾 き に 対 し て 頑 健 な 検 出 が で き な い . ま た , 大 量 の window 毎 に 計 算 し て 評 価 す る 必 要 が あ り , 高 速 な 検 出 に は 不 向 き で あ る .

2.2.  文 字 領 域 ベースの手 法

近 年 の シ ー ン テ キ ス ト の 検 出 手 法 で は 文 字 領 域 ベ ー ス の 手 法 が 用 い ら れ る 傾 向 に あ る . こ の 手 法 で は 1 文 字 単 位 で 文 字 領 域 を 検 出 し , そ の 検 出 し た 複 数 の 文 字 領 域 を 結 合 し て テ キ ス ト 位 置 を 検 出 す る .1 文 字 単 位 で 文 字 領 域 を 検 出 す る 手 法 は エ ッ ジ ベ ー ス , 連 結 成 分 ベ ー ス , ス ト ロ ー ク ベ ー ス の 3 つ の 手 法 に 分 類 で き る .

2.2.1.  エ ッ ジ ベ ー ス の 手 法

Epshtein ら [4]は エ ッ ジ ベ ー ス の 手 法 と し て , 2010 年 に Stroke Width Transform(SWT)を 提 案 し た .SWT は Canny エ ッ ジ 検 出 器 を 用 い て 入 力 画 像 の 画 素 値 を , そ の 画 素 が 含 ま れ て い る ス ト ロ ー ク の 幅 の 値 に 変 換 し て 出 力 す る 局 所 記 述 子 で あ る . SWT に よ っ て 変 換 し た 隣 接 す る 画 素 値 の 差 が 閾 値 以 下 の と き , こ れ ら の 隣 接 す る 画 素 を 同 一 領 域 と す る こ と で , 変 換 処 理 を 行 っ た 画 像 に 対 し て 連 結 成 分 ベ ー ス の 手 法 を 適 用 す る . Epshtein ら の 手 法 の 問 題 と し て ,文 字 の ス ト ロ ー ク 幅 は ほ ぼ 一 定 で あ る と い う 特 徴 と 同 一 の 連 結 成 分 で 構 成 さ れ る 文 字 で あ る こ と を 前 提 と し て い る た め , 日 本 語 の 明 朝 体 や 書 道 フ ォ ン ト な ど で は 前 提 条 件 を 満 た し て い な い . ま た , エ ッ ジ を 利 用 す る た め , 背 景 色 と 文 字 色 が 類 似 し て い る 場 合 の 検 出 は 困 難 と な る .

2.2.2.  連 結 成 分 ベ ー ス の 手 法

連 結 成 分 ベ ー ス の 手 法[2]で は ,文 字 の 各 画 素 は 類 似 し た 値 を 持 つ こ と を 前 提 と し て い る . 類 似 し た 領 域 の 抽 出 で は RGB 色 空 間 , HSV 色 空 間 , グ レ ー ス ケ ー ル の 輝 度 な ど を 用 い る . ま た , 連 結 成 分 ベ ー ス の 手 法 は エ ッ ジ ベ ー ス の 手 法 や ス ト ロ ー ク ベ ー ス の 手 法 と 比 べ て , 効 率 よ く 文 字 単 位 の 領 域 を 検 出 で き る 手 法 で あ る た め , 文 字 認 識 フ ェ ー ズ で の 文 字 単 位 の 分 割 が 容 易 と な る . Neumann ら の 手 法 で は ,ま ず ERs を 用 い て 文 字 候 補 領 域 を 抽 出 す る .ERs と は 連 結 成 分 で あ り ,そ の 連 結 成 分 の 外 側 の 境 界 に 隣 接 す る 画 素 は 内 側 の 画 素 よ り も 高 い 値 ま た は 低 い 値 を 持 つ . 次 に , 文 字 候 補 領 域 の 非 文 字 領 域 を 削 除 す る た め に ,第 1 段 階 の フ ィ ル タ と し てReal AdaBoost,第 2 段 階 の フ ィ ル タ と し て ,SVM の RBF カ ー ネ ル を 用 い る . 最 後 に , 得 ら れ た 文 字 領 域 を 連 結 す る こ と で テ キ ス ト 領 域 を 得 る . Neumann ら の 手 法 の 問 題 と し て , ”i”と ”j”以 外 の ア ル フ ァ ベ ッ ト は 1 つ の 連 結 成 分 で 構 成 さ れ て い る た め , 1 つ の 文 字 は 1 つ の 連 結 成 分 で 構 成 さ れ て い る こ と を 前 提 と し て い る . し た が っ て , 日 本 語 の 漢 字 の よ う に 複 数 の 連 結 成 分 か ら 構 成 さ れ る 文 字 に 対 し て 頑 健 な 手 法 で は な い .

2.2.3.  ス ト ロ ー ク ベ ー ス の 手 法

Liu ら [3]は 2014 年 に エ ッ ジ や 連 結 成 分 よ り も ス ト ロ ー ク の 方 が 文 字 を 構 成 す る 基 本 要 素 で あ る と 考 え ら れ る と し ,difference of Gaussian(Dog) filter を 用 い た 手 法 を 提 案 し た . 具 体 的 に は , 異 な る ス ケ ー ル 毎 に 相 関 2 乗 信 号 幅 w を 設 定 し ,そ の DoG 応 答 を 用 い る こ と で , 文 字 の エ ッ ジ で は な く ス ト ロ ー ク を 抽 出 す る . ま た , 文 字 領 域 を 結 合 し て ,テ キ ス ト 位 置 を 検 出 す る 際 に は , 対 象 と す る 言 語 の 持 つ 固 有 の レ イ ア ウ ト を 利 用 し て い る . 英 語 を 対 象 と し て い る の で ,4 本 の 罫 線 を も と に し た4 つ の ス タ イ ル の カ テ ゴ リ (“a” style, “h” style, “y” style, “f” style)に 分 け ら れ る こ と を 利 用 し て い る .ま た , 英 語 に 加 え て 数 字 も 対 象 で あ る .

(3)

と す る 場 合 に は ア ル フ ァ ベ ッ ト 固 有 の レ イ ア ウ ト を 文 字 領 域 の 結 合 の と き に 使 用 で き な い こ と が 挙 げ ら れ る . ま た , 日 本 語 の よ う に 複 雑 な ス ト ロ ー ク を 持 つ 言 語 に そ の ま ま 適 用 す る こ と は 難 し い .

2.3.  ハイブリッド手 法

テ ク ス チ ャ と 文 字 領 域 ベ ー ス の ハ イ ブ リ ッ ド 手 法 で は , そ れ ぞ れ の 手 法 の 利 点 を 取 り 入 れ る こ と で 検 出 精 度 の 向 上 を 図 る .Tonouchi ら [7]は 2014 年 に テ ク ス チ ャ ベ ー ス の 手 法 と し て sliding window を , 文 字 領 域 ベ ー ス の 手 法 と し て 連 結 成 分 ベ ー ス の 手 法 を 用 い る ハ イ ブ リ ッ ド 手 法 を 提 案 し た . ハ イ ブ リ ッ ド 手 法 で は , sliding window ベ ー ス の 手 法 と 連 結 成 分 ベ ー ス の 手 法 の そ れ ぞ れ か ら 文 字 領 域 を 求 め て , 最 後 に 検 出 し た 領 域 を 統 合 す る . 検 出 し た 領 域 の 統 合 で は , 連 結 成 分 ベ ー ス の 手 法 の 結 果 を 優 先 す る . こ れ は 連 結 成 分 ベ ー ス の 手 法 の 方 が sliding window ベ ー ス の 手 法 と 比 べ て 正 確 な 座 標 を 検 出 で き て い る か ら で あ る . こ の 手 法 の 問 題 と し て は ,sliding window ベ ー ス の 手 法 と 連 結 成 分 ベ ー ス の 手 法 の 2 種 類 の 手 法 を 処 理 す る 必 要 が あ り , 高 速 な 検 出 に は 不 向 き で あ る . ま た , 他 の 手 法 と 同 様 に 文 字 が 1 つ の 連 結 成 分 で 構 成 さ れ て い る こ と が 前 提 で あ る .

3.  多 段 ク ラ ス タ リ ン グ に よ る 文 字 領 域 の 結 合

手 法 の 提 案

3.1.  概 要

本 論 文 で は , 日 本 語 と 英 語 を 対 象 と し た 高 速 な シ ー ン テ キ ス ト の 検 出 を 目 指 し て い る . 提 案 手 法 で は , 従 来 の 研 究 に な ら い ,文 字 領 域 ベ ー ス の 手 法 を 採 用 す る . こ れ は , テ ク ス チ ャ ベ ー ス の 手 法 と 比 較 し て 高 い 精 度 を 得 る こ と が で き る か ら で あ る .次 に ,2.2.2 で 述 べ た よ う に Neumann ら の 手 法 [2]が 英 語 を 対 象 と し て お り , そ の ま ま で は 日 本 語 に 対 応 で き な い 問 題 を 解 決 す る . さ ら に , 領 域 併 合 時 の 処 理 を 効 率 的 に 行 う こ と で , 高 速 な シ ー ン テ キ ス ト の 位 置 検 出 を 実 現 す る . こ こ に ,Neumann ら の 手 法 か ら の 改 良 を 簡 単 に ま と め る .Neumann ら は 文 字 が 基 本 的 に 単 一 の 連 結 成 分 で 構 成 さ れ る こ と を 仮 定 し て い る . し た が っ て , 文 字 候 補 領 域 に 対 し て 多 段 階 ク ラ ス タ リ ン グ を 行 う こ と で , 日 本 語 の よ う に 文 字 が 複 数 の 連 結 成 分 で 構 成 さ れ る 場 合 に 対 応 さ せ る . 多 段 階 ク ラ ス タ リ ン グ を 用 い た シ ス テ ム の 概 要 図 を 図 3.1 に 示 す . エ ッ ジ 検 出 結 果 を ラ ベ リ ン グ す る こ と で 得 ら れ た 文 字 領 域 を A と す る . 1 段 階 目 の ク ラ ス タ リ ン グ に よ っ て , 単 一 の 連 結 成 分 で 構 成 さ れ る 文 字 領 域 ク ラ ス タB と 文 字 の 一 部 を 構 成 す る 領 域 の ク ラ ス タ C に 分 け る .こ こ で ,文 字 の 一 部 を 構 成 す る 領 域 の ク ラ ス タ C か ら 文 字 候 補 領 域 E が 得 ら れ る .次 に ,先 の 単 一 の 連 結 成 分 で 構 成 さ れ る 文 字 領 域 ク ラ ス タB に 属 す る 文 字 候 補 領 域 を D と す る . 2 段 階 目 の ク ラ ス タ リ ン グ に よ っ て , 文 字 候 補 領 域 D, E か ら 文 字 領 域 ク ラ ス タ F を 得 る .最 後 に ,文 字 領 域 ク ラ ス タ F 内 の 同 一 行 の テ キ ス ト を 単 語 毎 に 分 割 す る こ と で テ キ ス ト 領 域 G を 得 る . 図 3.1 シ ス テ ム 概 要 図 こ こ に , 領 域 合 併 時 の 処 理 を ど の よ う に 効 率 的 に 行 う の か を 簡 単 に ま と め る . 複 数 の 文 字 候 補 領 域 の 中 心 座 標 の 配 置 に 着 目 す る こ と で , 複 雑 な 特 徴 量 の 計 算 な し に 文 字 領 域 か ら 適 切 な ク ラ ス タ を 得 る .多 く の 場 合 , 隣 り 合 う よ う に 配 置 さ れ て い る 文 字 の サ イ ズ が 大 き く 異 な る こ と は な い と 考 え ら れ る . し た が っ て , 文 字 候 補 領 域 の 座 標 と サ イ ズ か ら ハ ッ シ ュ 値 を 生 成 し , 同 一 の ハ ッ シ ュ 値 を 持 つ 領 域 同 士 を 比 較 し て 結 合 処 理 を 行 う こ と で 効 率 よ く 領 域 の 合 併 を 行 う . 最 後 に , 本 論 文 で は シ ー ン テ キ ス ト に お い て , 以 下 の よ う な 仮 定 を お く こ と と す る . 仮 定(1) 水 平 方 向 に 配 置 さ れ て い る . 仮 定(2) 一 定 の 高 さ 以 上 で あ る . 仮 定(3) 幅 と 高 さ は 一 定 の 比 率 の 範 囲 内 で あ る . 仮 定(4) 隣 り の 文 字 と エ ッ ジ を 共 有 し て い な い .

(4)

こ こ で , 上 記 の よ う な 仮 定 を お い た 場 合 も , 十 分 実 用 的 で あ る こ と を 説 明 す る . 多 く の 言 語 に お い て , シ ー ン テ キ ス ト は 水 平 方 向 に 配 置 さ れ る こ と が 多 い . 日 本 語 の よ う に 垂 直 方 向 に 配 置 さ れ る こ と も あ る が , 水 平 方 向 の シ ー ン テ キ ス ト の 割 合 の 方 が 多 い た め , 仮 定 (1) を お い た 場 合 で も 十 分 に 情 報 が 得 ら れ る と 考 え ら れ る .仮 定(2),仮 定 (3)は シ ー ン テ キ ス ト の 誤 検 出 を 抑 え る . シ ー ン テ キ ス ト を 撮 影 す る と き に は , 対 象 と す る テ キ ス ト に フ ォ ー カ ス す る こ と が 想 定 さ れ , 提 案 手 法 の 評 価 実 験 に 用 い る ICDAR の デ ー タ セ ッ ト は フ ォ ー カ ス し た シ ー ン テ キ ス ト か ら 構 成 さ れ る こ と か ら , 仮 定(2)は 問 題 な い と 考 え ら れ る .ま た ,シ ー ン テ キ ス ト の 多 く は 固 有 名 詞 や 短 い 文 章 で あ り , 長 い 文 章 で あ る 場 合 は 少 な い . し た が っ て , 検 出 精 度 を 優 先 し す る た め に 仮 定(3)を 設 け た . 提 案 手 法 で は , エ ッ ジ ベ ー ス の 手 法 を 用 い て 文 字 単 位 の 領 域 を 検 出 す る た め 仮 定(4)が 必 要 と な る .仮 定 (4) が 成 り 立 た な い 場 合 の 例 と し て , シ ー ン テ キ ス ト の 文 字 が 小 さ い 場 合 は 文 字 が つ ぶ れ る こ と で , 隣 り 合 う 文 字 と エ ッ ジ が 一 体 化 し て し ま い , 複 数 の 文 字 を 連 結 し た 領 域 を 検 出 し て し ま う . こ の と き , 小 さ い シ ー ン テ キ ス ト は 仮 定(2) に よ っ て 検 出 の 対 象 外 と な っ て い る の で ,仮 定(4)に 反 す る シ ー ン テ キ ス ト の 数 は そ れ ほ ど 多 く な い と 考 え ら れ る .

3.2.  文 字 領 域 の検 出

文 字 領 域 の 検 出 に つ い て 述 べ る .ま ず ,3.2.1 で は 文 字 領 域 を 検 出 す る た め の 前 処 理 を 述 べ ,3.2.2 で は ラ ベ リ ン グ 方 法 に つ い て 述 べ る .

3.2.1.  文 字 領 域 の 検 出 の 前 処 理

文 字 領 域 の 検 出 の 前 処 理 と し て ,Epshtein ら [4]の エ ッ ジ ベ ー ス の 手 法 で あ る SWT と は 異 な り , 近 傍 の 画 素 値 を 用 い た 単 純 な エ ッ ジ 検 出 を 行 う .画 素(𝑥, 𝑦)の 近 傍 の 画 素 値 と し て 横 方 向 の 走 査 で は(𝑥 − 1, 𝑦), 縦 方 向 の 走 査 で は(𝑥, 𝑦 − 1)を 用 い る こ と で , 横 方 向 と 縦 方 向 の エ ッ ジ を そ れ ぞ れ 検 出 す る . こ の と き , 横 と 縦 の そ れ ぞ れ の 方 向 に 関 し て 画 素 値 を 走 査 し , あ る 画 素 と 前 回 の 画 素 の 値 の 差 の 絶 対 値 が 一 定 の 閾 値𝜃),𝜃*以 上 で あ る 場 合 は エ ッ ジ で あ る と す る . 横 方 向 と 縦 方 向 の エ ッ ジ の 和 集 合 に よ っ て 得 ら れ た 画 像 を 次 の 処 理 に 用 い る .ま た ,画 素 値 の 値 と し て YCbCr 色 空 間 の 輝 度 を 表 す𝑌 ∈ [0,255]を 用 い る .

3.2.2.  輪 郭 ラ ベ リ ン グ に よ る 文 字 領 域 の 検 出

検 出 し た エ ッ ジ の 輪 郭 ラ ベ リ ン グ に よ り 文 字 候 補 領 域 を 検 出 す る .Neumann ら [2]の 手 法 の よ う に ERs を 検 出 せ ず に , エ ッ ジ を 用 い た 単 純 な 輪 郭 ラ ベ リ ン グ に よ っ て 文 字 候 補 領 域 を 検 出 す る . 輪 郭 ラ ベ リ ン グ で は ,画 素 の つ な が り を 8 連 結 で 考 え ,画 素 (𝑥, 𝑦)に 隣 接 し て い る 画 素 は(𝑥 ± 1, 𝑦) と (𝑥, 𝑦 ± 1) と  (𝑥 ± 1, 𝑦 ± 1) と (𝑥 ± 1, 𝑦 ∓ 1)と な る . ラ ベ リ ン グ に よ っ て 割 り 当 て ら れ た 番 号 が 同 一 の 画 素 の 集 合 を 考 え る .そ の 画 素 の 集 合 の𝑥座 標 の 最 小 値 𝑥567, 最 大 値𝑥58),𝑦座 標 の 最 小 値 𝑦567, 最 大 値𝑦58)と す る . こ の と き に , 矩 形(𝑥567,  𝑦567, 𝑥58), 𝑦58))を 文 字 候 補 領 域 と す る .

3.3.  文 字 領 域 のクラスタリング手 法

3.3.1.  1 段 階 目 の ク ラ ス タ リ ン グ

1 段 階 目 の ク ラ ス タ リ ン グ で は , 図 3.2 に 示 し た よ う に 単 一 の 連 結 成 分 で 構 成 さ れ る 文 字 領 域 ク ラ ス タ B と 文 字 の 一 部 を 構 成 す る 領 域 の ク ラ ス タ C に 分 け る . ま ず , 単 一 の 連 結 成 分 で 構 成 さ れ る 文 字 領 域 ク ラ ス タ B を 求 め る . そ の 後 に , そ の ク ラ ス タ B に 分 類 さ れ な か っ た 領 域 に 関 し て , ク ラ ス タ リ ン グ を 行 い , 文 字 の 一 部 を 構 成 す る 領 域 の ク ラ ス タC と そ れ 以 外 の 領 域 に 分 け る . こ の と き , 実 線 で 表 さ れ た 矩 形 が 文 字 候 補 領 域 で あ る . 図 3.2 1 段 階 目 の ク ラ ス タ リ ン グ の 例 こ こ で , 単 一 の 連 結 成 分 で 構 成 さ れ る 文 字 領 域 ク ラ ス タB の ク ラ ス タ リ ン グ 手 法 に つ い て 述 べ る .文 字 候 補 領 域 の 集 合 を A と し , そ の 集 合 の 要 素 と し て𝑟6, 𝑟:∈ 𝐴   𝑖 ≠ 𝑗 を 考 え る .そ の 領 域 か ら 計 算 さ れ る ハ ッ シ ュ 値 をℎ𝑎𝑠ℎ(𝑟6), ℎ𝑎𝑠ℎ(𝑟:)で 表 す . ハ ッ シ ュ 値 の 計 算 方 法 は 3.3.3 で 述 べ る . ま た ,  𝑟6,𝑟:に 対 応 す る 文 字 の 色 を𝐶6, 𝐶:と す る . 文 字 の 色 を RGB 色 空 間 で 考 え , R,G,B ∈ [0.0,1.0]と す る . こ の と き , 2 つ の 色𝐶6,𝐶:の 距 離 を 式 (3.1)に よ り 算 出 す る . 領 域𝑟6は 矩 形 で あ る た め ,(𝑥CDEF,  𝑦FGH, 𝑥I6JKF, 𝑦LGFFG5) と 表 現 で き , 中 心 の𝑦座 標 𝑦MD7FDI= 𝑦FGH+ 𝑦LGFFG5 /2と な る . 領 域𝑟6と𝑟:に お い て , そ れ ぞ れ の𝑦座 標 の 差 の 絶 対 値 は 𝑦FGH_:− 𝑦FGH_6 , 𝑦MD7FDI_:− 𝑦MD7FDI_6 ,   𝑦LGFFG5_:− 𝑦LGFFG5_6と な る . そ し て , そ の 絶 対 値 の い ず れ か が 2 つ の 領 域 の 高 さ の 平 均 に 比 例 す る 値𝑦MG7QF*RS*U T以 下 な ら ば ,𝑓(𝑦MG7QF, 𝑦W, 𝑦U)を 満 た す と す る . こ の と き , 𝑦MG7QF 𝑑𝑖𝑠𝑡 𝐶6, 𝐶: = 𝑅:− 𝑅6 U + 𝐺:− 𝐺6 U + 𝐵:− 𝐵6 U 3 ( 3 . 1 )

(5)

は パ ラ メ ー タ で あ る . ま た , 文 字 は 水 平 方 向 に 配 置 さ れ て い る こ と を 仮 定 し て い る .𝑤 = 𝑥I6JKF− 𝑥CDEFと し て ,領 域𝑟6を 拡 張 し た 領 域 を𝑔𝑟6= (𝑥CDEF− 𝑤, 𝑦FGH, 𝑥I6JKF+ 𝑤, 𝑦LGFFG5)と す る .こ の と き , 領 域𝑟6,𝑟:が 重 な り あ う と き は 𝑔𝑟6∩ 𝑔𝑟: > 0を 満 た す . そ し て ,次 の 条 件(3.2)を 満 た す𝑟6 ,𝑟: は 同 一 の ク ラ ス タ に 属 す る .ま た ,𝜃MGCGIは 閾 値 の パ ラ メ ー タ で あ る . 次 に ,文 字 の 一 部 を 構 成 す る 領 域 の ク ラ ス タ C の ク ラ ス タ リ ン グ 手 法 に つ い て 述 べ る . 文 字 の 一 部 を 構 成 す る 2 つ の 領 域 の 横 ・ 縦 の サ イ ズ 比𝑟𝑎𝑡𝑖𝑜),𝑟𝑎𝑡𝑖𝑜*は 両 者 と も にW U≤ 𝑟𝑎𝑡𝑖𝑜), 𝑟𝑎𝑡𝑖𝑜*≤ 2で あ る と 仮 定 し ,  𝑟6,𝑟:に 対 応 す る 横 ・ 縦 の サ イ ズ 比 を𝑟𝑎𝑡𝑖𝑜)_6:,𝑟𝑎𝑡𝑖𝑜*_6:と す る . 条 件(3.2) に よ っ て ク ラ ス タ リ ン グ さ れ な か っ た 領 域 𝑟6 ,𝑟: に 関 し て ,次 の 条 件(3.3)を 満 た す な ら ば 同 一 の ク ラ ス タ と す る . 2 段 階 目 の ク ラ ス タ リ ン グ を 行 う 前 処 理 と し て , 図 3.3 に 示 し た よ う に , ク ラ ス タ B に 属 す る 領 域 を 文 字 候 補 領 域 D と し ,ク ラ ス タ C の 領 域 を そ の ま ま 文 字 候 補 領 域 E と す る .こ の と き ,点 線 で 表 さ れ た 矩 形 が 削 除 さ れ た 文 字 候 補 領 域 で あ る . 図 3.3 2 段 階 目 の ク ラ ス タ リ ン グ の 前 処 理 の 例

3.3.2.  2 段 階 目 の ク ラ ス タ リ ン グ

2 段 階 目 の ク ラ ス タ リ ン グ で は , 図 3.4 に 示 し た よ う に 文 字 候 補 領 域 D, E に 対 し て , 1 段 階 目 の ク ラ ス タ リ ン グ で 単 一 の 連 結 成 分 で 構 成 さ れ る 文 字 領 域 ク ラ ス タB を 用 い た 手 法 を そ の ま ま 用 い る こ と で 文 字 領 域 ク ラ ス タ F を 得 る . 図 3.4 2 段 階 目 の ク ラ ス タ リ ン グ の 例 2 段 階 目 の ク ラ ス タ リ ン グ の 最 後 の 処 理 と し て , 図 3.5 に 示 し た よ う に 文 字 領 域 ク ラ ス タ F 内 の 同 一 行 の テ キ ス ト を 単 語 毎 に 分 割 す る こ と で テ キ ス ト 領 域G を 得 る . 文 字 領 域 の 間 隔𝑥W,𝑥U,…,𝑥7の 平 均 値 を𝑥, 分 散 を𝜎と し , 𝑥6≥ 𝑥 + 2  𝜎を 満 た す 場 合 に 分 割 を 行 う . 図 3.5 同 一 行 の テ キ ス ト を 単 語 毎 に 分 割 す る 例 ま た , 提 案 手 法 で 検 出 す る シ ー ン テ キ ス ト の 仮 定 を も と に し た 条 件(3.4) , 条 件 (3.5) , 条 件 (3.6)に よ り , テ キ ス ト 領 域G に フ ィ ル タ を か け る . こ の と き ,i 番 目 の テ キ ス ト 領 域 を𝐺6,シ ー ン テ キ ス ト の 幅 を𝑤, 高 さ ℎと す る . ま た , 𝑛567は テ キ ス ト 領 域 に 含 ま れ る 文 字 領 域 数 の 最 小 値 ,𝑦567は シ ー ン テ キ ス ト の 高 さ の 最 小 値 ,𝑟𝑎𝑡𝑖𝑜567,𝑟𝑎𝑡𝑖𝑜58)は そ れ ぞ れ 幅 と 高 さ の 比 の 最 小 値 と 最 大 値 を 表 す パ ラ メ ー タ で あ る .

3.3.3.  ハ ッ シ ュ 値 を 用 い た ク ラ ス タ リ ン グ

ク ラ ス タ リ ン グ で は , ハ ッ シ ュ 値 を 用 い る こ と で 効 率 よ く 文 字 候 補 領 域 の ク ラ ス タ リ ン グ を 行 う . そ れ ぞ れ の 文 字 候 補 領 域 の 中 心 座 標 𝑥, 𝑦 と 文 字 の 高 さ ℎの 値 に よ っ て 構 築 し た ハ ッ シ ュ テ ー ブ ル を 用 い て , 効 率 よ く 総 当 り の 処 理 を 行 う . 入 力 画 像 の 大 き さ 𝑤658JD, ℎ658JD に お い て ,横 と 縦 を 𝑛等 分 し た 領 域 を 考 え る . 図 3.6 に 𝑛 = 5の と き の 例 を 示 す . 黒 い 太 線 で 表 さ れ た 文 字 候 補 領 域 は 実 線 で 表 さ れ た 領 域 に 属 す る こ と に な る . つ ま り , 1,1 , 2,1 , 1,2 , 2,2 に 属 す る . {  𝑟6 , 𝑟:  |  𝑑𝑖𝑠𝑡 𝐶6, 𝐶: ≤ 𝜃MGCGI  ∧  ℎ𝑎𝑠ℎ(𝑟6)   =   ℎ𝑎𝑠ℎ(𝑟:)  ∧ 𝑔𝑟6∩ 𝑔𝑟: > 0 ∧  𝑓(𝑦MG7QF, 𝑦6, 𝑦:)  } ( 3 . 2 ) {  𝑟6 , 𝑟:  |  𝑑𝑖𝑠𝑡 𝐶6, 𝐶: ≤ 𝜃MGCGI  ∧  ℎ𝑎𝑠ℎ(𝑟6)   =   ℎ𝑎𝑠ℎ(𝑟:) ∧ 𝑔𝑟6∩ 𝑔𝑟: > 0 ∧  12≤ 𝑟𝑎𝑡𝑖𝑜)_6:, 𝑟𝑎𝑡𝑖𝑜*_6:≤ 2  } ( 3 . 3 ) 𝑛567≤ 𝐺6 ( 3 . 4 ) 𝑦567≤ ℎ ( 3 . 5 ) 𝑟𝑎𝑡𝑖𝑜567≤𝑤 ≤ 𝑟𝑎𝑡𝑖𝑜58) ( 3 . 6 )

(6)

図 3.6 入 力 画 像 の 領 域 を𝑛等 分 し た 例 (𝑛 = 5) さ ら に ,文 字 候 補 領 域 の 高 さℎを 図 3.7 の よ う に 26 ℎ ≤ 26SW(0 ≤ 𝑖 ≤ 𝑚) と 26+ 26mW≤ ℎ ≤ 26SW+ 26 0 ≤ 𝑖 ≤ 𝑚 − 1 の そ れ ぞ れ 該 当 す る 範 囲 に 分 け る . こ の と き , 𝑚は 25< ℎ 658JDを 満 た す 最 大 の 整 数 で あ る . こ の と き , 高 さℎの 範 囲 が 重 複 す る よ う に 設 定 す る こ と で 境 界 値 付 近 の 値 を 持 つ 領 域 が 異 な る ハ ッ シ ュ 値 を 持 つ こ と を 防 ぐ . 図 3.7 文 字 候 補 領 域 の 高 さℎの 範 囲

4.  評 価 実 験

4.1.  データセット

4.1.1.  英 語 の デ ー タ セ ッ ト

英 語 の デ ー タ セ ッ ト と し て ,ICDAR2013 に て 用 い ら れ た デ ー タ セ ッ ト を 用 い る . こ の デ ー タ セ ッ ト は ICDAR 20111に て 用 い ら れ た デ ー タ セ ッ ト の サ ブ セ ッ ト で あ る .訓 練 デ ー タ は 229 件 ,テ ス ト デ ー タ は 233 件 で あ る . デ ー タ セ ッ ト の 例 を 図 4.1 に 示 す .

4.1.2.  日 本 語 と 英 語 の デ ー タ セ ッ ト

現 在 , 一 般 に 公 開 さ れ , 実 験 の 評 価 に 用 い ら れ て い る 日 本 語 の デ ー タ セ ッ ト は 存 在 し な い た め , 著 者 が Google 画 像 検 索 を 用 い て 全 部 で 151 件 の 画 像 を 収 集 し , 訓 練 デ ー タ は 77 件 , テ ス ト デ ー タ は 74 件 と し た . こ の デ ー タ セ ッ ト を Japanese and English Scene Text と し , 以 降 は JEST と 表 記 す る . ま た , 検 索 キ ー ワ ー ド と し て「 看 板 」を 用 い た .ICDAR の デ ー タ セ ッ ト と 同 様 に , テ キ ス ト の 正 解 デ ー タ は 左 上 と 右 下 の 座 標 に よ っ て 表 さ れ る . 正 解 デ ー タ は 著 者 が 手 作 業 で 付 与 し , 極 端 に 小 さ い テ キ ス ト で あ り 文 字 認 識 が 困 難 で あ る よ う な 場 合 は 正 解 デ ー タ と し て い な い . さ ら に , 比 較 手 法 は 水 平 方 向 の テ キ ス ト を 対 象 と し て い る た め , 条 件 を 揃 え る た め に , 水 平 方 向 の テ キ ス ト を 使 用 し た . デ ー タ セ ッ ト の 例 を 図 4.2 に 示 す . 1 http://robustreading.opendfki.de/wiki/SceneText

図 4.1 Example of ICDAR2013 Robust Reading competition dataset[8]

図 4.2 Example of JEST dataset (Google の 画 像 検 索 よ り )

4.1.3.  比 較 手 法 で 用 い る 文 字 単 位 の ERs の 訓 練

デ ー タ セ ッ ト

英 語 を 対 象 と し た 実 験 の た め の 文 字 単 位 のERs の 訓 練 デ ー タ セ ッ ト と し て ,0~9 の 数 字 と 英 語 の 小 文 字 と 大 文 字52 種 類 の 計 62 種 類 を 文 字 ERs と し て 2328 個 , 非 文 字 ERs と し て 1,686 個 を 用 い る . デ ー タ セ ッ ト の 例 を そ れ ぞ れ ,図 4.3,図 4.4 に 示 し た .ま た ,日 本 語 の 文 字 の 種 類 が 多 い た め Neumann ら [2]と 同 様 に フ ォ ン ト デ ー タ を 用 い て 全 種 類 の ひ ら が な と カ タ カ ナ と 常 用 漢 字 の 全 種 類 を 網 羅 す る . 今 回 は フ ォ ン ト デ ー タ と し て ゴ シ ッ ク 体 お よ び 明 朝 体 の フ ォ ン ト デ ー タ を 用 い る .4.1.2 で 作 成 し た 訓 練 デ ー タ セ ッ ト 内 か ら 抽 出 し た ERs と 合 わ せ て 計 7,308 枚 の 画 像 を 訓 練 デ ー タ セ ッ ト と す る .ま た ,英 語 の デ ー タ セ ッ ト と 共 通 の 非 文 字ERs を 用 い る . 図 4.3 文 字 ERs の デ ー タ セ ッ ト 図 4.4 非 文 字 ERs の デ ー タ セ ッ ト

4.2.  比 較 手 法

提 案 手 法 と の 比 較 手 法 と し て ,Neumann ら [2]に よ っ て 提 案 さ れ た リ ア ル タ イ ム な シ ー ン テ キ ス ト 検 出 の 手

(7)

法 を 用 い る .Neumann ら [2]の 論 文 で は , 文 字 単 位 の ERs の 訓 練 デ ー タ と し て , ICDAR2003 training dataset[9]か ら 手 作 業 で 文 字 ERs を 約 900 個 , 非 文 字 ERs を 約 1400 個 用 い て い る .し か し ,文 字 単 位 の ERs は 手 作 業 で 作 成 し た デ ー タ で あ り ,公 開 さ れ て い な い . し た が っ て , 完 全 に 条 件 を 一 致 さ せ る こ と は で き な い が ,4.1.3 に て 述 べ た 文 字 単 位 の ERs の 訓 練 デ ー タ を 用 い て 実 験 を 行 う .

4.3.  評 価 方 法

本 研 究 の 評 価 に は ,ICDAR 2013 competition で 使 用 さ れ て い る ソ フ ト ウ ェ ア の DetEval2を 用 い る .

DetEval は Wolf ら [10]が 提 案 し た 評 価 方 法 (one-to-one, one-to-many,many-to-many)を 元 に 作 成 さ れ た ソ フ ト ウ ェ ア で あ る .recall( 再 現 率 ) , precision( 適 合 率 ) , F-measure(F 値 )は そ れ ぞ れ 式 (4.1)(4.2)(4.3)に よ っ て 求 め る こ と が で き る . こ こ で ,G と D は そ れ ぞ れ 正 解 デ ー タ の 矩 形 ,検 出 し た 矩 形 の 集 合 で あ る .𝑡I∈ 0,1 と 𝑡H∈ 0,1 は recall と precision を 決 定 す る 際 の 領 域 の 面 積 を 制 限 す る 定 数 で あ る .𝑀𝑎𝑡𝑐ℎqと𝑀𝑎𝑡𝑐ℎrは one-to-one, one-to-many, many-to-many matches に お い て 異 な る 値 を 返 す 関 数 で あ る .one-to-one は 正 解 デ ー タ の 矩 形 1 個 に 対 し て , 検 出 し た 矩 形 が 1 個 の 場 合 ,one-to-many は 正 解 デ ー タ の 矩 形 1 個 に 対 し て , 検 出 し た 矩 形 が 複 数 個 の 場 合 , many-to-many は 正 解 デ ー タ の 複 数 個 の 矩 形 に 対 し て , 検 出 し た 矩 形 も 複 数 個 の 場 合 で あ る . ま た , パ ラ メ ー タ と は DetEval の デ フ ォ ル ト 値 で あ る 0.8, 0.4 を そ れ ぞ れ 用 い た .

4.4.  結 果 と考 察

4.4.1.  パ ラ メ ー タ

提 案 手 法 に お け る パ ラ メ ー タ に つ い て 説 明 す る . 訓 練 デ ー タ を 用 い た 予 備 実 験 に よ り , パ ラ メ ー タ を 次 の よ う に 設 定 し た . ま ず , エ ッ ジ 検 出 を す る 際 の 閾 値 の パ ラ メ ー タ は𝜃)= 12, 𝜃*= 12と す る . 次 に , ク ラ ス タ 2 http://liris.cnrs.fr/christian.wolf/software/deteval/ リ ン グ を 行 う 際 の パ ラ メ ー タ と し て , 条 件(3.3)の パ ラ メ ー タ𝑦MG7QF= 0.1, 𝜃MGCGI= 0.1と す る . ま た , 提 案 手 法 の 仮 定 に も と づ い た 条 件 (3.4),条 件 (3.5),条 件 (3.6) の パ ラ メ ー タ は𝑛567= 3, 𝑦567= 16, 𝑟𝑎𝑡𝑖𝑜567= 2.0, 𝑟𝑎𝑡𝑖𝑜58)= 20.0と す る . 3.3.3 の ハ ッ シ ュ 値 を 用 い た ク ラ ス タ リ ン グ で は ,𝑛 = 5と す る .

4.4.2.  既 存 手 法 と の 比 較

既 存 手 法 と 検 出 速 度 を 比 較 す る た め の 条 件 を 以 下 に 示 す . 今 回 の 実 験 に 使 用 し た 計 算 機 は 2 コ ア , 1.7GHz, 8G RAM, Mac OS X で あ る . 既 存 研 究 の 計 測 で は 並 列 処 理 を 行 っ て い な い た め , 本 手 法 の 評 価 実 験 に お い て も 並 列 処 理 は 行 わ な い . ま た ,800x600 の 画 像 に 関 し て 平 均 処 理 時 間 を 計 測 し て い る の で , デ ー タ セ ッ ト の 4:3 の 比 率 の 画 像 の ス ケ ー ル を 調 整 し て 800x600 の 画 像 を 作 成 し た .実 際 に 計 測 す る 検 出 時 間 は 画 像 の 読 み 込 み が 完 了 し て か ら シ ー ン テ キ ス ト 位 置 の 検 出 が 完 了 す る ま で と し , キ ャ ッ シ ュ の 影 響 を 考 慮 し て3 回 の 実 行 結 果 の 平 均 を と っ た .デ ー タ セ ッ ト で は 152 枚 , JEST デ ー タ セ ッ ト で は 74 枚 の 画 像 を 用 い て 実 験 を 行 い , 既 存 手 法 の 結 果 を 表 4.1, 提 案 手 法 の 結 果 を 表 4.2 に 示 し た . 表 4.1 の Neumann ら の 手 法 に お い て , 訓 練 デ ー タ セ ッ ト が 英 語 , テ ス ト デ ー タ セ ッ ト が ICDAR,ク ロ ッ ク 周 波 数 が 3.4GHz の と き の 実 験 結 果 はLiu ら [3]の TABLE III の 数 値 を 参 照 し た . こ の と き ,Liu ら は 3.4GHz の 標 準 コ ン ピ ュ ー タ を 用 い た と 述 べ て い る . Neumann ら の 手 法 に お い て , 日 本 語 と 英 語 を 訓 練 デ ー タ と し た ICDAR テ ス ト デ ー タ セ ッ ト の 実 験 で は , 特 に precision が 低 下 し た . 英 語 と 比 べ て 日 本 語 は 複 雑 な 形 状 の 文 字 が 多 く 存 在 す る た め , 特 徴 量 が 有 効 に 機 能 し て い な い と 考 え ら れ る . 同 様 に 日 本 語 と 英 語 を 訓 練 デ ー タ と し た JEST テ ス ト デ ー タ セ ッ ト の 実 験 に お い て も precision が 低 い 値 を 示 し た . 検 出 時 間 が 増 加 し た 原 因 と し て は ,precision が さ ら に 低 い 値 と な っ て い る こ と か ら , 文 字 領 域 を 削 除 す る フ ィ ル タ で あ る と 考 え ら れ る . つ ま り , 第1 段 階 目 の フ ィ ル タ で あ る Real AdaBoost に よ る 文 字 領 域 の 削 除 が 有 効 に 機 能 し な く な り , 第 2 段 階 目 の フ ィ ル タ で あ る SVM の 特 徴 量 の 計 算 の 処 理 時 間 が 加 わ っ た た め で あ る . 提 案 手 法 に お い て , 日 本 語 と 英 語 を 訓 練 デ ー タ と し た ICDAR テ ス ト デ ー タ セ ッ ト の 実 験 で は ,Neumann ら の 結 果 と 比 較 し て recall は 低 い が , precision が 高 い た め ,F 値 が 向 上 し て い る . recall が 低 い 値 と な っ て い る 理 由 と し て ,提 案 手 法 で は1 つ の 文 字 が 1 つ の 連 結 成 分 か ら 構 成 さ れ る こ と を 前 提 と し な い の で , 英 語 よ り も 日 本 語 に 適 し た 手 法 で あ る か ら と 考 え ら れ る . ま た ,ICDAR デ ー タ セ ッ ト は JEST デ ー タ セ ッ ト と 𝑟𝑒𝑐𝑎𝑙𝑙 𝐺, 𝐷, 𝑡I, 𝑡H =   𝑀𝑎𝑡𝑐ℎr 𝐺6, 𝐷, 𝑡I, 𝑡H 6 𝐺 (4.1) 𝑝𝑟𝑖𝑐𝑖𝑠𝑖𝑜𝑛 𝐺, 𝐷, 𝑡I, 𝑡H =   𝑀𝑎𝑡𝑐ℎq 𝐷:, 𝐺, 𝑡I, 𝑡H : 𝐷 (4.2) 𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =  2 𝑝𝑟𝑖𝑐𝑖𝑠𝑖𝑜𝑛 𝐺, 𝐷, 𝑡I, 𝑡H ∙ 𝑟𝑒𝑐𝑎𝑙𝑙 𝐺, 𝐷, 𝑡I, 𝑡H 𝑟𝑒𝑐𝑎𝑙𝑙 𝐺, 𝐷, 𝑡I, 𝑡H + 𝑝𝑟𝑖𝑐𝑖𝑠𝑖𝑜𝑛 𝐺, 𝐷, 𝑡I, 𝑡H (4.3)

(8)

比 べ て , 同 一 行 の テ キ ス ト を 単 語 毎 に 適 切 に 区 切 る 必 要 が あ り ,F 値 が 低 下 し て い る . 日 本 語 と 英 語 を 訓 練 デ ー タ と し た JEST テ ス ト デ ー タ セ ッ ト の 実 験 に お い て Neumann ら の 結 果 と 比 較 し て precision が 高 く な り ,F 値 が 向 上 し て い る . ま た , 既 存 手 法 と 比 べ て 約 7~10 倍 の 高 速 化 に 成 功 し た . Neumann ら の 手 法 で は 文 字 候 補 領 域 の フ ィ ル タ が 機 能 し な い た め ,検 出 時 間 が 増 大 し ,精 度 も 低 下 し た . 提 案 手 法 で は ,ERs で は な く , エ ッ ジ を も と に ラ ベ リ ン グ を し て 文 字 候 補 領 域 を 検 出 し た こ と と , 計 算 コ ス ト が 高 い フ ィ ル タ を 用 い る こ と な く , 文 字 候 補 領 域 の 配 置 に も と づ い て ク ラ ス タ リ ン グ を す る こ と で 高 速 化 に 貢 献 し た と 考 え ら れ る . 表 4.1 Neumann ら の 手 法 の 結 果 表 4.2 提 案 手 法 の 結 果 データセット recall precision F 値 検出時間(ms) 訓練 テスト 1.7 GHz 3.4 GHz 日本語/ 英語 ICDAR 0.346 0.409 0.375 192.0 - 日本語/ 英語 JEST 0.496 0.516 0.506 184.8 -

5.  ま と め

本 稿 で は , 日 本 語 と 英 語 を 対 象 と し た シ ー ン テ キ ス ト 位 置 の 高 速 検 出 手 法 を 提 案 し た . 複 数 の 連 結 成 分 か ら 構 成 さ れ る 文 字 を 考 慮 し た 手 法 と し て 多 段 階 ク ラ ス タ リ ン グ に よ る 文 字 候 補 領 域 の 結 合 を 提 案 し , 精 度 を 保 ち つ つ , 速 度 の 向 上 を 図 っ た . そ の 結 果 , 提 案 手 法 は 既 存 手 法 と 比 べ F 値 を ICDAR デ ー タ セ ッ ト で は 0.028, 著 者 が 作 成 し た JEST デ ー タ セ ッ ト で は 0.202 向 上 さ せ , 実 行 時 間 は そ れ ぞ れ 約 6.9, 10.1 倍 の 高 速 化 に 成 功 し た . ま た , 処 理 速 度 を 保 ち つ つ , よ り 高 い 精 度 を 得 る た め に ,多 く の 訓 練 デ ー タ を 用 い る こ と や , 計 算 量 の 少 な い 有 用 な 特 徴 量 を 用 い る 手 法 の 考 案 が 今 後 の 課 題 と な る .

参 考 文 献

[1]   Gang Ahou, Yuehu Liu, Quan Meng and Yuanlin Zhang: "Detecting multilingual text in natural scene", Proceedings of IEEE 1st International Symposium on Access Spaces (ISAS), pp.116-120, 2011.

[2]   Neumann Lukáš and Jiří Matas: "Real-time scene text localization and recognition", Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.3538-3545, 2012.

[3]   Liu Yi, Dongming Zhang, Yongdong Zhang and Shouxun Lin: "Real-Time Scene Text Detection Based on Stroke Model", Proceedings of IEEE 22nd International Conference on Pattern Recognition (ICPR), pp.3116-3120, 2014.

[4]   Epshtein Boris, Eyal Ofek and Yonatan Wexler: "Detecting text in natural scenes with stroke width transform", Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.2963-2970, 2010. [5]   野 村 松 信 , 鈴 木 拓 真 , 景 山 陽 一 , 石 沢 千 佳 子 , 西 田 眞 : "背 景 色 情 報 を 活 用 し た 看 板 内 の 文 字 列 領 域 抽 出 法", 電 気 学 会 論 文 誌 C (電 子 ・ 情 報 ・ シ ス テ ム 部 門 誌), Vol.134, No.1, pp.121-130, 2014. [6]   平 山 勝 裕 , 大 町 真 一 郎 , 阿 曽 弘 具 : "カ ラ ー 情 報 を 利 用 し た 情 景 画 像 中 の 文 字 列 の 高 精 度 抽 出", 電 子 情 報 通 信 学 会 信 学 技 報, Vol.104, No.742, pp.91-96, 2005.

[7]   Tonouchi Yojiro, Kaoru Suzuki and Kunio Osada: "A Hybrid Approach to Detect Texts in Natural Scenes by Integration of a Connected-Component Method and a Sliding-Window Method", Computer Vision-ACCV 2014 Workshops, Springer International Publishing, pp.106-118, 2014.

[8]   Karatzas D., Shafait F., Uchida S., Iwamura M., Gomez i Bigorda L., Robles Mestre S., Mas J., Fernandez Mota D., Almazan Almazan J. and de las Heras L.-P.: "ICDAR 2013 robust reading competition", Proceedings of International Conference on Document Analysis and Recognition (ICDAR), pp.1484-1493, 2013.

[9]   Lucas S. M., Panaretos A., Sosa L., Tang A., Wong S. and Young R.: "ICDAR 2003 robust reading competitions", Proceedings of ICDAR 2003 robust reading competitions, pp.682-687, 2003.

[10]  Wolf Christian and Jean-Michel Jolion: "Object count/area graphs for the evaluation of object detection and segmentation algorithms", Proceedings of International Journal of Document Analysis and Recognition (IJDAR), Vol.8, Issue.4, pp.280-296, 2006. データセット recall precision F 値 検出時間(ms) 備考 訓 練 テスト 1.7 GHz 3.4 GHz 英 語 ICDAR 0.647 0.731 0.687 - 589.9 [3] よ り 引用 日本語 /英語 ICDAR 0.512 0.263 0.347 1333.5 - 著 者 に よ る 実 装 日本語 /英語 JEST 0.564 0.208 0.304 1858.7 -

図   4.2 Example of JEST dataset    (Google の 画 像 検 索 よ り )     4.1.3.  比 較 手 法 で 用 い る 文 字 単 位 の ERs の 訓 練 デ ー タ セ ッ ト 英 語 を 対 象 と し た 実 験 の た め の 文 字 単 位 の ERs の 訓 練 デ ー タ セ ッ ト と し て , 0~9 の 数 字 と 英 語 の 小 文 字 と 大 文 字 52 種 類 の 計 62 種 類 を 文 字 ERs と し て 232

参照

関連したドキュメント

Aの語り手の立場の語りは、状況説明や大まかな進行を語るときに有効に用いられてい

■時刻の設定方法: 1) 秒針が12時位置にあるときに、クラウンを3の位置まで引き出します。

 さて,日本語として定着しつつある「ポスト真実」の原語は,英語の 'post- truth' である。この語が英語で市民権を得ることになったのは,2016年

 撮影対象が幅約 0.4 ㎜[魚水 2018 ]と細い撚糸によ る文様であるため、拡大して撮影する必要がある。そ こで撮影にはマクロレンズ LAOWA

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ

この数日前に、K児の母から「最近、家でも参観曰の様子を見ていても、あまり話をし

「Skydio 2+ TM 」「Skydio X2 TM 」で撮影した映像をリアルタイムに多拠点の遠隔地から確認できる映像伝送サービ

であり、 今日 までの日 本の 民族精神 の形 成におい て大