物体のサイズ感を利用した
3DCG
画像
CAPTCHA
の検討
西原 大貴
1,a)新井 イスマイル
2 概要:人間特有の「常識からの逸脱を認識する能力」として,2つの3次元(3D)オブジェクトのめり込 みを検出できる能力に着目した既存研究の3DCG画像CAPTCHAは,CAPTCHAに要求される3要件 「利便性」「安全性」「自動生成性」を満たすとされたが,輪郭抽出技術の応用などによって機械が解読で きる可能性がある.これに対し,本研究では,「常識からの逸脱を認識する能力」として,特定の3Dオブ ジェクトのサイズ感が周囲と異なる場合に違和感を覚える能力に着目したCAPTCHAを提案する.その 利便性および安全性について検証を行った結果,利便性のうち回答時間は既存研究に劣らないことが期待 できる一方で,正答率は使用するオブジェクトの組み合わせに大きく左右されることが分かった.また, 総当たり攻撃への安全性は,CAPTCHA画像1枚のみの出題では十分に確保されにくく,既存研究と同様 に複数回出題するなどの検討が必要であるという結果を得た. キーワード:ネットワークセキュリティ,CAPTCHA,サイズ感,3次元コンピュータグラフィックス1.
はじめに
Webサービスに対する,自動プログラムを用いた機械攻 撃を防ぐ技術の一つとして,CAPTCHA(Completely Auto-mated Public Turing test to tell Computers and HumansApart)と呼ばれる人間か機械かを識別するテストが利用 されている.それらのうち文字判別型CAPTCHAは現在 広く利用されているが,近年ではOCR(Optical Character Recognition)技術の発展などにより,機械攻撃によって破 られる可能性が高まってきた.すなわち,CAPTCHAは, 人間にとって解読しやすいこと(利便性)の他に,機械攻 撃耐性(安全性)が確保されている必要がある.一方で, CAPTHCAには,出題が自動生成可能である(自動生成 性)という要求も存在する[1].これを満たさない場合,出 題の総数は有限となり,データベースを参照する機械攻撃 が予測される.従って,CAPTHCAにはこれらの3要件 が要求される. これを満たす既存研究として藤田らは,常識的な形状を した異なる2つの3次元オブジェクトをマージしてめり 込ませることで生成した非現実オブジェクトをユーザに 選択させる3DCG画像CAPTCHA手法(以下,非現実画 像CAPTCHA)を提案した[1].しかしながら,輪郭抽出 技術を応用した機械攻撃により破られる可能性が考えら 1 明石工業高等専門学校 電気情報工学科 2 奈良先端科学技術大学院大学 総合情報基盤センター a) [email protected] れる[2].これに対し,我々は「サイズ感」に着目するこ とで,輪郭抽出技術などにより各オブジェクトの形状や名 称が限定されたとしても容易には解読されないと期待で きる手法を提案する.本稿では,提案手法の利便性および 総当たり攻撃に対する安全性を検証し,今後の方針を検討 する.検証の結果として,利便性のうちユーザの回答時間 は平均5.4秒,正答率は平均65.4%であった.文字判別型 CAPTCHAの回答時間が12秒,正答率が92%である[3] ことを鑑みれば,提案手法は利便性の向上が期待できる一 方で,正答率が低下したためオブジェクトの選定に配慮が 必要であることが確認された.また,総当たり攻撃への安 全性は,CAPTCHA画像1枚のみの出題では十分に確保 されにくく,非現実画像CAPTCHAと同様に複数回出題 するなどの検討が必要であるという結果を得た.
2.
関連研究
文字判別型CAPTCHAは,図 1*1のように歪ませた文 字列画像の文字列をユーザが読み取り,テキストとして入 力するものである.自動生成が可能であり,かつ機械攻撃 耐性に優れていたため,現在に至るまで多くのWebサービ スで利用されてきたが,近年ではOCR(Optical Character Recognition)技術の発展により機械攻撃によって破られつ つある. この問題を解決するため,以下に挙げるような様々な 手法が提案されてきた.文字判別型CAPTCHAを含めた *1 https://auth.sso.biglobe.ne.jp/mail/図1 文字判別型CAPTCHA 表1 既存手法の3要件に対する評価 安全性 利便性 自動生成 文字判別型 △ ⃝ ⃝ Assira × ⃝ △ 4コマ漫画 × △ × 2枚画像 ⃝ △ ⃝ 非現実画像 △ ⃝ ⃝ 各々の手法について,著者が3要件への評価を行い,高い 順に⃝△×で表したものを表1に示す. 2.1 Assira 「Assira」[4]は,12枚の犬と猫の画像から,猫をすべて 選択させることで,ユーザが人間であるとするCAPTCHA である.猫の絵を認知する能力は人間の高度な認知能力で あり,機械による突破は難しいと考えられていたが,2ク ラスの分類を得意とする機械学習判別機を用いた攻撃が有 効であるとされた[5]. 2.2 4コマ漫画CAPTCHA 「4コマ漫画」CAPTCHA[3]は,人間特有の最も高度な 認知処理である「ユーモアを解する能力」に着目し,ラン ダムに並べ替えられた4コマ漫画の各コマを,正しい順序 に並べ替えさせる手法を用いた.機械はユーモアの理解が 困難で,正攻法による突破が簡単ではない.しかし,並べ 替え総数が少なく総当たり攻撃(ブルートフォースアタッ ク)に脆弱であり,また起承転結が明解な4コマ漫画の自 動生成が難しいという問題が残る. 2.3 2枚の画像を重ね合わせたCAPTCHA 小林らが提案した,2枚の画像を重ね合わせた画像の認 識能力を問うCAPTCHA[6]は,重ねられた元の2枚の画 像が何であるかを10種類の大分類に分けられた合計100 個の選択肢から選択する方式である.従って,答えは4950 通り存在し,藤田らが4096通り確保できれば十分である とした[1]ことを鑑みれば,機械攻撃耐性は高い.また重 ねられた2枚の画像を自動で分離することは困難であるた め,安全性が保たれていると言える.しかし,この「2枚 画像」方式は,検証の結果,人間の回答時間が平均27.2秒 であり,一般的な文字列画像が10秒から18秒(論文中の 値を引用)であることに比べて長くなるという課題が残る. 2.4 非現実画像CAPTCHA 藤田らは,「常識からの逸脱を認識する能力」が人間特 図2 非現実オブジェクトを選択する「非現実画像CAPTCHA」 有の高度な認知能力であることに着目し,2体の3Dオブ ジェクト同士をめり込ませて生成した新しいオブジェクト (非現実オブジェクト)をユーザに選択させる非現実画像 CAPTCHAを提案した.具体的には,図 2に示すような 画像をユーザに出題し,複数の3Dオブジェクトの中に配 置された1体の非現実オブジェクトをクリックさせる.こ れは,3DCGを用いることで出題の自動生成が可能であり, また,常識を持つ人間は容易に正解できるが,機械は人間 の常識を備えることが困難で,通常と非現実のオブジェク トを見分け難い.さらに,安全性の検証としてオブジェク ト同士の境界線が,マージされてできためり込み部分であ るのか,あるいはめり込んではいないが遮蔽関係にあるの かを機械学習により検出する攻撃手法や,その他総当たり 攻撃にも耐性を持ちうるとされた.具体的には,機械学習 を用いた手法では,あらかじめ入手した大量の出題画像か ら,「一部を切り出した画像」と「その部分に正解オブジェ クト(めり込んでいる部分)が存在するか否か」という教 師用データセットを用いて機械学習を行うことで,画像中 に「めり込みが含まれるか否か」を判定する分類器を作り, めり込んだオブジェクトを検出する攻撃手法を実装した. その後,この手法では画像中の「めり込んだ部分」と「遮 蔽関係」を検出できるかどうかを検証した結果,正解率は 69.6%であることから,「遮蔽関係」と「めり込み」の区別 は機械にとって困難であると結論付けた.また,総当たり 攻撃耐性の検証では,CAPTCHAの有するべき総当たり 数が4096通りであるとし,機械が画像解析によって出題 画像中のすべてのオブジェクトを抽出できた場合を考えれ ば,オブジェクト数Nに対して,総当たり数はNとなる ため,4体のオブジェクトが描画された出題画像を6枚出 題し,全て正解できたユーザを人間とみなせば46= 4096 通り確保できるとした. しかしながら,輪郭抽出技術の応用など,その他の攻撃 手法により,めり込んだオブジェクトが検出できる可能性 が考えられる[2].
図3 提案手法によるCAPTCHA画像のイメージ
3.
物体のサイズ感を利用した手法の提案
本研究では,藤田らと同様に,常識からの逸脱を認識す る人間特有の能力に着目し,ユーザに物体の常識的なサイ ズ感を識別させるCAPTCHA手法を提案する. 3.1 CAPTCHA画像の生成手法概要 図3に示すように,「背景」3Dオブジェクトを基準とし て複数の「物体」3Dオブジェクトを宙に浮かせることな く(「背景」に接するように)任意の位置に配置した画像を 出題し,その中から背景に対して非常識な大きさの「正解」 オブジェクト(この例では,テーブル上の横転した白いコッ プ)を選択できたユーザを人間とみなす.この時,背景お よび配置する物体はデータベースより無作為に選択し,ま た,出題の3DCG画像を描画する際のカメラ位置は,配置 した物体が全て映る範囲内で,一意に定めないとする. 3.2 期待される提案手法の有用性 本提案手法では,ユーザは,背景を基準とした相対的な 大きさとして,配置された物体を認識するため,背景が示 す場所や状況,奥行きを理解し考慮する必要がある.近い 将来には,機械が輪郭抽出や機械学習などにより,配置さ れた個々の物体の正体をおおむね解明することで,その物 体の常識的な大きさを検索エンジンやデータベースから参 照できる可能性がある.しかし,提案手法では,背景の場 所や,背景自体との物体の位置関係を解読できない限り, 機械による突破は容易ではないと考えられる.例えば,学 校教室内と体育館内では置かれる物体が同じであっても周 囲の背景に対するサイズ感は異なり,また同じ体育館内で あってもカメラの配置によって奥行きが変わり,物体のみ に着目した攻撃手法では突破できない.背景との関連が把 握できない場合であっても,大きさを把握できた複数の物 体同士で大きさを比較することにより,解答を推測できる 可能性が考えられるが,出題画像には奥行きがあるため, 手前と奥に配置された物体では同じ大きさであっても描画 ピクセル数が異なり,やはり背景との関連を見破る必要が ある.これらより,高い安全性が期待できる. また,本提案手法では,出題画像は無作為に自動生成さ れるため,無数の出題が可能であることから,自動生成性 を有すると言える. 一方で,常識を持つ人間は,背景からその状況を容易に 推測することができ,常識的なサイズ感を瞬時に把握する ことができるため,出題に対する解読の負担が小さくなり, 利便性の確保が期待できる. 以上のことから,提案手法はCAPTCHAに要求される 3要件を満たすと期待する.4.
提案手法の検証
4.1 検証方法 3種類の「背景」(実装の簡略化のためいずれも閉鎖され た室内:学校教室,住宅の一室2種類)および11種類の 「物体」(インターネットから3Dモデルデータを取得でき たオブジェクトのうち,アニメキャラクターなどのように 普通名詞で表し難いものを除いたオブジェクト:消火器, 椅子,机2種類,鉢植え,タンス,戸棚2種類,ライフル 銃,林檎2種類)の3Dオブジェクトを用意した.「物体」 を無作為に4種類選択し,そのうち1種類を0.25∼0.75倍 に縮小あるいは1.5∼2倍に拡大した「正解」オブジェクト として,1種類の「背景」の中に無作為に配置した画像を 生成した.その中から4種類全ての「物体」の一部あるい は全部が描画されている(隠れていない)画像を著者が26 枚選択し出題画像とした.12人の被験者に対し,各出題画 像について正解だと思う座標をクリックしてもらい,その 回答時間と正誤を記録した. また,総当たり攻撃への耐性(安全性)を検討するため に,各出題画像中に占める正解オブジェクトの描画ピクセ ル数を計数し,画像サイズに対する割合(描画割合)を算出 した. 4.2 検証結果 26枚すべての画像と,正答率の高い10枚のみに着目し た場合のそれぞれについて,本検証で得られた被験者の平 均回答時間および平均正答率を表2に示す.同時に,比較 のために,藤田らの手法(非現実画像)の実験結果の一例 (オブジェクト数4体の出題画像を6枚連続正解させると した場合),藤田らが指標に用いた文字判別型CAPTCHA についても論文中のデータを引用した.図4は,提案手法 の正答率が高かった出題(成功例),図5は正答率が低かっ た出題(失敗例)を示している. また,提案手法の描画割合の平均は,3.5%であった.5.
検証の考察と今後の課題
表2に示す通り,提案手法は,出題画像1枚当たりの平表2 各手法の平均の回答時間および正答率 回答時間[s] 正答率[%] 提案手法 5.4 65.4 提案手法(上位10枚) 3.6 90.8 非現実画像(6枚出題時) 13.5 88.6 文字判別型 12 92 均回答時間は5.4秒と十分に短いが,正答率が65.4%と低 く,人間であっても正解できない確率が高いため,正答率 を向上させる対策が必要となる.特に,出題画像の中には 正答率8.3%という極端に低いものが含まれていたことが, 平均正答率が大きく下げた一因と考えられるが,以下に述 べるようにその出題の正答率が低かった原因を追究するこ とで,正答率の高い10枚のみを選出することができたと すれば,回答時間は更に短くなり,正答率は他の手法と同 等になると言える. 正答率が低い出題について,被験者の意見を交えて要因 を挙げれば,机や鉢植えなどサイズ感が一意に定まらない, 銃など親しみがなくサイズ感が分かりにくいなどがあった ため,これらを解決するオブジェクトを選定する必要があ る.特に図5に示した失敗例は,その両方によるもので あったと思われる.これを解決する手法として,インター ネット上からサイズ感を取得する(例えば商品サイトで物 体名を検索することで,掲載されている商品のサイズを目 安として取得する)などが挙げられ,これは今後の課題と なる. また,本検証では,描画物体数は4体に固定し,正解オ ブジェクトのサイズ変更の倍率は範囲を限定して行ったた め,これらを変更し,利便性を向上させる検証も今後行う. 安全性について,総当たり攻撃に着目すれば,総当たり 数は4096通りを確保すれば十分である[1]が,本検証で は,描画割合の平均が3.5%であったため,3枚出題して全 て正解できるかを試せば( 1 0.035) 3≈ 23000通り確保できる といえる(2枚の場合は(0.0351 )2≈ 800通り).また,本検 証においては正解物体数を1体としていたが,これを3体 に変えて全て選択するタスクに変更すれば,1枚の出題で も(0.0351 )3·3!1 ≈ 3800通りの総当たり数が期待される.い ずれの手法も同時に利便性の低下が予想されるため,出題 画像作成段階での描画割合の調整や,画像1枚当たりの利 便性の向上が,今後の課題となる.
6.
おわりに
本 稿 で は ,物 体 の サ イ ズ 感 を 利 用 し た 3DCG 画 像 CAPTCHA手法を提案し,利便性(回答時間,正答率) と安全性(総当たり攻撃耐性)の検証を行った.結果とし て,回答時間は平均5.4秒,正答率は平均65.4%であり, 回答時間は既存手法に劣らないことが期待できる一方で, 正答率は使用するオブジェクトを選定する必要性などの 課題を見出した.また,総当たり攻撃への安全性として, 図4 提案手法の正答率が高かった出題(成功例) 図5 提案手法の正答率が低かった出題(失敗例) CAPTCHA画像1枚のみの出題では十分に確保されにく く,複数回出題するなどの検討が必要であるという結果を 得た. 今後は,これらの課題の解決とともに,関連研究との比 較実験によって提案手法の優位性を確認し,機械攻撃手法 を実装して耐性の確認を行う. 参考文献 [1] 藤 田 真 浩 ,池 谷 勇 樹 ,可 児 潤 也 ,西 垣 正 勝:非 現 実 画 像CAPTCHA:常識からの逸脱を利用した3DCG画像CAPTCHA,情報処理学会論文誌,Vol. 56, No. 12, pp. 2324–2336 (2015). [2] 立花聖也,児玉英一郎,王家宏,高田豊雄:3次元物体認 知能力に着目した変形3次元モデルCAPTCHAの提案, 電気関係学会東北支部連合大会講演論文集,Vol. 2014, pp. 231–231 (2014). [3] 可児潤也,鈴木徳一郎,上原章敬,山本匠,西垣正勝:4コ マ漫画CAPTCHA,情報処理学会論文誌,Vol. 54, No. 9, pp. 2232–2243 (2013).
[4] Elson, J., Douceur, J. R., Howell, J. and Saul, J.: Asirra: A CAPTCHA that Exploits Interest-Aligned Manual Im-age Categorization, Proc. of ACM CCS2007, pp. 366–374 (2007).
[5] Golle, P.: Machine Learning Attacks Against the Asirra CAPTCHA, Proc. of ACM CCS2008, pp. 535–542 (2008).
[6] 小林司,藤堂洋介,森井昌克:画像認識の困難性を利用し たCAPTCHA方式の提案,電子情報通信学会技術研究報 告, LOIS,ライフインテリジェンスとオフィス情報システ ム,Vol. 110, No. 207, pp. 37–42 (2010).