IPSJ SIG Technical Report Vol.2016-CSEC-75 No /12/1 3DCG CAPTCHA 1,a) (3D) 3DCG CAPTCHA CAPTCHA 3 3D CAPTCHA CAPTCHA 1 CAPTCHA 3 1. Web CA

(1)

物体のサイズ感を利用した

3DCG

画像

CAPTCHA

の検討

西原大貴

1,a)

_{新井イスマイル}

2 概要：人間特有の「常識からの逸脱を認識する能力」として，2つの3次元(3D)オブジェクトのめり込みを検出できる能力に着目した既存研究の3DCG画像CAPTCHAは，CAPTCHAに要求される3要件「利便性」「安全性」「自動生成性」を満たすとされたが，輪郭抽出技術の応用などによって機械が解読できる可能性がある．これに対し，本研究では，「常識からの逸脱を認識する能力」として，特定の3Dオブジェクトのサイズ感が周囲と異なる場合に違和感を覚える能力に着目したCAPTCHAを提案する．その利便性および安全性について検証を行った結果，利便性のうち回答時間は既存研究に劣らないことが期待できる一方で，正答率は使用するオブジェクトの組み合わせに大きく左右されることが分かった．また，総当たり攻撃への安全性は，CAPTCHA画像1枚のみの出題では十分に確保されにくく，既存研究と同様に複数回出題するなどの検討が必要であるという結果を得た．キーワード：ネットワークセキュリティ，CAPTCHA，サイズ感，3次元コンピュータグラフィックス

1. はじめに

Webサービスに対する，自動プログラムを用いた機械攻撃を防ぐ技術の一つとして，CAPTCHA(Completely Auto-mated Public Turing test to tell Computers and Humans

Apart)と呼ばれる人間か機械かを識別するテストが利用されている．それらのうち文字判別型CAPTCHAは現在広く利用されているが，近年ではOCR(Optical Character Recognition)技術の発展などにより，機械攻撃によって破られる可能性が高まってきた．すなわち，CAPTCHAは，人間にとって解読しやすいこと(利便性)の他に，機械攻撃耐性(安全性)が確保されている必要がある．一方で， CAPTHCAには，出題が自動生成可能である(自動生成性)という要求も存在する[1]．これを満たさない場合，出題の総数は有限となり，データベースを参照する機械攻撃が予測される．従って，CAPTHCAにはこれらの3要件が要求される．これを満たす既存研究として藤田らは，常識的な形状をした異なる2つの3次元オブジェクトをマージしてめり込ませることで生成した非現実オブジェクトをユーザに選択させる3DCG画像CAPTCHA手法(以下，非現実画像CAPTCHA)を提案した[1]．しかしながら，輪郭抽出技術を応用した機械攻撃により破られる可能性が考えら 1 _{明石工業高等専門学校電気情報工学科} 2 _{奈良先端科学技術大学院大学総合情報基盤センター} a) _{[email protected]} れる[2]．これに対し，我々は「サイズ感」に着目することで，輪郭抽出技術などにより各オブジェクトの形状や名称が限定されたとしても容易には解読されないと期待できる手法を提案する．本稿では，提案手法の利便性および総当たり攻撃に対する安全性を検証し，今後の方針を検討する．検証の結果として，利便性のうちユーザの回答時間は平均5.4秒，正答率は平均65.4%であった．文字判別型 CAPTCHAの回答時間が12秒，正答率が92%である[3] ことを鑑みれば，提案手法は利便性の向上が期待できる一方で，正答率が低下したためオブジェクトの選定に配慮が必要であることが確認された．また，総当たり攻撃への安全性は，CAPTCHA画像1枚のみの出題では十分に確保されにくく，非現実画像CAPTCHAと同様に複数回出題するなどの検討が必要であるという結果を得た．

2. 関連研究

文字判別型CAPTCHAは，図 1*1_{のように歪ませた文} 字列画像の文字列をユーザが読み取り，テキストとして入力するものである．自動生成が可能であり，かつ機械攻撃耐性に優れていたため，現在に至るまで多くのWebサービスで利用されてきたが，近年ではOCR(Optical Character Recognition)技術の発展により機械攻撃によって破られつつある．この問題を解決するため，以下に挙げるような様々な手法が提案されてきた．文字判別型CAPTCHAを含めた *1 _{https://auth.sso.biglobe.ne.jp/mail/}

(2)

図1 文字判別型CAPTCHA 表1 既存手法の3要件に対する評価安全性利便性自動生成文字判別型 _△ _⃝ _⃝ Assira × ⃝ △ 4コマ漫画 × △ × 2枚画像 _⃝ _△ _⃝ 非現実画像 _△ _⃝ _⃝ 各々の手法について，著者が3要件への評価を行い，高い順に_⃝△×で表したものを表1に示す． 2.1 Assira 「Assira」[4]は，12枚の犬と猫の画像から，猫をすべて選択させることで，ユーザが人間であるとするCAPTCHA である．猫の絵を認知する能力は人間の高度な認知能力であり，機械による突破は難しいと考えられていたが，2クラスの分類を得意とする機械学習判別機を用いた攻撃が有効であるとされた[5]． 2.2 4コマ漫画CAPTCHA 「4コマ漫画」CAPTCHA[3]は，人間特有の最も高度な認知処理である「ユーモアを解する能力」に着目し，ランダムに並べ替えられた4コマ漫画の各コマを，正しい順序に並べ替えさせる手法を用いた．機械はユーモアの理解が困難で，正攻法による突破が簡単ではない．しかし，並べ替え総数が少なく総当たり攻撃(ブルートフォースアタック)に脆弱であり，また起承転結が明解な4コマ漫画の自動生成が難しいという問題が残る． 2.3 2枚の画像を重ね合わせたCAPTCHA 小林らが提案した，2枚の画像を重ね合わせた画像の認識能力を問うCAPTCHA[6]は，重ねられた元の2枚の画像が何であるかを10種類の大分類に分けられた合計100 個の選択肢から選択する方式である．従って，答えは4950 通り存在し，藤田らが4096通り確保できれば十分であるとした[1]ことを鑑みれば，機械攻撃耐性は高い．また重ねられた2枚の画像を自動で分離することは困難であるため，安全性が保たれていると言える．しかし，この「2枚画像」方式は，検証の結果，人間の回答時間が平均27.2秒であり，一般的な文字列画像が10秒から18秒(論文中の値を引用)であることに比べて長くなるという課題が残る． 2.4 非現実画像CAPTCHA 藤田らは，「常識からの逸脱を認識する能力」が人間特図2 非現実オブジェクトを選択する「非現実画像CAPTCHA」有の高度な認知能力であることに着目し，2体の3Dオブジェクト同士をめり込ませて生成した新しいオブジェクト (非現実オブジェクト)をユーザに選択させる非現実画像 CAPTCHAを提案した．具体的には，図 2に示すような画像をユーザに出題し，複数の3Dオブジェクトの中に配置された1体の非現実オブジェクトをクリックさせる．これは，3DCGを用いることで出題の自動生成が可能であり，また，常識を持つ人間は容易に正解できるが，機械は人間の常識を備えることが困難で，通常と非現実のオブジェクトを見分け難い．さらに，安全性の検証としてオブジェクト同士の境界線が，マージされてできためり込み部分であるのか，あるいはめり込んではいないが遮蔽関係にあるのかを機械学習により検出する攻撃手法や，その他総当たり攻撃にも耐性を持ちうるとされた．具体的には，機械学習を用いた手法では，あらかじめ入手した大量の出題画像から，「一部を切り出した画像」と「その部分に正解オブジェクト(めり込んでいる部分)が存在するか否か」という教師用データセットを用いて機械学習を行うことで，画像中に「めり込みが含まれるか否か」を判定する分類器を作り，めり込んだオブジェクトを検出する攻撃手法を実装した．その後，この手法では画像中の「めり込んだ部分」と「遮蔽関係」を検出できるかどうかを検証した結果，正解率は 69.6%であることから，「遮蔽関係」と「めり込み」の区別は機械にとって困難であると結論付けた．また，総当たり攻撃耐性の検証では，CAPTCHAの有するべき総当たり数が4096通りであるとし，機械が画像解析によって出題画像中のすべてのオブジェクトを抽出できた場合を考えれば，オブジェクト数Nに対して，総当たり数はNとなるため，4体のオブジェクトが描画された出題画像を6枚出題し，全て正解できたユーザを人間とみなせば46_{= 4096} 通り確保できるとした．しかしながら，輪郭抽出技術の応用など，その他の攻撃手法により，めり込んだオブジェクトが検出できる可能性が考えられる[2]．

(3)

図3 提案手法によるCAPTCHA画像のイメージ

3. 物体のサイズ感を利用した手法の提案

本研究では，藤田らと同様に，常識からの逸脱を認識する人間特有の能力に着目し，ユーザに物体の常識的なサイズ感を識別させるCAPTCHA手法を提案する． 3.1 CAPTCHA画像の生成手法概要図3に示すように，「背景」3Dオブジェクトを基準として複数の「物体」3Dオブジェクトを宙に浮かせることなく(「背景」に接するように)任意の位置に配置した画像を出題し，その中から背景に対して非常識な大きさの「正解」オブジェクト(この例では，テーブル上の横転した白いコップ)を選択できたユーザを人間とみなす．この時，背景および配置する物体はデータベースより無作為に選択し，また，出題の3DCG画像を描画する際のカメラ位置は，配置した物体が全て映る範囲内で，一意に定めないとする． 3.2 期待される提案手法の有用性本提案手法では，ユーザは，背景を基準とした相対的な大きさとして，配置された物体を認識するため，背景が示す場所や状況，奥行きを理解し考慮する必要がある．近い将来には，機械が輪郭抽出や機械学習などにより，配置された個々の物体の正体をおおむね解明することで，その物体の常識的な大きさを検索エンジンやデータベースから参照できる可能性がある．しかし，提案手法では，背景の場所や，背景自体との物体の位置関係を解読できない限り，機械による突破は容易ではないと考えられる．例えば，学校教室内と体育館内では置かれる物体が同じであっても周囲の背景に対するサイズ感は異なり，また同じ体育館内であってもカメラの配置によって奥行きが変わり，物体のみに着目した攻撃手法では突破できない．背景との関連が把握できない場合であっても，大きさを把握できた複数の物体同士で大きさを比較することにより，解答を推測できる可能性が考えられるが，出題画像には奥行きがあるため，手前と奥に配置された物体では同じ大きさであっても描画ピクセル数が異なり，やはり背景との関連を見破る必要がある．これらより，高い安全性が期待できる．また，本提案手法では，出題画像は無作為に自動生成されるため，無数の出題が可能であることから，自動生成性を有すると言える．一方で，常識を持つ人間は，背景からその状況を容易に推測することができ，常識的なサイズ感を瞬時に把握することができるため，出題に対する解読の負担が小さくなり，利便性の確保が期待できる．以上のことから，提案手法はCAPTCHAに要求される 3要件を満たすと期待する．

4. 提案手法の検証

4.1 検証方法 3種類の「背景」(実装の簡略化のためいずれも閉鎖された室内：学校教室，住宅の一室2種類)および11種類の「物体」(インターネットから3Dモデルデータを取得できたオブジェクトのうち，アニメキャラクターなどのように普通名詞で表し難いものを除いたオブジェクト：消火器，椅子，机2種類，鉢植え，タンス，戸棚2種類，ライフル銃，林檎2種類)の3Dオブジェクトを用意した．「物体」を無作為に4種類選択し，そのうち1種類を0.25∼0.75倍に縮小あるいは1.5∼2倍に拡大した「正解」オブジェクトとして，1種類の「背景」の中に無作為に配置した画像を生成した．その中から4種類全ての「物体」の一部あるいは全部が描画されている(隠れていない)画像を著者が26 枚選択し出題画像とした．12人の被験者に対し，各出題画像について正解だと思う座標をクリックしてもらい，その回答時間と正誤を記録した．また，総当たり攻撃への耐性(安全性)を検討するために，各出題画像中に占める正解オブジェクトの描画ピクセル数を計数し，画像サイズに対する割合(描画割合)を算出した． 4.2 検証結果 26枚すべての画像と，正答率の高い10枚のみに着目した場合のそれぞれについて，本検証で得られた被験者の平均回答時間および平均正答率を表2に示す．同時に，比較のために，藤田らの手法(非現実画像)の実験結果の一例 (オブジェクト数4体の出題画像を6枚連続正解させるとした場合)，藤田らが指標に用いた文字判別型CAPTCHA についても論文中のデータを引用した．図4は，提案手法の正答率が高かった出題(成功例)，図5は正答率が低かった出題(失敗例)を示している．また，提案手法の描画割合の平均は，3.5%であった．

5. 検証の考察と今後の課題

表2に示す通り，提案手法は，出題画像1枚当たりの平

(4)

表2 各手法の平均の回答時間および正答率回答時間[s] 正答率[%] 提案手法 5.4 65.4 提案手法(上位10枚) 3.6 90.8 非現実画像(6枚出題時) 13.5 88.6 文字判別型 12 92 均回答時間は5.4秒と十分に短いが，正答率が65.4%と低く，人間であっても正解できない確率が高いため，正答率を向上させる対策が必要となる．特に，出題画像の中には正答率8.3%という極端に低いものが含まれていたことが，平均正答率が大きく下げた一因と考えられるが，以下に述べるようにその出題の正答率が低かった原因を追究することで，正答率の高い10枚のみを選出することができたとすれば，回答時間は更に短くなり，正答率は他の手法と同等になると言える．正答率が低い出題について，被験者の意見を交えて要因を挙げれば，机や鉢植えなどサイズ感が一意に定まらない，銃など親しみがなくサイズ感が分かりにくいなどがあったため，これらを解決するオブジェクトを選定する必要がある．特に図5に示した失敗例は，その両方によるものであったと思われる．これを解決する手法として，インターネット上からサイズ感を取得する(例えば商品サイトで物体名を検索することで，掲載されている商品のサイズを目安として取得する)などが挙げられ，これは今後の課題となる．また，本検証では，描画物体数は4体に固定し，正解オブジェクトのサイズ変更の倍率は範囲を限定して行ったため，これらを変更し，利便性を向上させる検証も今後行う．安全性について，総当たり攻撃に着目すれば，総当たり数は4096通りを確保すれば十分である[1]が，本検証では，描画割合の平均が3.5%であったため，3枚出題して全て正解できるかを試せば( 1 0.035) 3_{≈ 23000}_{通り確保できる} といえる(2枚の場合は(_0.0351 )2≈ 800通り)．また，本検証においては正解物体数を1体としていたが，これを3体に変えて全て選択するタスクに変更すれば，1枚の出題でも(_0.0351 )3·_3!1 ≈ 3800通りの総当たり数が期待される．いずれの手法も同時に利便性の低下が予想されるため，出題画像作成段階での描画割合の調整や，画像1枚当たりの利便性の向上が，今後の課題となる．

6. おわりに

本稿では，物体のサイズ感を利用した 3DCG 画像 CAPTCHA手法を提案し，利便性(回答時間，正答率) と安全性(総当たり攻撃耐性)の検証を行った．結果として，回答時間は平均5.4秒，正答率は平均65.4%であり，回答時間は既存手法に劣らないことが期待できる一方で，正答率は使用するオブジェクトを選定する必要性などの課題を見出した．また，総当たり攻撃への安全性として，図4 提案手法の正答率が高かった出題(成功例) 図5 提案手法の正答率が低かった出題(失敗例) CAPTCHA画像1枚のみの出題では十分に確保されにくく，複数回出題するなどの検討が必要であるという結果を得た．今後は，これらの課題の解決とともに，関連研究との比較実験によって提案手法の優位性を確認し，機械攻撃手法を実装して耐性の確認を行う．参考文献 [1] 藤田真浩，池谷勇樹，可児潤也，西垣正勝：非現実画像CAPTCHA：常識からの逸脱を利用した3DCG画像

CAPTCHA，情報処理学会論文誌，Vol. 56, No. 12, pp. 2324–2336 (2015). [2] 立花聖也，児玉英一郎，王家宏，高田豊雄：3次元物体認知能力に着目した変形3次元モデルCAPTCHAの提案，電気関係学会東北支部連合大会講演論文集，Vol. 2014, pp. 231–231 (2014). [3] 可児潤也，鈴木徳一郎，上原章敬，山本匠，西垣正勝：4コマ漫画CAPTCHA，情報処理学会論文誌，Vol. 54, No. 9, pp. 2232–2243 (2013).

[4] Elson, J., Douceur, J. R., Howell, J. and Saul, J.: Asirra: A CAPTCHA that Exploits Interest-Aligned Manual Im-age Categorization, Proc. of ACM CCS2007, pp. 366–374 (2007).

[5] Golle, P.: Machine Learning Attacks Against the Asirra CAPTCHA, Proc. of ACM CCS2008, pp. 535–542 (2008).

(5)

[6] 小林司，藤堂洋介，森井昌克：画像認識の困難性を利用したCAPTCHA方式の提案，電子情報通信学会技術研究報告, LOIS,ライフインテリジェンスとオフィス情報システム，Vol. 110, No. 207, pp. 37–42 (2010).

IPSJ SIG Technical Report Vol.2016-CSEC-75 No /12/1 3DCG CAPTCHA 1,a) (3D) 3DCG CAPTCHA CAPTCHA 3 3D CAPTCHA CAPTCHA 1 CAPTCHA 3 1. Web CA

物体のサイズ感を利用した

3DCG

画像

CAPTCHA

の検討

西原 大貴

新井 イスマイル

1.

はじめに

2.

関連研究

3.

物体のサイズ感を利用した手法の提案

4.

提案手法の検証

5.

検証の考察と今後の課題

6.

おわりに

西原大貴

_{新井イスマイル}