1. は じ め に
計算機単独では解くことが困難な問題を人間の能力 と組み合わせることで解決するヒューマンコンピュテー ションのアプローチがさまざまな分野で成功を収めつつ ある [Law 11].ヒューマンコンピュテーションでは,目 的をもったゲーム(games with a purpose:GWAP) やクラウドソーシング(crowdsourcing)を用いて, 計算機プログラムにおける関数呼出しのような形で,人 間に仕事を依頼して結果を受け取り,それをさらに大き な計算過程の一部として活用する.一方,ヒューマンコ ンピュテーションは人間を構成要素として含むため,従 来の機械単独での計算に比べて,その計算品質における 不確実性が大きくなる.例えば,通常の関数呼出しであ れば,同じ入力を与えれば同じ出力が得られることが期 待されるが,人間に仕事を依頼する場合,たとえ同じ人 に同じ仕事を依頼したとしても,異なる結果が得られる ことは珍しくない.なお,本稿で述べる「計算」は,通 常の意味での計算に限らず,画像を分類することや,自 然言語文にタグ付けすることなど,人間に依頼する情報 処理タスク一般を意味する. 多数の構成要素からなる計算システム全体の品質を高 めたい場合,以下の二つのアプローチが考えられる. 個々の計算の精度を高める. 個々の計算が間違っていたとしても,全体としての 精度に影響しない仕組みを導入する. 前者のアプローチは,(物理的な)機械に例えると, 一つ一つの部品の精度を高め,故障が起きる可能性を小 さくすることに対応する.後者のアプローチは,たとえ いくつかの部品が故障したとしても,全体としての機械 の動作に影響を与えないような設計をすることに対応す る.もちろん,十分な品質を確保するには,両方のアプ ローチを併せて用いることが必要である.また,単に精 度を向上させるだけではなく,計算に掛かるコストなど とのトレードオフを考慮して,品質管理プロセス全体と しての最適化を図ることも必要である. 本稿では,上で述べたようなヒューマンコンピュテー ションの各段階で,品質を向上させるためにどのような 手段を取り得るかを解説する.一方で,ヒューマンコン ピュテーションを用いた複雑なシステムを構築するので はなく,機械学習に用いる訓練データの収集や開発した システムのユーザ評価などで 1 回限りクラウドソーシン グを利用したい場合も多いであろう.その際にも,後で 述べるワーカのフィルタリングや,複数のワーカの回答 から真の正解を導く方法など,個々の品質管理技術だけ を取り出して用いたい場合も多いと考えられる.本稿で は,関連研究を網羅的に紹介するのではなく,その中か らクラウドソーシングを使う多くの研究者・技術者が実 装・実行できるような基本的な手法を選択し,それらを 詳しく説明することを心掛けた.
2. 個々の計算の精度を高める
本稿では,ヒューマンコンピュテーションで計算を担 う(タスクを実行する)人間をワーカと呼ぶ.常に品質 の安定した計算機による情報処理とは異なり,人間によ る情報処理はワーカごとに,また同じワーカによっても 状況によってその品質が大きく異なる.そのため,なる べく良い仕事をしてくれそうなワーカに選択的に作業を 依頼することと,依頼したワーカの能力を最大限に引き 出すことが必要となる. 2・1 能力の高いワーカを選択する ワーカによる作業の精度は,その経験や注意力に大き く依存する.例えば言語処理に関するタスクでは,対象 とする言語がワーカの母国語であるか否かによって,そ の精度は大きく異なる.実際のクラウドソーシングサー ビスでは,ワーカの作業結果の承認もしくは拒否を依頼 者が選択できる.過去の作業での承認率が 95%以上の ワーカにだけ作業を依頼するといったフィルタリング機 能が利用可能な場合が多い.また,事前に別のタスクで テストを行い,ワーカのフィルタリングを行うことも有 効である.正解のわかっているタスクを,通常のタスク 「ヒューマンコンピュテーションとクラウドソーシング」ヒューマンコンピュテーションの品質管理
Quality Management in Human Computation
小山 聡
北海道大学大学院情報科学研究科Satoshi Oyama Graduate School of Information Science and Technology, Hokkaido University.
[email protected], http://kussharo.complex.ist.hokudai.ac.jp/~oyama/
Keywords:
human computation, crowdsourcing, quality management, item response theory.に紛れ込ませて,ワーカの能力を測ることもよく行われ る [Kazai 11]. これまでに,ワーカの能力を測る指標がいくつか提案 されている.それらを紹介する前に,本稿で共通して用 いる問題設定を定義しておこう.本稿では,説明を簡単 にするために,ヒューマンコンピュテーションにおける タスクの例として,N 個のアイテムに対して J 人のワー カが 2 値のラベル付けを行う問題を考える.ただし,一 人のワーカがすべてのアイテムにラベル付けを行う必要 はない.また,Ij⊆ {1, …, N} をワーカ j がラベルを付 けたアイテムの集合,Ji⊆ {1, …, J} をアイテム i にラ ベルを付けたワーカの集合とする.ti∈ {0, 1}( i ∈ {1, …, N})は i 番目のアイテムの真のラベル,yij ∈ {0, 1}( j ∈ Ji)はワーカ j がアイテム i に付けたラベルである. 真のラベルが 1 のときにワーカ j がラベル 1 を付ける確 率をa( j)1 =p( y ij=1|ti=1),真のラベルが 0 のときにワー カ j がラベル 1 を付ける確率をa( j)0 =p(yij= 1|ti=0)と 表すと,ワーカ j の正解率(真のラベルとワーカのラベル の一致率)は sj=a( j)0 q+(1-a 0 ( j))(1-q)となる.ここで,q は真のラベルが 1 となる確率である.a1 ( j)が大きく,a 0 ( j) が小さいほど,能力が高いワーカとみなすことができる. 正解がわかっているデータがあれば,ワーカの付けた ラベルから正解率が計算できるので,正解率の低いワー カを排除すればよい.ところで,正解率が 0 に近いワー カ(例えば常に正解と反対に答えるワーカ)は,悪意の あるワーカや,問題を勘違いしてラベルを逆に付けてい るワーカと考えらえる.ところが,そのようなワーカを 正解のわかっているデータを使って特定できれば,それ らのワーカのラベルを逆に付け替えることで真のラベル を高い精度で推定可能である [Ipeirotis 10].一方,ヒュー マンコンピュテーションで問題になる可能性が高いのは, ランダムにラベルを付けるいわゆるスパムワーカである. スパムワーカには,回答するのに十分な能力がなく当て ずっぽうで答えるワーカや,最初から金銭だけが欲しく 問題を見ずにランダムに答えるワーカ,あるいは人間で はなく,ボットなどのプログラムである場合が考えられ る.スパムワーカは,問題を見ずにランダムに答えるの で,正解にワーカのラベルの確率が依存しない,すなわち p ( yj=1|t=1)=p( yj=1|t =0)となる.これを書き直 すとa1=a0であり,両辺の値が近いほど,スパムワーカ である可能性が高くなる.これを元に,[0, 1] の値を取る スパマスコア Sj=(a 1-a0) 2が提案されている [Raykar 11].なお,これは 2 値ラベルのときの指標であるが, 多値ラベルや順序ラベルの場合にも拡張されている. 2・2 タスクの難しさも考慮してワーカを評価する 正解率に基づいてワーカを評価すると,難しいタスク に取り組んで 60%の正解率であったワーカも,やさしい タスクに取り組んで 60%の正解率であったワーカと同 じ評価をしてしまい,不公平である.TOEFL などのテ ストの設計に用いられる項目反応理論(item response theory)を用いれば,ワーカの能力を単純な正解率で はなくタスクの難易度を考慮したスコアで評価すること ができる.項目反応理論自体はヒューマンコンピュテー ション・クラウドソーシングとは独立に研究されてきた ものであるが,人間の能力をモデル化するという点で, さまざまな品質保証アルゴリズムのベースになる.以下 では簡単なモデルでその考え方を紹介しよう. ワーカ j の能力の高さを表すパラメータをθj,タスク iの難しさを表すパラメータをγiとしよう.ここで,ワー カのラベルと正解が一致しているか否かを表す変数 zij= 1-|ti-yij|を導入する.このとき,ワーカ j がタスク i に正解する確率が (1) であるとする( はロジスティック関数を表す).これ は項目反応理論の中で最も単純なラッシュ(Rasch)モ デルと呼ばれるもので,ワーカの能力とタスクの難しさ が等しい(θj=γi)とき,ちょうど 1/2 の確率で正解する. 正解がわかっているデータを用いれば,ワーカの答えか ら能力パラメータと難易度パラメータを同時に推定する ことが可能である.PROX と呼ばれる方法では,タス ク i を実行したワーカの能力パラメータとワーカ j の実 行したタスクの難易度パラメータが,それぞれ正規分布 N(μi, σi 2)と N(λ j, ρj 2)に従うと仮定する [Linacre 94].タスク i の正解率(正解したワーカの割合)を ri= j∈ Ji z ij /|Ji|,ワーカ j の正解率(正解したタスクの割合) を sj=i∈Ij z ij /|Ij|とすると,タスクの正解率の期待値 は と書ける.ロジスティック関数 と累積正規分布関数 の間の近似式 (x)≈ (x/1.7)を使うと,結局 となり,これを正解がわかっているデータから計算した 正解率 riに等しいと置いて,γiについて解くと (2) となる.同様にθjについても (3) という関係式が求まる.式(2)は,タスクの難易度は そのタスクの正解率 riのオッズ比(の逆数)をそのタ スクを解いたワーカの能力の分布を使って原点移動とス ケール変換をしたものであることを表している.同様に 式(3)はワーカの能力はそのワーカの正解率 sjをその ワーカが解いたタスクの難易度の分布を使って原点移 p ij j j j = ( )= − − ( ) + ( )=( ) 1 1 exp exp θ θ Ψθ z i i i − γ γ γ θ E d d d i i i
[
−∞ ∞∫
Ψ θ θ σ θ = ( − ) − r]
i Φ µ γ γi σ i i r r ≈ − 1 1 7 1 2 . ln i i + + µ θj ρ j j s s ≈ − 1 1 7 1 2 . ln λj j + + Ψ σ i i − +( ) 1 / 7 2 ≈ i 1. µ γ E[
ri]
動とスケール変換をしたものであることを表している. この二つの関係式を繰り返し計算で解くことで,{γi}と {θj}を求めることができる. 項目反応理論は,2 値の問題以外にも,複数選択肢の 問題や選択肢が正しい確率を答えさせる問題など,さま ざまな形式のテストに関して手法が開発されている.詳 細は参考書 [村木 11] などを参照されたい. 2・3 ワーカに自分の作業品質を自己申告させる 項目反応理論ではタスクの難しさを統計的に推定す る.一方,それとは全く別の方法として,タスクの難し さをワーカに聞くというアプローチも存在する.これは, そのタスクを解いたワーカであれば,その難しさを判断 できるだろうという仮説に立っている.実際,映画のレ ビューを読んでその映画の 5 段階評価を予測するタスク において,ワーカにタスクの難しさも 5 段階で自己申告 させる実験が行われ,タスクの難しさとワーカの作業品 質(ワーカの予測した映画の評価の正確さ)の間に負の 相関があることが示されている [Ipeirotis 09]. ところで,タスクの難しさをワーカに聞く場合,ワー カに依存しないタスクの固有の属性(Rasch モデル(1) でいうタスクの難易度 γi)を聞いているのか,あるいは そのワーカにとっての難しさを聞いているのかが曖昧 である(一般の人には難しいが,能力の高いワーカに とってはやさしいといった場合があり得る).むしろ, 正解率に関連する指標を尋ねるほうが適切かもしれな い.例えば,ワーカに自分の回答に対する自信(答えが 正しいと思う主観的な確率)を申告させることもできる [Oyama 13](これは認知心理学における確信度判断に 対応する).また,確信度を直接申告させなくても,成 功すると高い報酬が得られるが,失敗するとわずかな報 酬しか得られないプランと,成功しても失敗しても報酬 があまり変わらないプランの 2 種類を用意してワーカに 選択させると,自信のあるワーカは前者を,自信のない ワーカは後者を選択するであろう.このような報酬プラ ンの設計を行うことで,ワーカを能力に応じてグルーピ ングできることが示されている [Sakurai 13]. 2・4 ワーカに真面目に働いてもらう 以上では精度の高い仕事をするワーカを選択するため の方法について述べたが,機械と人間の大きな違いは, 人間はやる気を出さなければ,その本来の能力を発揮で きないことである.上で述べたようなフィルタリング機 構が存在すること自体が,ワーカに真面目に仕事をしよ うという動機付けを与える. さらに,ワーカに良い仕事をしようというインセ ンティブを積極的に与えることで,品質向上を図るア プローチも存在する.ここでインセンティブとは,金 銭的なものだけでなく,仕事の達成感や楽しさといっ たものも含まれる.GWAP やゲーミフィケーション (gamification)は後者を活用したアプローチである. GWAPの代表例である ESP ゲームでは,同じ画像を二 人のワーカがタグ付けをし,二人のタグが一致すると そのゲームは完了となり,一定時間内になるべく多数 のゲームを完了することでポイントを競う.上のような ゲームを導入すると,お互いに相手が入力するであろう タグを想像して入力することになるので,ワーカに独立 にタグを入力させるよりも,一般的な人が画像から想起 するであろう質の良いタグを得ることが可能となる(た だし,頻度の高い単語ばかりが入力されるといった問題 が残る.そのような問題を解決する方法についても研究 されている [Jain 13]). GWAPにはほかにもいくつかの枠組みがあり本特集 の [鹿島 14] に紹介されているので,そちらを参照され たい.また,金銭的なインセンティブで品質を管理する 方法についても [櫻井 14] に述べられている. 2・5 ワーカの作業過程をモニタリングする 上に述べたアプローチは,作業結果をもとにワーカ の作業の正確さを推定するアプローチであったが,そ れと補完的に,ワーカが作業している過程をモニタリン グすることで,品質管理を行うアプローチも存在する. oDesk*1ではワーカの作業画面が定期的にキャプチャさ れ,依頼者に送られるが,これもワーカが真面目に働く インセンティブを与えることにもなる.さらに,タスク フィンガプリント(task fingerprint)と呼ばれるマウ ス操作や画面スクロールの回数などの単純な統計情報を ワーカの画面操作ログから抽出し,これらを特徴として 機械学習を用いることで,高い精度で作業品質を予測で きることも示されている [Rzeszotarski 11].
3. 間違った答えを出すワーカがいても正しい
答えを導く
これまで,個々のワーカに正しい結果を答えてもらう 方策について説明をした.しかし,いかに優秀なワーカ を集め,彼らが真剣に仕事をしたとしても,誤りの可能 性を完全に排除することはできない.そこで,間違った 答えを出すワーカがある程度いたとしても,正解を導く ことができる一種の誤り訂正の方法が必要となる. 3・1 多 数 決 を と る ワーカの誤りに対して頑健な計算を行う最も単純な 方法は,冗長度を上げる,すなわち同じタスクを複数の ワーカに依頼することである.2 値分類問題では,多数 決を取ることで,最終的な解を決定する.多数決が機能 する前提は,ワーカの正解率がある程度高いことである. *1 https://www.odesk.com/2J+1 人での多数決が正解と一致する確率は,間違える ワーカの数が J 人以下である確率なので,すべてのワー カが同じ正解率 s をもつとすると である.これは,s が 1 に近い場合,少ない J でも 1 に 近い値が得られるが,s が 0.5 に近い場合は,J を非常 に大きくしなければ,高い精度を得ることができないこ とを示している [Sheng 08].しかし,冗長度を上げるこ とは,その分ワーカに支払うコストが増大することを意 味する.このことからも,前章で述べたような方式であ る程度個々のワーカの正解率を確保しておくことの重要 性がわかる. 3・2 ワーカの能力で票に重みを付ける 単純多数決は,すべてのワーカの能力(正解率)が 等しいと仮定していた.しかし,ワーカの正解率がわ かっていれば,正解率の高いワーカの意見を重視する ことで,正解を導ける可能性が高くなる.正解のわ かっているデータを使って各ワーカのパラメータ a1 ( j)= p( yij=1|ti=1)および a( j)0 =p( yij=1|ti=0)が推定で きれば,これらを用いてワーカのラベル { yij}が与えられ たときの tiの事後確率を計算することで,正解を推定す ることができる [Snow 08]. tiの分布に関して事前の知識がない(事前確率が一様 な)ときは,ti= 1 の場合と ti= 0 の場合でそれぞれ以 下の式の値を計算し,大きな値となるほうを最終的な解 とすればよい. ここで,両者の対数比を取ると となる.ここで,第 1 項は yij= 1 というラベルを付け たワーカの数を ln(a( j)1 /a 0 ( j))で重みを付けてカウント したものと考えることができる.重みは真のラベルが 1 のときに 1 のラベルを付ける確率が高く,真のラベルが 0のときに 1 のラベルを付ける確率が低いワーカのとき に大きくなる.第 2 項も同様に yij= 0 というラベルを 付けたワーカの数を ln((1-a0( j))/(1-a 1 ( j)))で重みを 付けてカウントしたものであり,真のラベルが 0 のとき に 0 のラベルを付ける確率が高く,真のラベルが 1 のと きに 0 のラベルを付ける確率が低いワーカの重みが大き くなる.よって,この推定方法はワーカの能力によって 重みを付けて多数決を取る方法と考えることができる. 実際に複数の自然言語処理タスクにおいて,このような 重み付きの多数決で単純な多数決よりも高い精度で正解 を推定できることが示されている [Snow 08].
4. ワーカの能力推定と正解の推定を同時に行う
これまでに述べたワーカの能力によるフィルタリング や正解の推定は,あらかじめ正解のわかっているデータ についてワーカに作業をさせることで,ワーカの能力を 推定するという前提であった.しかし,実際には正解の あるデータを十分に用意できないことも多い.そこで, 正解がわかっていないデータに関するワーカの作業結果 から,ワーカの能力と正解を同時に推定する方法につい て説明する. 4・1 正解を隠れ変数として EM 法で解く 3・2 節の方法により,ワーカの能力を表すパラメー タ(a0( j), a 1 ( j))がわかっていれば正解を推定できる.逆 に正解がわかっていれば,これらのパラメータを推定で きる,ということで相互依存の関係になっている.そこ で,正解の推定値に適当な初期値を割り当て,そこから ワーカの能力パラメータと正解の推定を交互に繰り返す ことで,正解の推定値を改善していく方法が知られてい る [Dawid 79].この Dawid と Skene の方法は,クラウ ドソーシングが出現するはるか以前に,複数の医療診断 結果から患者の状態を推定する問題を例に提案されたも のであるが,近年クラウドソーシングの研究論文で多く 引用されるようになった.高い精度で正解を推定できる 一方で,アルゴリズムは比較的単純であるのでさまざま な拡張がなされている.そこで,以下ではこのアルゴリ ズムについて多少詳しく説明をしよう. Dawidと Skene のオリジナルの方法は多クラス分類 で記述されているが,簡単のために 2 値分類の問題で説 明する.ここで,次の確率モデルを考える. まず,アイテム i の真のラベルは確率 q で値 1 を,確 率 1- q で値 0 を取るとする.すなわち,q をパラメー タとするベルヌーイ分布 p(ti)=q ti (1 - q)(1-ti)により生 成されると考える.次に,ワーカの能力に応じて,真の ラベルからワーカのラベルが確率的に決まると考える. ti= 1 のとき,ワーカ j がアイテム i に付けるラベル yij はa1( j)を パ ラ メ ー タ と す る ベ ル ヌ ー イ 分 布 p( yij| ti= 1)=(a1( j))y(1-ij a 1 ( j))(1-yij)に従う.同様に,t i=0 のとき,ワーカ j がアイテム i に付けるラベル yijはa( j) 0 をパラメータとするベルヌーイ分布 p( yij|ti=0)= (a( j)0 ) y( 1- ij a 0 ( j)(1-y) ij)に従う.観測されるのはワーカの 付 け た ラ ベ ル { yij}だ け で あ り,こ れ を も と に 真 の ラベル{ti}とワーカの能力パラメータ {( j)}= {(a 0 ( j), 2 0 2 1 J j J j J j C s s + = + −∑
1 1 j( −) =(
)
+(
)
(
=)
(
)
=(
)
(
−)
=(
)
+(
)
(
=)
(
)
=(
)
(
− ( ( ( − ( ( j j j j ij ij i j j j y j y ij ij i j j j y j y y y y y y y y ij ij ij 1 1 1 1 1 1 0 1 1 1 0 α α))
(1 y−ij = − = = − = ) ) ) ) ) i i i i i i p t p t p t p t 1 0 0 0 1 0 α α )∏
∏
∏
∏
yij j j j ij j j j ln α ln α α α 1 0 0 1 1 1 1 ( ( ( ( −(
)
− − ∑
y ) ) ) ) −∑
p i yj yj p j i i i{
{
(
)
=(
)
( )
∈ ∈{∏
∏
, , 1 t i p i ti t J N}
}
} ,a1 ( j))} を求める.具体的には,以下の EM(Expectation Maximization)法を用いる. E ステップ ラベルの分布 q およびワーカの能力パラ メータ {( j)}の推定値を固定して,隠れ変数 {t i}の期 待値を推定する. M ステップ 隠れ変数 {ti}の期待値を固定して,ラベル の分布 q およびパラメータ {( j)}を推定する. Eステップにおいて,tiの期待値は以下で計算される. ここで,ziは正規化定数である.期待値の計算には以 下を評価することも必要である. 上の二つの式を E[ti]+(1-E[ti])=1 のもとで解くこと で,ziの値が得られ,期待値 E[ti]が求まる. Mステップにおいて,q および {( j)}の推定値は以下 で計算される. Dawid-Skeneの方法を実際に用いる際に問題となる のが,初期化をどのように行うかである.よく用いられ る方法は tiの期待値をワーカのラベルの頻度に基づいて 定める方法である.2 値変数の場合は,ラベル 1 を付け たワーカの割合になる.EM 法を用いる Dawid-Skene の方法は,大域的な最適解が求まることは保証されず, 初期値に依存して異なった局所解が得られるが,上で述 べた初期化の方法は,比較的良好な局所解を与えること が経験的に知られている [Dawid 79]. 4・2 タスクの難しさを考慮する タスクの難しさを考慮して,ワーカの能力と正解とを 同時に求めることも可能であり,以下のようなモデルが 提案されている [Whitehill 09]. (4) ここでは,1/ηiがタスクの難しさを表すパラメータに なっていて,ηi ⟶ 0 でどんなに能力の高い(θjが大き い)ワーカであっても 1/2 の確率(当て推量)でしか正 解できず,ηi ⟶ ∞で(θj> 0 の)すべてのワーカが常 に正解できるようになる.Whitehill らの方法において も,ワーカのラベル {yij}が与えられたとき,EM 法を用 いて真のラベル {ti}の推定と,問題の難易度 {ηi}および ワーカの能力 {θj}の推定を交互に行う. なお,ここでの難易度 ηiは Rasch モデルにおける難 易度パラメータ γiには対応していない.むしろ,より一 般的な項目反応モデルである 2 パラメータロジスティッ クモデル における項目識別力パラメータηiに対応している.項目 識別力パラメータはロジスティック関数における立上が りの急峻さを表し,ηiが 0 に近ければワーカの能力が異 なっても正解率があまり変化しないが,ηiが大きければ ワーカの能力のしきい値の前後で正解率が大きく変化す る.ただ,Whitehill らのモデルではγiをすべて 0 と置 いているので,識別力パラメータηiが同じであればワー カの能力が高いほうが正解率が高く,ワーカの能力 γjが 同じであれば識別力パラメータが大きいほうが正解率が 高くなるので,ηiは問題の難しさ(の逆数)を表してい るとみなすことができる.このように,Whitehill のモ デル(4)も項目反応理論のモデルの特殊な場合とみな すことができ,彼らの方法はそれを正解のない場合に拡 張したものと考えることができる. 4・3 タスクに対するワーカの自信を考慮する Whitehillらの方法はタスクの難しさを計算によって 推定するアプローチであるが,一方で 2・3 節で述べた ように,タスクの難しさ,あるいはワーカの回答に関す る自信を直接ワーカに尋ねるというアプローチもあり得 る.こちらのほうが,人間の能力を積極的に活用すると いう点で,よりヒューマンコンピュテーションの考え方 を推し進めた方法といえるかもしれない.ワーカが自分 の回答が正しいと思う確率が確信度として得られれば, それを実際の正解率とみなし,3・2 節で述べたような方 法で重みを付けて多数決を取ることもできる. ただし,ワーカの自己申告した自信(確信度)をその まま鵜呑みにするのは少々危険である.確信度と正解率 の間には相関があるが,正解率に比べて確信度が高い自 信過剰なワーカや,正解率に比べて確信度が低い自信過 小なワーカも多く存在する.確信度判断の正確さは人に よって異なり.各ワーカの付けた確信度を一様に扱うの ではなく,ワーカの自己評価の正確さの違いを考慮する 必要がある. そこで,Dawid-Skene のモデルを拡張した以下のよ うなモデルを考える [Oyama 13]. cij∈ {0, 1}( j ∈ Ji)はワーカ j がアイテム i に付けた E p y q z i ij i j j y j y i ij ij
[
=(
{
)
={
(
)
(
−)
∈ ( ( (−∏
1 1 1 1 α α t ti J]
=}
}
) ) ) 1 1 1 1 0 1 −[
=(
{
)
= −{
(
)
(
−)
∈ ( ( ( −∏
E p y q z i ij i j j y j y i ij ij α α 0 0]
=}
}
) ) ) t ti J ˆ ˆ ˆ , q E N E y E E y E i i j i i j i i j i i j i i j j j j =∑[
=∑∑(
(
[
[
)
)
=∑[
∑[
∈{ ( ∈ ∈ ( ∈ ∈ 1 0 1 1 1 α α , t t t t t N I i I I i I]
−]
−]
]
]
} ) ) p ij i i =(
)
=(
)
+(
)
1 1 exp exp η η θ θ z j j p y p y p t t i j j ij ij i j i ij i i{
{
{
(
)
=(
)
(
)
( )
∈ ∈{∏
∏
, , , 1 t c c t y p i i J N i}
}
}
} , , p ij i i i i =(
)
=(
(
−)
)
+(
(
)
)
1 1 exp exp η γ η θ θ γ z j j−ラベルに対する確信度であり,自信がある場合が 1,な い場合が 0 に対応する(ここでは単純化のために確信度 を 2 値で扱っている).例えば,真のラベルが ti= 0 か つワーカ j のラベルが yij= 0 のときの確信度は,β00( j) をパラメータとするベルヌーイ分布 p(cij|ti=0, yij=0) =(β00( j)) c(1-ij β 00( j))(1-cij)により確率的に決定される. 残りの三つの場合の条件付き分布,p(cij|ti= 0, yij=1), p (cij|ti=1, yij=0)および p(cij|ti=1, yij=1)も同様に定 義される.これらのパラメータを用いて,自信過剰なワー カは自分のラベルが正しくない場合でも高い確信度を付 け,逆に自信過小なワーカは自分のラベルが正しい場合 でも低い確信度を付ける,といった各ワーカの傾向を考 慮したモデル化が可能となる.正解およびパラメータの 推定は Dawid-Skene のモデルと同様に EM 法を用いて 行うことができる.
5. 品質管理プロセス全体を最適化する
5・1 タスクの選択を効率化する 前章までで述べた方法は,すべてのタスクに対する ワーカの作業が終わってからバッチ的に処理を行い,各 タスクの冗長度もあらかじめ定められていた.しかし, タスクの実行にはコストが掛かるため,品質が保証さ れるならばなるべく冗長度は少なくできたほうが望まし い.そのためには,すべてのタスクに同じ冗長度を与え るのではなく,正解が不確かなタスクに重点的にラベル 付けを行う必要がある. そのために,多数決で決定したラベルが間違っている 確率をベイズ推定し,それを用いてラベルの不確実性を 計算する方法が提案されている [Sheng 08].ここで,真 のラベルを生成するベルヌーイ分布のパラメータ q の事 前分布として,区間 [0, 1] の一様分布を考える.すると, n1人がラベル 1 を,n0人がラベル 0 を与えたとき,q の事後分布はベータ分布 B(n1+1, n0+1)に従う.ここで, q> 0.5 と推定されるときに,真のラベルを 1 と定めると, この決定が誤りである確率は,事後分布を 0.5 以下の区 間で積分した値になる. ベータ分布の累積分布関数は正則ベータ関数として与 えられ,ここでは具体的には で計算できる.ここでは 2 値分類で考えているため,片 方のラベルでないことが確実であれば,もう片方のラベ ルであることが確実になる.そこで,結局 min{ I0.5(n1+1, n0+1),1-I0.5(n1+1, n0+1))} がラベルの不確かさの指標となる. 5・2 ワーカの選択を効率化する Shengらの研究はワーカの能力を一定であると仮定し ていた.ここでもワーカの能力の違いを考慮してタスク を割り当てることで,品質管理の効率化を図ることが可 能である.ワーカの能力は正解がわかっているタスクを 使えば,正解率で評価できる.しかし,ワーカが実行し たタスクが少ない場合,ワーカの能力には不確実性が残 る.例えば,最初の数回失敗したとしても,それだけで そのワーカの能力が低いと決めつけることはできない. ラベリングするタスクを選択する問題では,なるべ く不確実性の高いタスクに優先的にラベル付けを行っ た.一方,ワーカにタスクを割り当てる場合は,能力 の不確実性が高いワーカにタスクを割り当てることだけ が,良い方法とはいえない.むしろ,能力が高いことが 確実なワーカがいれば,その人にタスクを割り当てるほ うが効率的である.ただ,同じ人ばかりに割り当てる と,まだあまりタスクを割り当てていないが能力の高い 人を見逃してしまうかもしれない(逆にいえば,能力が 低いことが確実な人にだけは,タスクを割り当てる必要 はない).これはいわゆる活用(exploitation)と探索 (exploration)のトレードオフの問題であり,不確実 性の中で意思決定をするさまざまな問題に表れる. このような問題を扱うために,区間推定(interval estimation)と呼ばれる方法 [Kaelbling 90] をクラウ ドソーシングにおけるワーカの選択に用いることができ る [Donmez 09].ここで,あるワーカに n 回タスクを割 り当て,そのうち x 回正解したとしよう.そこから推定 されるワーカの正解率の 100(1-a)%信頼区間の上限を u(x, n)とすると,この値が高いワーカは,まだあまりj タスクを割り当てられていないため信頼区間の幅が広い (能力の不確実性が大きい)ワーカか,信頼区間が高い 位置に集中している(能力が高いことが確実な)ワーカ である. ワーカの正解率の信頼区間を求める問題は,一般の品 質管理問題でも製品の不良率や成功率を求める際に用い られる二項分布の信頼区間を求める問題と同一である. サンプル数が多い場合は,二項分布を正規分布で近似し て信頼区間を求めることが行われるが,サンプル数が小 さい場合には良い方法ではない.区間推定法 [Kaelbling 90]で用いられている Wilson の信頼区間 [Wilson 27] は 少ないサンプル数でも適用できる. 正解率の信頼区間を求める際には正解がわかってい る必要がある.Donmez らの方法では多数決で正解を求 めているが,その際に最も信頼区間の上限の高いワーカ j*の上限に定数 < 1 を掛けた u* jをしきい値とし,こ れを上回る上限をもつワーカだけにタスクを依頼し多数 決を取ることで,正解率の推定精度が悪化することを防 いでいる.6. ま と め
本稿では,ヒューマンコンピュテーションにおいて品 質を確保するために,どのような手段を取り得るかにつ I n n n m n m 0 5 1 1 1 1 1 0 5 1 1 1 1 .(
+ ,)
=(
)
+ + = +∑
n n C n n n 0 1 0 0 0 . + + + +いて説明をした.特に,その中で用いられる要素技術に ついて,基本的な考え方の理解と可能な場合は具体的な 計算方法の例示に重点を置いた.そのため,本稿はこの 分野の網羅的なサーベイにはなっていない.最新の研究 の動向については,本特集の [鹿島 14] を参照されたい. また,クラウドソーシングの主な利用目的の一つとして, 機械学習に用いる訓練集合の作成がある.その場合の最 終的な目的は精度の良い予測モデルの構築であるので, 本稿で述べたように真のラベルを推定しなくても,ワー カの付けたラベルから直接モデルを推定することも可能 である.クラウドソーシングと機械学習の関連について は,すでに本誌に優れた解説 [鹿島 12] がある. 説明を簡略化するため,本稿では最も単純な 2 値分類 タスクに絞って説明を行ったが,実際にヒューマンコン ピュテーションで用いられるタスクは,多値分類,ラン キング,クラスタリングなどさまざまな形態がある.ど のような形態であっても,本稿で述べた品質管理の基本 的なアプローチは変わらない.また,実用上重要なタス クとして,自然言語文を記述するなど,出力が非定型な タスクがある.そのようなタスクにおいても,成果物 を作成する作成者と,それを評価する評価者からなる 2 段階のプロセスで品質推定を行う方式が提案されてい る [Baba 13].そこでも,評価者の採点のモデルとして, 項目反応理論におけるモデルが利用されている. なお,本稿ではヒューマンコンピュテーションの品質 管理と項目反応理論との関連について少し詳しく説明を した.項目反応理論は正解のあるテスト問題を対象とし ているので,教師付き学習の枠組みと考えることができ る.一方でヒューマンコンピュテーションは正解がわか らない教師なし学習や,一部にだけ正解がある半教師付 き学習の枠組みで扱うほうが自然である.項目反応理論 はさまざまな質問形式において研究の蓄積があり,それ らを拡張してヒューマンコンピュテーションの品質管理 に活用することは,今後の研究における有望な方向性の 一つと考えられる.
◇ 参 考 文 献 ◇
[Baba 13] Baba, Y. and Kashima, H.: Statistical quality estimation for general crowdsourcing tasks, KDD(2013) [Dawid 79] Dawid, A. P. and Skene, A. M.: Maximum likelihood
estimation of observer error-rates using the EM algorithm, J.
Royal Statistical Society, Series C(Applied Statics),Vol. 28, No.1, pp. 20-28(1979)
[Donmez 09] Donmez, P., Carbonell, J. G. and Schneider, J.: Efficiently learning the accuracy of labeling sources for selective sampling, KDD(2009)
[Ipeirotis 09] Ipeirotis, P.: How good are you, Turker?(2009), http://www.behind-the-enemy-lines.com/2009/01/ how-good-are-you-turker.html
[Ipeirotis 10] Ipeirotis, P. G., Provost, F. and Wang, J.: Quality management on Amazon Mechanical Turk, HCOMP(2010) [Jain 13] Jain, S. and Parkes, D. C.: A Game-theoretic analysis of
the ESP game, ACM Trans. on Economics and Computation, Vol. 1, No. 1, pp. 3:1-3:35(2013)
[Kaelbling 90] Kaelbling, L. P.: Learning in Embedded Systems, PhD thesis, Department of Computer Science, Stanford University(1990)
[鹿島 12] 鹿島久嗣,梶野 洸:クラウドソーシングと機械学習,人工 知能学会誌,Vol. 27, No. 4, pp. 381-388(2012)
[鹿島 14] 鹿島久嗣,馬場雪乃:ヒューマンコンピュテーション概説, 人工知能,Vol. 29, No. 1, pp. 4-11(2014)
[Kazai 11] Kazai, G., Kamps, J., Koolen, M. and Milic-Frayling, N.: Crowd sourcing for book search evaluation: Impact of HIT design on comparative system ranking, SIGIR(2011) [Law 11] Law, E. and von Ahn, L.: Human Computation, Morgan
& Claypool Publishers(2011)
[Linacre 94] Linacre, J. M.: PROX with missing data, or known item or person measures, Rasch Measurement Transactions, Vol. 8, No. 3, p. 378(1994)
[村木 11] 村木英治:項目反応理論,朝倉書店(2011)
[Oyama 13] Oyama, S., Baba, Y., Sakurai,Y. and Kashima, H.: Accurate integration of crowdsourced labels using workers’ self-reported confidence scores, IJCAI(2013)
[Raykar 11] Raykar, V. C. and Yu, S.: Ranking annotators for crowdsourced labeling tasks, NIPS 24(2011)
[Rzeszotarski 11] Rzeszotarski, J. M. and Kittur, A.: Instrumenting the crowd: Using implicit behavioral measures to predict task performance, UIST(2011)
[Sakurai 13] Sakurai, Y., Okimoto, T., Oka, M., Shinoda, M. and Yokoo, M.: Ability grouping of crowd workers via reward discrimination, HCOMP(2013)
[櫻井 14] 櫻井祐子,松原繁夫:ヒューマンコンピュテーションの ためのメカニズムデザイン,人工知能,Vol. 29, No. 1, pp. 19-26 (2014)
[Sheng 08] Sheng, V., Provost, F. and Ipeirotis, P.: Get another label? Improving data quality and data mining using multiple, noisy labelers, KDD(2008)
[Snow 08] Snow, R., O’Connor, B., Jurafsky, D. and Ng, A.: Cheap and fast─ But is it good? Evaluating non-expert annotations for natural language tasks, EMNLP(2008)
[Whitehill 09] Whitehill, J., Ruvolo, P., Wu, T., Bergsma, J. and Movellan, J.: Whose vote should count more: Optimal integration of labels from labelers of unknown expertise, NIPS
22(2009)
[Wilson 27] Wilson, E. B.: Probable inference, the law of succession, and statistical inference, J. Am. Statistical
Association, Vol. 22, No. 158, pp. 209-2012(1927)
2013年 11 月 1 日 受理