ヒューマンコンピュテーションの品質管理(<特集>ヒューマンコンピュテーションとクラウドソーシング)

(1)

1.　は　じ　め　に

計算機単独では解くことが困難な問題を人間の能力と組み合わせることで解決するヒューマンコンピュテーションのアプローチがさまざまな分野で成功を収めつつある [Law 11]．ヒューマンコンピュテーションでは，目 的をもったゲーム（games with a purpose：GWAP） やクラウドソーシング（crowdsourcing）を用いて， 計算機プログラムにおける関数呼出しのような形で，人間に仕事を依頼して結果を受け取り，それをさらに大きな計算過程の一部として活用する．一方，ヒューマンコンピュテーションは人間を構成要素として含むため，従来の機械単独での計算に比べて，その計算品質における不確実性が大きくなる．例えば，通常の関数呼出しであれば，同じ入力を与えれば同じ出力が得られることが期待されるが，人間に仕事を依頼する場合，たとえ同じ人に同じ仕事を依頼したとしても，異なる結果が得られることは珍しくない．なお，本稿で述べる「計算」は，通常の意味での計算に限らず，画像を分類することや，自然言語文にタグ付けすることなど，人間に依頼する情報処理タスク一般を意味する．多数の構成要素からなる計算システム全体の品質を高めたい場合，以下の二つのアプローチが考えられる．個々の計算の精度を高める．個々の計算が間違っていたとしても，全体としての精度に影響しない仕組みを導入する．前者のアプローチは，（物理的な）機械に例えると，一つ一つの部品の精度を高め，故障が起きる可能性を小さくすることに対応する．後者のアプローチは，たとえいくつかの部品が故障したとしても，全体としての機械の動作に影響を与えないような設計をすることに対応する．もちろん，十分な品質を確保するには，両方のアプローチを併せて用いることが必要である．また，単に精度を向上させるだけではなく，計算に掛かるコストなどとのトレードオフを考慮して，品質管理プロセス全体としての最適化を図ることも必要である．本稿では，上で述べたようなヒューマンコンピュテーションの各段階で，品質を向上させるためにどのような手段を取り得るかを解説する．一方で，ヒューマンコンピュテーションを用いた複雑なシステムを構築するのではなく，機械学習に用いる訓練データの収集や開発したシステムのユーザ評価などで 1 回限りクラウドソーシングを利用したい場合も多いであろう．その際にも，後で述べるワーカのフィルタリングや，複数のワーカの回答から真の正解を導く方法など，個々の品質管理技術だけを取り出して用いたい場合も多いと考えられる．本稿では，関連研究を網羅的に紹介するのではなく，その中からクラウドソーシングを使う多くの研究者・技術者が実装・実行できるような基本的な手法を選択し，それらを詳しく説明することを心掛けた．

2.　個々の計算の精度を高める

本稿では，ヒューマンコンピュテーションで計算を担う（タスクを実行する）人間をワーカと呼ぶ．常に品質の安定した計算機による情報処理とは異なり，人間による情報処理はワーカごとに，また同じワーカによっても状況によってその品質が大きく異なる．そのため，なるべく良い仕事をしてくれそうなワーカに選択的に作業を依頼することと，依頼したワーカの能力を最大限に引き出すことが必要となる． 2･1　能力の高いワーカを選択するワーカによる作業の精度は，その経験や注意力に大きく依存する．例えば言語処理に関するタスクでは，対象とする言語がワーカの母国語であるか否かによって，その精度は大きく異なる．実際のクラウドソーシングサービスでは，ワーカの作業結果の承認もしくは拒否を依頼者が選択できる．過去の作業での承認率が 95％以上のワーカにだけ作業を依頼するといったフィルタリング機能が利用可能な場合が多い．また，事前に別のタスクでテストを行い，ワーカのフィルタリングを行うことも有効である．正解のわかっているタスクを，通常のタスク「ヒューマンコンピュテーションとクラウドソーシング」

ヒューマンコンピュテーションの品質管理

Quality Management in Human Computation

小山　　聡

北海道大学大学院情報科学研究科

Satoshi Oyama Graduate School of Information Science and Technology, Hokkaido University.

[email protected], http://kussharo.complex.ist.hokudai.ac.jp/~oyama/

Keywords:

human computation, crowdsourcing, quality management, item response theory.

(2)

に紛れ込ませて，ワーカの能力を測ることもよく行われる [Kazai 11]．これまでに，ワーカの能力を測る指標がいくつか提案されている．それらを紹介する前に，本稿で共通して用いる問題設定を定義しておこう．本稿では，説明を簡単にするために，ヒューマンコンピュテーションにおける タスクの例として，N 個のアイテムに対して J 人のワー カが 2 値のラベル付けを行う問題を考える．ただし，一人のワーカがすべてのアイテムにラベル付けを行う必要はない．また，Ij⊆ {1, …, N} をワーカ j がラベルを付けたアイテムの集合，Ji⊆ {1, …, J} をアイテム i にラ ベルを付けたワーカの集合とする．t_i∈ {0, 1}（ i ∈ {1, …, N}）は i 番目のアイテムの真のラベル，yij ∈ {0, 1}（ j ∈ Ji）はワーカ j がアイテム i に付けたラベルである． 真のラベルが 1 のときにワーカ j がラベル 1 を付ける確 率をa（ j）₁ _{＝p（ y} ij＝1｜ti＝1），真のラベルが 0 のときにワー カ j がラベル 1 を付ける確率をa（ j）0 ＝p（yij＝ 1｜ti＝0）と 表すと，ワーカ j の正解率（真のラベルとワーカのラベル の一致率）は s_j＝a（ j）₀ _q_＋（1－_a 0 （ j）_）_{（1－q）となる．ここで，q} は真のラベルが 1 となる確率である．a1 （ j）_{が大きく，}_a 0 （ j） が小さいほど，能力が高いワーカとみなすことができる．正解がわかっているデータがあれば，ワーカの付けたラベルから正解率が計算できるので，正解率の低いワーカを排除すればよい．ところで，正解率が 0 に近いワーカ（例えば常に正解と反対に答えるワーカ）は，悪意のあるワーカや，問題を勘違いしてラベルを逆に付けているワーカと考えらえる．ところが，そのようなワーカを正解のわかっているデータを使って特定できれば，それらのワーカのラベルを逆に付け替えることで真のラベルを高い精度で推定可能である [Ipeirotis 10]．一方，ヒューマンコンピュテーションで問題になる可能性が高いのは，ランダムにラベルを付けるいわゆるスパムワーカである．スパムワーカには，回答するのに十分な能力がなく当てずっぽうで答えるワーカや，最初から金銭だけが欲しく問題を見ずにランダムに答えるワーカ，あるいは人間ではなく，ボットなどのプログラムである場合が考えられる．スパムワーカは，問題を見ずにランダムに答えるので，正解にワーカのラベルの確率が依存しない，すなわち p （ y_j＝1｜t＝1）＝p（ y_j＝1｜t ＝0）となる．これを書き直 すとa1＝a0であり，両辺の値が近いほど，スパムワーカである可能性が高くなる．これを元に，[0, 1] の値を取る スパマスコア Sj_＝（_a 1－a0） 2_{が提案されている [Raykar} 11]．なお，これは 2 値ラベルのときの指標であるが，多値ラベルや順序ラベルの場合にも拡張されている． 2･2　タスクの難しさも考慮してワーカを評価する正解率に基づいてワーカを評価すると，難しいタスクに取り組んで 60％の正解率であったワーカも，やさしいタスクに取り組んで 60％の正解率であったワーカと同じ評価をしてしまい，不公平である．TOEFL などのテ ストの設計に用いられる項目反応理論（item response theory）を用いれば，ワーカの能力を単純な正解率ではなくタスクの難易度を考慮したスコアで評価することができる．項目反応理論自体はヒューマンコンピュテーション・クラウドソーシングとは独立に研究されてきたものであるが，人間の能力をモデル化するという点で，さまざまな品質保証アルゴリズムのベースになる．以下では簡単なモデルでその考え方を紹介しよう． ワーカ j の能力の高さを表すパラメータをθj，タスク iの難しさを表すパラメータをγ_iとしよう．ここで，ワー カのラベルと正解が一致しているか否かを表す変数 z_ij＝ 1－｜t_i－y_ij｜を導入する．このとき，ワーカ j がタスク i に正解する確率が（1）であるとする（ はロジスティック関数を表す）．これ は項目反応理論の中で最も単純なラッシュ（Rasch）モ デルと呼ばれるもので，ワーカの能力とタスクの難しさが等しい（θ_j＝γ_i）とき，ちょうど 1/2 の確率で正解する．正解がわかっているデータを用いれば，ワーカの答えから能力パラメータと難易度パラメータを同時に推定することが可能である．PROX と呼ばれる方法では，タス ク i を実行したワーカの能力パラメータとワーカ j の実 行したタスクの難易度パラメータが，それぞれ正規分布 N（μi, σi 2_{）と N（}_λ j, ρj 2_{）に従うと仮定する [Linacre} 94]．タスク i の正解率（正解したワーカの割合）を ri＝ j∈ Ji　z ij /｜Ji｜，ワーカ j の正解率（正解したタスクの割合） を sj＝i∈Ij　z ij /｜Ij｜とすると，タスクの正解率の期待値はと書ける．ロジスティック関数  と累積正規分布関数 の間の近似式 （x）≈ （x/1.7）を使うと，結局 となり，これを正解がわかっているデータから計算した 正解率 r_iに等しいと置いて，γ_iについて解くと　（2）となる．同様にθ_jについても（3）という関係式が求まる．式（2）は，タスクの難易度は そのタスクの正解率 r_iのオッズ比（の逆数）をそのタスクを解いたワーカの能力の分布を使って原点移動とスケール変換をしたものであることを表している．同様に 式（3）はワーカの能力はそのワーカの正解率 s_jをそのワーカが解いたタスクの難易度の分布を使って原点移 p ij j j j ＝（）＝ − − （）＋（）＝（） 1 1 exp exp θ θ Ψθ z i i i − γ γ γ θ E d d d i i i

[

 _ _     −∞ ∞

∫

Ψ θ θ σ θ ＝（ − ） − r

]

i Φ µ γ γi σ i i r r ≈    −    1 1 7 1 2 . ln i i ＋＋ µ θj ρ j j s s ≈    −     1 1 7 1 2 . ln λj j ＋＋ Ψ σ i i − ＋（）     1 _/ 7 2 ≈ i 1. µ γ E

[

ri

]

(3)

動とスケール変換をしたものであることを表している．この二つの関係式を繰り返し計算で解くことで，{γi}と {θ_j}を求めることができる．項目反応理論は，2 値の問題以外にも，複数選択肢の問題や選択肢が正しい確率を答えさせる問題など，さまざまな形式のテストに関して手法が開発されている．詳細は参考書 [村木 11] などを参照されたい． 2･3　ワーカに自分の作業品質を自己申告させる項目反応理論ではタスクの難しさを統計的に推定する．一方，それとは全く別の方法として，タスクの難しさをワーカに聞くというアプローチも存在する．これは，そのタスクを解いたワーカであれば，その難しさを判断できるだろうという仮説に立っている．実際，映画のレビューを読んでその映画の 5 段階評価を予測するタスクにおいて，ワーカにタスクの難しさも 5 段階で自己申告させる実験が行われ，タスクの難しさとワーカの作業品質（ワーカの予測した映画の評価の正確さ）の間に負の相関があることが示されている [Ipeirotis 09]．ところで，タスクの難しさをワーカに聞く場合，ワーカに依存しないタスクの固有の属性（Rasch モデル（1）でいうタスクの難易度 γ_i）を聞いているのか，あるいはそのワーカにとっての難しさを聞いているのかが曖昧である（一般の人には難しいが，能力の高いワーカにとってはやさしいといった場合があり得る）．むしろ，正解率に関連する指標を尋ねるほうが適切かもしれない．例えば，ワーカに自分の回答に対する自信（答えが正しいと思う主観的な確率）を申告させることもできる [Oyama 13]（これは認知心理学における確信度判断に対応する）．また，確信度を直接申告させなくても，成功すると高い報酬が得られるが，失敗するとわずかな報酬しか得られないプランと，成功しても失敗しても報酬があまり変わらないプランの 2 種類を用意してワーカに選択させると，自信のあるワーカは前者を，自信のないワーカは後者を選択するであろう．このような報酬プランの設計を行うことで，ワーカを能力に応じてグルーピングできることが示されている [Sakurai 13]． 2･4　ワーカに真面目に働いてもらう以上では精度の高い仕事をするワーカを選択するための方法について述べたが，機械と人間の大きな違いは，人間はやる気を出さなければ，その本来の能力を発揮できないことである．上で述べたようなフィルタリング機構が存在すること自体が，ワーカに真面目に仕事をしようという動機付けを与える．さらに，ワーカに良い仕事をしようというインセンティブを積極的に与えることで，品質向上を図るアプローチも存在する．ここでインセンティブとは，金銭的なものだけでなく，仕事の達成感や楽しさといったものも含まれる．GWAP やゲーミフィケーション （gamification）は後者を活用したアプローチである． GWAPの代表例である ESP ゲームでは，同じ画像を二人のワーカがタグ付けをし，二人のタグが一致するとそのゲームは完了となり，一定時間内になるべく多数のゲームを完了することでポイントを競う．上のようなゲームを導入すると，お互いに相手が入力するであろうタグを想像して入力することになるので，ワーカに独立にタグを入力させるよりも，一般的な人が画像から想起するであろう質の良いタグを得ることが可能となる（ただし，頻度の高い単語ばかりが入力されるといった問題が残る．そのような問題を解決する方法についても研究されている [Jain 13]）． GWAPにはほかにもいくつかの枠組みがあり本特集の [鹿島 14] に紹介されているので，そちらを参照されたい．また，金銭的なインセンティブで品質を管理する方法についても [櫻井 14] に述べられている． 2･5　ワーカの作業過程をモニタリングする上に述べたアプローチは，作業結果をもとにワーカの作業の正確さを推定するアプローチであったが，それと補完的に，ワーカが作業している過程をモニタリングすることで，品質管理を行うアプローチも存在する． oDesk＊1_{ではワーカの作業画面が定期的にキャプチャさ} れ，依頼者に送られるが，これもワーカが真面目に働くインセンティブを与えることにもなる．さらに，タスク フィンガプリント（task fingerprint）と呼ばれるマウ ス操作や画面スクロールの回数などの単純な統計情報をワーカの画面操作ログから抽出し，これらを特徴として機械学習を用いることで，高い精度で作業品質を予測できることも示されている [Rzeszotarski 11]．

3.　間違った答えを出すワーカがいても正しい

答えを導く

これまで，個々のワーカに正しい結果を答えてもらう方策について説明をした．しかし，いかに優秀なワーカを集め，彼らが真剣に仕事をしたとしても，誤りの可能性を完全に排除することはできない．そこで，間違った答えを出すワーカがある程度いたとしても，正解を導くことができる一種の誤り訂正の方法が必要となる． 3･1　多数決をとるワーカの誤りに対して頑健な計算を行う最も単純な方法は，冗長度を上げる，すなわち同じタスクを複数のワーカに依頼することである．2 値分類問題では，多数決を取ることで，最終的な解を決定する．多数決が機能する前提は，ワーカの正解率がある程度高いことである．＊1 https://www.odesk.com/

(4)

2J＋1 人での多数決が正解と一致する確率は，間違える ワーカの数が J 人以下である確率なので，すべてのワー カが同じ正解率 s をもつとすると である．これは，s が 1 に近い場合，少ない J でも 1 に 近い値が得られるが，s が 0.5 に近い場合は，J を非常 に大きくしなければ，高い精度を得ることができないことを示している [Sheng 08]．しかし，冗長度を上げることは，その分ワーカに支払うコストが増大することを意味する．このことからも，前章で述べたような方式である程度個々のワーカの正解率を確保しておくことの重要性がわかる． 3･2　ワーカの能力で票に重みを付ける単純多数決は，すべてのワーカの能力（正解率）が等しいと仮定していた．しかし，ワーカの正解率がわかっていれば，正解率の高いワーカの意見を重視することで，正解を導ける可能性が高くなる．正解のわかっているデータを使って各ワーカのパラメータ a1 （ j）_＝ p（ yij＝1｜ti＝1）および a（ j）0 ＝p（ yij＝1｜ti＝0）が推定で きれば，これらを用いてワーカのラベル { y_ij}が与えられ たときの t_iの事後確率を計算することで，正解を推定することができる [Snow 08]． tiの分布に関して事前の知識がない（事前確率が一様 な）ときは，t_i＝ 1 の場合と t_i＝ 0 の場合でそれぞれ以下の式の値を計算し，大きな値となるほうを最終的な解とすればよい．ここで，両者の対数比を取ると となる．ここで，第 1 項は yij＝ 1 というラベルを付けたワーカの数を ln（a（ j）₁ _/_a 0 （ j）_{）で重みを付けてカウント} したものと考えることができる．重みは真のラベルが 1 のときに 1 のラベルを付ける確率が高く，真のラベルが 0のときに 1 のラベルを付ける確率が低いワーカのとき に大きくなる．第 2 項も同様に y_ij＝ 0 というラベルを付けたワーカの数を ln（（1－a₀（ j）_）/（1－_a 1 （ j）_{））で重みを} 付けてカウントしたものであり，真のラベルが 0 のときに 0 のラベルを付ける確率が高く，真のラベルが 1 のときに 0 のラベルを付ける確率が低いワーカの重みが大きくなる．よって，この推定方法はワーカの能力によって重みを付けて多数決を取る方法と考えることができる．実際に複数の自然言語処理タスクにおいて，このような重み付きの多数決で単純な多数決よりも高い精度で正解を推定できることが示されている [Snow 08]．

4.　ワーカの能力推定と正解の推定を同時に行う

これまでに述べたワーカの能力によるフィルタリングや正解の推定は，あらかじめ正解のわかっているデータについてワーカに作業をさせることで，ワーカの能力を推定するという前提であった．しかし，実際には正解のあるデータを十分に用意できないことも多い．そこで，正解がわかっていないデータに関するワーカの作業結果から，ワーカの能力と正解を同時に推定する方法について説明する． 4･1　正解を隠れ変数として EM 法で解く 3･2 節の方法により，ワーカの能力を表すパラメータ（a₀（ j）_,_a 1 （ j）_{）がわかっていれば正解を推定できる．逆} に正解がわかっていれば，これらのパラメータを推定できる，ということで相互依存の関係になっている．そこで，正解の推定値に適当な初期値を割り当て，そこからワーカの能力パラメータと正解の推定を交互に繰り返すことで，正解の推定値を改善していく方法が知られている [Dawid 79]．この Dawid と Skene の方法は，クラウドソーシングが出現するはるか以前に，複数の医療診断結果から患者の状態を推定する問題を例に提案されたものであるが，近年クラウドソーシングの研究論文で多く引用されるようになった．高い精度で正解を推定できる一方で，アルゴリズムは比較的単純であるのでさまざまな拡張がなされている．そこで，以下ではこのアルゴリズムについて多少詳しく説明をしよう． Dawidと Skene のオリジナルの方法は多クラス分類で記述されているが，簡単のために 2 値分類の問題で説明する．ここで，次の確率モデルを考える． まず，アイテム i の真のラベルは確率 q で値 1 を，確 率 1－ q で値 0 を取るとする．すなわち，q をパラメー タとするベルヌーイ分布 p（ti）＝q ti （1 － q）（1－ti）_により生成されると考える．次に，ワーカの能力に応じて，真のラベルからワーカのラベルが確率的に決まると考える． ti＝ 1 のとき，ワーカ j がアイテム i に付けるラベル yij はa1（ j）をパラメータとするベルヌーイ分布 p（ yij｜ t_i＝ 1）＝（a₁（ j）_）y（1－ij a 1 （ j）_）（1－yij）に従う．同様に，t i＝0 のとき，ワーカ j がアイテム i に付けるラベル y_ijはa（ j） ₀ をパラメータとするベルヌーイ分布 p（ y_ij｜t_i＝0）＝（a（ j）0 ） y_{（ 1－}ij _a 0 （ j）（1－y_） ij）_{に従う．観測されるのはワーカの} 付けたラベル { y_ij}だけであり，これをもとに真の ラベル{t_i}とワーカの能力パラメータ {（ j）_}_{＝ {（}_a 0 （ j）_, 2 0 2 ₁ J j J j J j C s s ＋＝＋ −

∑

1 1 j（ −）＝

(

)

＋

(

)

(

＝

)

(

)

＝

(

)

(

−

)

＝

(

)

＋

(

)

(

＝

)

(

)

＝

(

)

(

− ( ( ( − ( ( j j j j ij ij i j j j y j y ij ij i j j j y j y y y y y y y y ij ij ij 1 1 1 1 1 1 0 1 1 1 0 α α

))

(1 y−ij ＝ − ＝＝ − ＝ ) ) ) ) ) i i i i i i p t p t p t p t 1 0 0 0 1 0 α α )

∏

yij j j j ij j j j ln α ln α α α 1 0 0 1 1 1 1 ( ( ( (       −

(

)

− −      

∑

y ) ) ) ) −

∑

p i yj yj p j i i i

{

(

)

＝

(

)

( )

∈ ∈{

∏

, , 1 t i p i ti t J N

}

} ,

(5)

a1 （ j）_{）} を求める．具体的には，以下の EM（Expectation} Maximization）法を用いる． E ステップ　ラベルの分布 q およびワーカの能力パラメータ {（ j）_}_{の推定値を固定して，隠れ変数 {t} i}の期待値を推定する． M ステップ　隠れ変数 {ti}の期待値を固定して，ラベル の分布 q およびパラメータ {（ j）_}_{を推定する．} Eステップにおいて，t_iの期待値は以下で計算される． ここで，ziは正規化定数である．期待値の計算には以下を評価することも必要である． 上の二つの式を E[t_i]＋（1－E[t_i]）＝1 のもとで解くこと で，z_iの値が得られ，期待値 E[t_i]が求まる． Mステップにおいて，q および {（ j）_}_{の推定値は以下} で計算される． Dawid-Skeneの方法を実際に用いる際に問題となるのが，初期化をどのように行うかである．よく用いられ る方法は tiの期待値をワーカのラベルの頻度に基づいて定める方法である．2 値変数の場合は，ラベル 1 を付けたワーカの割合になる．EM 法を用いる Dawid-Skene の方法は，大域的な最適解が求まることは保証されず，初期値に依存して異なった局所解が得られるが，上で述べた初期化の方法は，比較的良好な局所解を与えることが経験的に知られている [Dawid 79]． 4･2　タスクの難しさを考慮するタスクの難しさを考慮して，ワーカの能力と正解とを同時に求めることも可能であり，以下のようなモデルが提案されている [Whitehill 09]．（4）ここでは，1/ηiがタスクの難しさを表すパラメータになっていて，ηi ⟶ 0 でどんなに能力の高い（θjが大きい）ワーカであっても 1/2 の確率（当て推量）でしか正解できず，η_i ⟶ ∞で（θ_j＞ 0 の）すべてのワーカが常に正解できるようになる．Whitehill らの方法において も，ワーカのラベル {yij}が与えられたとき，EM 法を用 いて真のラベル {t_i}の推定と，問題の難易度 {η_i}およびワーカの能力 {θ_j}の推定を交互に行う．なお，ここでの難易度 ηiは Rasch モデルにおける難易度パラメータ γiには対応していない．むしろ，より一般的な項目反応モデルである 2 パラメータロジスティックモデルにおける項目識別力パラメータη_iに対応している．項目識別力パラメータはロジスティック関数における立上がりの急峻さを表し，ηiが 0 に近ければワーカの能力が異なっても正解率があまり変化しないが，η_iが大きければワーカの能力のしきい値の前後で正解率が大きく変化する．ただ，Whitehill らのモデルではγ_iをすべて 0 と置いているので，識別力パラメータηiが同じであればワーカの能力が高いほうが正解率が高く，ワーカの能力 γ_jが同じであれば識別力パラメータが大きいほうが正解率が高くなるので，ηiは問題の難しさ（の逆数）を表しているとみなすことができる．このように，Whitehill のモデル（4）も項目反応理論のモデルの特殊な場合とみなすことができ，彼らの方法はそれを正解のない場合に拡張したものと考えることができる． 4･3　タスクに対するワーカの自信を考慮する Whitehillらの方法はタスクの難しさを計算によって推定するアプローチであるが，一方で 2･3 節で述べたように，タスクの難しさ，あるいはワーカの回答に関する自信を直接ワーカに尋ねるというアプローチもあり得る．こちらのほうが，人間の能力を積極的に活用するという点で，よりヒューマンコンピュテーションの考え方を推し進めた方法といえるかもしれない．ワーカが自分の回答が正しいと思う確率が確信度として得られれば，それを実際の正解率とみなし，3･2 節で述べたような方法で重みを付けて多数決を取ることもできる．ただし，ワーカの自己申告した自信（確信度）をそのまま鵜呑みにするのは少々危険である．確信度と正解率の間には相関があるが，正解率に比べて確信度が高い自信過剰なワーカや，正解率に比べて確信度が低い自信過小なワーカも多く存在する．確信度判断の正確さは人によって異なり．各ワーカの付けた確信度を一様に扱うのではなく，ワーカの自己評価の正確さの違いを考慮する必要がある．そこで，Dawid-Skene のモデルを拡張した以下のようなモデルを考える [Oyama 13]． c_ij∈ {0, 1}（ j ∈ Ji）はワーカ j がアイテム i に付けた E p y q z i ij i j j y j y i ij ij

[

＝

(

{

)

＝

{

(

)

(

−

)

∈ ( ( (−

∏

1 1 1 1 α α t ti J

]

＝

}

) ) ) 1 1 1 1 0 1 −

[

＝

(

{

)

＝ −

{

(

)

(

−

)

∈ ( ( ( −

∏

E p y q z i ij i j j y j y i ij ij α α 0 0

]

＝

}

) ) ) t ti J ˆ ˆ ˆ , q E N E y E E y E i i j i i j i i j i i j i i j j j j ＝∑

[

＝∑_∑

(

₍

[

_[

)

₎

＝∑

[

∑

[

∈{ ( ∈ ∈ ( ∈ ∈ 1 0 1 1 1 α α , t t t t t N I i I I i I

]

−

]

−

]

} ) ) p ij i i ＝

(

)

＝

(

)

＋

(

)

1 1 exp exp η η θ θ z j j p y p y p t t i j j ij ij i j i ij i i

{

(

)

＝

(

)

(

)

( )

∈ ∈{

∏

, , , 1 t c c t y p i i J N i

}

} , , p ij i i i i ＝

(

)

＝

(

−

)

＋

(

)

1 1 exp exp η γ η θ θ γ z j j−

(6)

ラベルに対する確信度であり，自信がある場合が 1，ない場合が 0 に対応する（ここでは単純化のために確信度 を 2 値で扱っている）．例えば，真のラベルが t_i＝ 0 か つワーカ j のラベルが y_ij＝ 0 のときの確信度は，β₀₀（ j） をパラメータとするベルヌーイ分布 p（c_ij｜t_i＝0, y_ij＝0）＝（β00（ j）） c_（1－ij _β 00（ j））（1－cij）により確率的に決定される． 残りの三つの場合の条件付き分布，p（c_ij｜t_i＝ 0, y_ij＝1）， p （c_ij｜t_i＝1, y_ij＝0）および p（c_ij｜t_i＝1, y_ij＝1）も同様に定義される．これらのパラメータを用いて，自信過剰なワーカは自分のラベルが正しくない場合でも高い確信度を付け，逆に自信過小なワーカは自分のラベルが正しい場合でも低い確信度を付ける，といった各ワーカの傾向を考慮したモデル化が可能となる．正解およびパラメータの推定は Dawid-Skene のモデルと同様に EM 法を用いて行うことができる．

5.　品質管理プロセス全体を最適化する

5･1　タスクの選択を効率化する前章までで述べた方法は，すべてのタスクに対するワーカの作業が終わってからバッチ的に処理を行い，各タスクの冗長度もあらかじめ定められていた．しかし，タスクの実行にはコストが掛かるため，品質が保証されるならばなるべく冗長度は少なくできたほうが望ましい．そのためには，すべてのタスクに同じ冗長度を与えるのではなく，正解が不確かなタスクに重点的にラベル付けを行う必要がある．そのために，多数決で決定したラベルが間違っている確率をベイズ推定し，それを用いてラベルの不確実性を計算する方法が提案されている [Sheng 08]．ここで，真 のラベルを生成するベルヌーイ分布のパラメータ q の事 前分布として，区間 [0, 1] の一様分布を考える．すると， n1人がラベル 1 を，n0人がラベル 0 を与えたとき，q の事後分布はベータ分布 B（n₁＋1, n₀＋1）に従う．ここで， q＞ 0.5 と推定されるときに，真のラベルを 1 と定めると，この決定が誤りである確率は，事後分布を 0.5 以下の区間で積分した値になる．ベータ分布の累積分布関数は正則ベータ関数として与えられ，ここでは具体的にはで計算できる．ここでは 2 値分類で考えているため，片方のラベルでないことが確実であれば，もう片方のラベルであることが確実になる．そこで，結局　　min{ I_0.5（n₁＋1, n₀＋1），1－I_0.5（n₁＋1, n₀＋1））} がラベルの不確かさの指標となる． 5･2　ワーカの選択を効率化する Shengらの研究はワーカの能力を一定であると仮定していた．ここでもワーカの能力の違いを考慮してタスクを割り当てることで，品質管理の効率化を図ることが可能である．ワーカの能力は正解がわかっているタスクを使えば，正解率で評価できる．しかし，ワーカが実行したタスクが少ない場合，ワーカの能力には不確実性が残る．例えば，最初の数回失敗したとしても，それだけでそのワーカの能力が低いと決めつけることはできない．ラベリングするタスクを選択する問題では，なるべく不確実性の高いタスクに優先的にラベル付けを行った．一方，ワーカにタスクを割り当てる場合は，能力の不確実性が高いワーカにタスクを割り当てることだけが，良い方法とはいえない．むしろ，能力が高いことが確実なワーカがいれば，その人にタスクを割り当てるほうが効率的である．ただ，同じ人ばかりに割り当てると，まだあまりタスクを割り当てていないが能力の高い人を見逃してしまうかもしれない（逆にいえば，能力が低いことが確実な人にだけは，タスクを割り当てる必要 はない）．これはいわゆる活用（exploitation）と探索 （exploration）のトレードオフの問題であり，不確実 性の中で意思決定をするさまざまな問題に表れる． このような問題を扱うために，区間推定（interval estimation）と呼ばれる方法 [Kaelbling 90] をクラウドソーシングにおけるワーカの選択に用いることができ る [Donmez 09]．ここで，あるワーカに n 回タスクを割 り当て，そのうち x 回正解したとしよう．そこから推定 されるワーカの正解率の 100（1－a）％信頼区間の上限を u（x, n）とすると，この値が高いワーカは，まだあまり_j タスクを割り当てられていないため信頼区間の幅が広い（能力の不確実性が大きい）ワーカか，信頼区間が高い位置に集中している（能力が高いことが確実な）ワーカである．ワーカの正解率の信頼区間を求める問題は，一般の品質管理問題でも製品の不良率や成功率を求める際に用いられる二項分布の信頼区間を求める問題と同一である．サンプル数が多い場合は，二項分布を正規分布で近似して信頼区間を求めることが行われるが，サンプル数が小さい場合には良い方法ではない．区間推定法 [Kaelbling 90]で用いられている Wilson の信頼区間 [Wilson 27] は少ないサンプル数でも適用できる．正解率の信頼区間を求める際には正解がわかっている必要がある．Donmez らの方法では多数決で正解を求めているが，その際に最も信頼区間の上限の高いワーカ j＊_{の上限に定数  < 1 を掛けた u}＊ jをしきい値とし，これを上回る上限をもつワーカだけにタスクを依頼し多数決を取ることで，正解率の推定精度が悪化することを防いでいる．

6.　ま　　と　　め

本稿では，ヒューマンコンピュテーションにおいて品質を確保するために，どのような手段を取り得るかにつ I n n n m n m 0 5 1 1 1 1 1 0 5 1 1 1 1 .

(

＋ ,

)

＝

(

)

＋＋＝＋

∑

n n C n n n 0 1 0 0 0 . ＋＋＋＋

(7)

いて説明をした．特に，その中で用いられる要素技術について，基本的な考え方の理解と可能な場合は具体的な計算方法の例示に重点を置いた．そのため，本稿はこの分野の網羅的なサーベイにはなっていない．最新の研究の動向については，本特集の [鹿島 14] を参照されたい．また，クラウドソーシングの主な利用目的の一つとして，機械学習に用いる訓練集合の作成がある．その場合の最終的な目的は精度の良い予測モデルの構築であるので，本稿で述べたように真のラベルを推定しなくても，ワーカの付けたラベルから直接モデルを推定することも可能である．クラウドソーシングと機械学習の関連については，すでに本誌に優れた解説 [鹿島 12] がある．説明を簡略化するため，本稿では最も単純な 2 値分類タスクに絞って説明を行ったが，実際にヒューマンコンピュテーションで用いられるタスクは，多値分類，ランキング，クラスタリングなどさまざまな形態がある．どのような形態であっても，本稿で述べた品質管理の基本的なアプローチは変わらない．また，実用上重要なタスクとして，自然言語文を記述するなど，出力が非定型なタスクがある．そのようなタスクにおいても，成果物を作成する作成者と，それを評価する評価者からなる 2 段階のプロセスで品質推定を行う方式が提案されている [Baba 13]．そこでも，評価者の採点のモデルとして，項目反応理論におけるモデルが利用されている．なお，本稿ではヒューマンコンピュテーションの品質管理と項目反応理論との関連について少し詳しく説明をした．項目反応理論は正解のあるテスト問題を対象としているので，教師付き学習の枠組みと考えることができる．一方でヒューマンコンピュテーションは正解がわからない教師なし学習や，一部にだけ正解がある半教師付き学習の枠組みで扱うほうが自然である．項目反応理論はさまざまな質問形式において研究の蓄積があり，それらを拡張してヒューマンコンピュテーションの品質管理に活用することは，今後の研究における有望な方向性の一つと考えられる．

◇　参　考　文　献　◇

[Baba 13] Baba, Y. and Kashima, H.: Statistical quality estimation for general crowdsourcing tasks, KDD（2013） [Dawid 79] Dawid, A. P. and Skene, A. M.: Maximum likelihood

estimation of observer error-rates using the EM algorithm, J.

Royal Statistical Society, Series C（Applied Statics），Vol. 28, No.1, pp. 20-28（1979）

[Donmez 09] Donmez, P., Carbonell, J. G. and Schneider, J.: Efficiently learning the accuracy of labeling sources for selective sampling, KDD（2009）

[Ipeirotis 09] Ipeirotis, P.: How good are you, Turker?（2009）， http://www.behind-the-enemy-lines.com/2009/01/ how-good-are-you-turker.html

[Ipeirotis 10] Ipeirotis, P. G., Provost, F. and Wang, J.: Quality management on Amazon Mechanical Turk, HCOMP（2010） [Jain 13] Jain, S. and Parkes, D. C.: A Game-theoretic analysis of

the ESP game, ACM Trans. on Economics and Computation, Vol. 1, No. 1, pp. 3:1-3:35（2013）

[Kaelbling 90] Kaelbling, L. P.: Learning in Embedded Systems, PhD thesis, Department of Computer Science, Stanford University（1990）

[鹿島 12] 鹿島久嗣，梶野洸：クラウドソーシングと機械学習，人工知能学会誌，Vol. 27, No. 4, pp. 381-388（2012）

[鹿島 14] 鹿島久嗣，馬場雪乃：ヒューマンコンピュテーション概説，人工知能，Vol. 29, No. 1, pp. 4-11（2014）

[Kazai 11] Kazai, G., Kamps, J., Koolen, M. and Milic-Frayling, N.: Crowd sourcing for book search evaluation: Impact of HIT design on comparative system ranking, SIGIR（2011） [Law 11] Law, E. and von Ahn, L.: Human Computation, Morgan

& Claypool Publishers（2011）

[Linacre 94] Linacre, J. M.: PROX with missing data, or known item or person measures, Rasch Measurement Transactions, Vol. 8, No. 3, p. 378（1994）

[村木 11] 村木英治：項目反応理論，朝倉書店（2011）

[Oyama 13] Oyama, S., Baba, Y., Sakurai,Y. and Kashima, H.: Accurate integration of crowdsourced labels using workers’ self-reported confidence scores, IJCAI（2013）

[Raykar 11] Raykar, V. C. and Yu, S.: Ranking annotators for crowdsourced labeling tasks, NIPS 24（2011）

[Rzeszotarski 11] Rzeszotarski, J. M. and Kittur, A.: Instrumenting the crowd: Using implicit behavioral measures to predict task performance, UIST（2011）

[Sakurai 13] Sakurai, Y., Okimoto, T., Oka, M., Shinoda, M. and Yokoo, M.: Ability grouping of crowd workers via reward discrimination, HCOMP（2013）

[櫻井 14] 櫻井祐子，松原繁夫：ヒューマンコンピュテーションのためのメカニズムデザイン，人工知能，Vol. 29, No. 1, pp. 19-26 （2014）

[Sheng 08] Sheng, V., Provost, F. and Ipeirotis, P.: Get another label? Improving data quality and data mining using multiple, noisy labelers, KDD（2008）

[Snow 08] Snow, R., O’Connor, B., Jurafsky, D. and Ng, A.: Cheap and fast─ But is it good? Evaluating non-expert annotations for natural language tasks, EMNLP（2008）

[Whitehill 09] Whitehill, J., Ruvolo, P., Wu, T., Bergsma, J. and Movellan, J.: Whose vote should count more: Optimal integration of labels from labelers of unknown expertise, NIPS

22（2009）

[Wilson 27] Wilson, E. B.: Probable inference, the law of succession, and statistical inference, J. Am. Statistical

Association, Vol. 22, No. 158, pp. 209-2012（1927）

2013年 11 月 1 日　受理

著　者　紹　介

小山　　聡（正会員） 1994年京都大学工学部数理工学科卒業，1996 年同大学院工学研究科修士課程修了．日本電信電話株式会社，京都大学大学院情報学研究科博士後期課程，同大学院助教などを経て，2009 年より北海道大学大学院情報科学研究科准教授．博士（情報学）．主な研究分野は機械学習，データマイニング，情報検索など．2005 年度本学会論文賞，2009 年度日本データベース学会上林奨励賞受賞．

ヒューマンコンピュテーションの品質管理(<特集>ヒューマンコンピュテーションとクラウドソーシング)

1. は じ め に

2. 個々の計算の精度を高める