第 6 章 ワーカーの段階的学習による精度 向上手法の提案向上手法の提案
6.1 クラウドソーシングにおける学習の必要性
クラウドソーシングでは不特定多数のワーカーが大量の作業を処理しているため,ワー カーも様々な人材が参加している.特に4.1節で述べているスパムワーカーと呼ばれるワー カーは適当な入力やスクリプトによる自動化等で結果精度を大きく低下させる原因となる ため,早急な排除が必要となる.スパムワーカーは悪意の作業者であるため,PCSSでは排 除することに社会通念上,問題はないと考えている.しかし,善意の作業者かつ,品質が 良くない作業者のケースでは安易な排除は望ましくない.これはクラウドソーシング市場 の今後の成長に伴い,クラウドソーシングという労働形態が一般的になった場合に安易な ワーカーの排除はクラウドソーシングの市場へのワーカーの参加を減少させ,市場の成長 を妨げかねないからである.このような善意の作業者かつ品質が良くない作業者は,多く のタスクではタスクの処理精度は良いが,特定のタスクではタスクの処理精度が低いワー カーと捉えることができる.各タスクカテゴリ間での精度の相関性を図6.1に示す.この 図ではそれぞれのタスクカテゴリにおける精度をx軸,y軸に設定し,特定のタスクでは 精度が良いが,特定のタスクでは精度が悪いワーカーの存在を確認している.図において 点線の円で示しているように,そのようなワーカーが実際に存在することがわかる.その ようなワーカーの例を表6.1に示す.
64 第6章 ワーカーの段階的学習による精度向上手法の提案
図 6.1: タスクカテゴリごとのワーカーの精度の相関性(一部)
表 6.1: 特定のタスクで精度が悪いワーカーの例
正解率 正解位数 不正解数 正解率 正解位数 不正解数 正解率 正解位数 不正解数 正解率 正解位数 不正解数 109 97.4 69290 1863 97.9 25541 543 97.4 38 1 84.4 1094 202 110 96.4 65581 2462 97.0 29294 903 0.0 0 0 90.5 7435 780
111 94.6 2164 124 95.7 44 2 0.0 0 0 100.0 13 0
112 90.4 64183 6792 95.0 52971 2814 96.0 3308 138 82.4 17895 3833 113 95.9 77179 3313 96.1 94042 3841 94.0 219 14 89.8 13512 1532 114 95.5 121979 5746 95.9 85658 3629 100.0 3 0 47.1 3985 4483
ワーカID 読み付け 読み仮名判定 画像判定 品詞判定
他の作業は精度が高いのに この作業は苦手
これらの特定のタスクで精度が悪いワーカーは4章で説明したフィルタリングで該当す
6.1. クラウドソーシングにおける学習の必要性 65
全体の不正解数のうち、悪質ワーカーが行った不正解の数 文法スキルが必要な
難しい問題に影響大 不正解数
図 6.2: 低品質ワーカーが与える悪影響
るタスクから排除している.しかし,難易度が高い等で処理できるワーカーが少なく,処 理速度向上のために意図的に排除しないケースなどでは図6.2に示すように,特定のタス クで精度が悪いワーカーが作成する不正解データの割合は大きなものとなり,結果として リクエスタが無駄なコストを支払う結果となっていた.
このような特定のタスクで精度が悪いワーカーとスパムワーカーとの違いは悪意の有無 である.悪意のあるワーカーはこちらのコントロールを無視してしまうのでコントロール の意味がないが,悪意のないワーカーならば,適切な学習を行わせるなどコントロールす ることで精度を向上させることが可能なのではないかと考えた.PCSSでは3.3節で述べた トレーニングフェーズでタスクの解説を行っているがこの作成はリクエスタ依存であるた
66 第6章 ワーカーの段階的学習による精度向上手法の提案 め,システム側でコントロール可能な学習方法として段階的学習方法を提案する.