⽐較バンディットアルゴリズムを⽤いた
クラウドソーシングにおける
品質・コストトレードオフの⾃動調整
今⽇のお話(⼀枚概要)
• 問題 • クラウドソーシングの 品質・コストトレードオフ を調整 • 最終成果物の品質をできるだけ下げず、コストを削減 • ⼿法 • ⽐較バンディットアルゴリズム を利⽤ • 有⽤な Worker を推定しながら Task を依頼 • 結果 • 実データでコストを 30~50% に削減 • 品質はほぼそのまま2
⽬次
•
研究背景
•
Copeland Two Stage Pairwise Model
•
⽐較バンディット + Online CTSPM
•
実験
•
まとめ・今後の課題
クラウドソーシング
•
クラウドソーシングとは
•
インターネットを介して
•
様々な仕事
Task
を
•
不特定多数の労働者
Worker
に依頼し
•
(安価に)成果物
Artifact
を得る枠組み
•
クラウドソーシングの利⽤例
•
画像のアノテーション
•
翻訳⽂・説明⽂の⽣成
•
イベントロゴの作成
4
AIに⽀配される⼈々クラウドソーシングの課題
• Worker の能⼒にばらつきがある • 能⼒、やる気が異なる • 得意、不得意がある • 複数の Artifact を統合して品質を上げる • 2値分類タスク → 多数決 • 絶対評価値タスク → 平均 • 英⽇翻訳タスク → ??? • Artifact が統合できない場合がある • 最も品質が⾼い Artifact を選べばいい!! • どうやって各 Artifact の品質を知る?5
Two Stage Model
[Baba+ 13]各
Artifact
の品質もクラウドソーシングで評価
1. Creation Stage
• Creator が Task に対する Artifact を⽣成
2. Evaluation Stage
• Evaluator が Artifact に対する 絶対評価 を⽣成3. 最終成果物の決定
• 複数の Evaluator の絶対評価を統合 (ex. 平均) • 統合した評価から最も優れた Artifact を選択6
Two Stage Model の課題
•
絶対評価は難しい
•
複数⼈で評価基準を共有するのは困難
•
全体的に⾼く・低く付ける⼈がいる
•
絶対評価はコストが⾼い
•
各 Artifact を注意深く評価する必要がある
•
⾼い専⾨性が要求される
7
Two Stage Pairwise Model
[Sunahase+ 17]2つの
Artifact
のうち優れた⽅を選ぶ
1. Creation Stage
• Creator が Task に対する Artifact を⽣成
2. Evaluation Stage
• Evaluator が Artifact に対する
相対評価
を⽣成3. 最終成果物の決定
• 複数の⽐較結果から最も優れた Artifact を選択
Two Stage Pairwise Model の課題
•
全対⽐較はコストが⾼い
•
1回の⽐較コストは低い
•
全対⽐較のコスト = O( Artifact数の2乗 )
•
下⼿に⽐較を減らすと品質が下がる
•
最終成果物の決定法が⾃明ではない
•
⽐較結果と Artifact の品質の関係は?
9
本研究の⽬的
•
⽬的
•
Two Stage Pairwise Model のコストを減らす
•
最終成果物の品質はできるだけ下げない
•
提案⼿法
•
Copeland Two Stage Pairwise Model
•
⽐較バンディット + Online CTSPM
⽬次
•
研究背景
•
Copeland Two Stage Pairwise Model
•
⽐較バンディット + Online CTSPM
•
実験
•
まとめ・今後の課題
Notation
• l = Task の数 t ∈ [l]
• m = Creator の数 i, j ∈ [m] • n = Evaluator の数 k ∈ [n]
• at,i = Task t ∈ [l] に対する Creator i ∈ [m] の Artifact • wt,i,j,k = at,i と at,j の Evaluator k ∈[m] による⽐較結果
• wt,i,j,k = 1 : k は at,i の⽅がよいと判断 (at,i の勝ち) • wt,i,j,k = 0 : k は at,j の⽅がよいと判断 (at,i の負け)
• A = 得られた at,i すべての集合 • W = 得られた wt,i,j,kすべての集合
Two Stage Pairwise Model (再掲)
1. Creator が Artifact A を⽣成
2. Evaluator が 全対⽐較結果 W を⽣成
3. W から最終成果物 A
final⊆A を決定
– q(A
final) = A
finalの平均品質 (
観測できない
)
– q(A
final) が⾼くなるように A
finalを選択
–
W と q(A
final) の関係に何らかの仮定が必要
Copeland Two Stage Pairwise Model
•
仮定1: W の分布
•
w
t,i,j,k~ Bernouli(p
*k,i,j)
• P*k ∈ [0,1]m×m : k の 選好⾏列
• p*k,i,j = (P*k )i,j : k の Creator i, j に関する選好
•
解釈
•
勝率 p
*k,i,jは Task t によらない
• Creator i, j の Evaluator k の判断による勝率は Task に関して不変
Copeland Two Stage Pairwise Model
•
仮定2: W と q(A) の関係
•
L
*i< L
*j⇒ E[q(A
i)] > E[q(A
j)]
• P* = P*k の平均 : 真の選好 • L*i = |{j ∈ [m] | p*i,j < ½}| : P* 上での負け数 • Ai = {at,i | t ∈ [l]}•
解釈
•
Copeland 勝者 : c
*= argmin
i∈[m]L
*i•
E[ q(A
c*) ] が最も⾼い
Copeland Two Stage Pairwise Model
1. A, W をクラウドソーシングにより得る
2. 経験勝率 p
ʼ i,jを計算
– pʼ i,j = Σt∈[l] Σk∈[m] wt,i,j,k / lm3. 経験負け数 L
ʼ iを計算
– Lʼ i = |{j ∈ [m] | pʼi,j < ½ }|4. 経験 Copeland 勝者 cʼ を計算
– cʼ = argmini∈[m] Lʼ i5. A
final= {a
t,cʼ| t ∈[l]} を出⼒
16
Copeland TSPM のコスト
•
C
C: Creator 1⼈に Artifact 1つを作成して
もらうコスト
•
C
E: Evaluator 1⼈に Artifact 2つを⽐較して
もらうコスト
•
C
CTSPM: Copeland TSPM を実⾏するコスト
•
C
CTSPM= l (mC
C+ m(m-1)/2 nC
E)
•
m
2の項がネック à
無駄な⽐較を減らしたい
17
Online CTSPM
1. t, i, j, k を
何らかの⽅法
で選ぶ
2. Creator i, j に Task t を依頼して a
t,i, a
t,jを得る
3. Evaluator k に a
t,i, a
t,jの⽐較を依頼して w
t,i,j,kを
得る
4. 1.-3. (ラウンド)を s 回繰り返す
5. s 個の⽐較結果から
何らかの⽅法
で経験 Copeland
勝者 cʼ を計算し,A
final= {a
t,cʼ| t ∈[l]} を出⼒
Online CTSPM のコスト
•
C
C: Creator 1⼈に Artifact 1つを作成してもらう
コスト
•
C
E: Evaluator 1⼈に Artifact 2つを⽐較してもら
うコスト
•
C
CTSPM: Copeland TSPM を実⾏するコスト
• CCTSPM = l (mCC + m(m-1)/2 nCE)•
C
OCTSPM: Online CTSPM を実⾏するコスト
• COCTSPM < s(2CC + CE) + lCC19
⽬次
•
研究背景
•
Copeland Two Stage Pairwise Model
•
⽐較バンディット + Online CTSPM
•
実験
•
まとめ・今後の課題
Online CTSPM
1. t, i, j, k を
何らかの⽅法
で選ぶ
2. Creator i, j に Task t を依頼して a
t,i, a
t,jを得る
3. Evaluator k に a
t,i, a
t,jの⽐較を依頼して w
t,i,j,kを
得る
4. 1.-3. (ラウンド)を s 回繰り返す
5. s 個の⽐較結果から
何らかの⽅法
で経験 Copeland
勝者 cʼ を計算し,A
final= {a
t,cʼ| t ∈[l]} を出⼒
⽐較バンディットを⽤いた OCTSPM (再掲)
•
Copeland TSPM の仮定
1. w
t,i,j,k~ Bernouli(p
* k,i,j)
2. E[ q(A
c*) ] が⼀番⾼い
• c* = P* の Copeland 勝者 • P* = Σ P* k / n• à
t, k はランダムに選んで良い
• à
効率よく c
*を推定できれば良い
•
各ラウンドでc
*らしい Creator i, j を選ぶ問題
•
⽐較バンディット問題
そのもの!!
22
確率的バンディット問題
•
⼊⼒
• m 個の選択肢 • μi ∈[0,1] : 選択肢 i の期待値 (観測できない)•
アルゴリズム
• 各ラウンド sʼ で選択肢から 1つ 選び i(sʼ) とする • i(sʼ) から報酬 R(sʼ) ∈ {0, 1} を得る • R(sʼ) ~ Bernoulli(μi(sʼ))•
⽬的
• Regret(s) = Σsʼ∈[s] ( μmax – μi(sʼ) ) の最⼩化 • μmax = max{μi | i ∈[m]}
⽐較バンディット問題
[Yue+ 12] • ⼊⼒ • m 個の選択肢 (今回は Creator の集合) • pi,j = i の j に対する勝率 (観測できない) • アルゴリズム • 各ラウンド sʼ で選択肢から 2つ 選び i(sʼ), j(sʼ) とする • i(sʼ), j(sʼ) の勝敗 w(sʼ) ∈{0,1} を得る • w(sʼ) ~ Bernoulli(pi(sʼ),j(sʼ)) • ⽬的• Regret(s) = Σsʼ∈[s] (Li(sʼ) + Lj(sʼ) - 2Lmin) を最⼩化 • Li = |{j ∈ [m] | pi,j < ½}|
• Lmin = min{Li | i ∈ [m]}
24
⼀貫性 (Strongly Consistent)
•
アルゴリズムが⼀貫性を持つ
•
E[ Regret(s) ] = o(s
α) を達成する
•
仮説「c* ≠ cʼ」が有意⽔準 1/s で棄却できる
•
OCTSPM + ⼀貫性のあるアルゴリズム
•
統計的に保証のあるコスト削減が可能
25
⽐較バンディットによるコスト削減
•
無駄な⽐較を減らす
•
Copeland 勝者の候補だけに仕事を依頼
•
Copeland 勝者の特定だけに⽐較を利⽤
•
推定に⾃信があるときはコストを減らす
•
現時点での Copeland 勝者の推定に⾃⾝がある
ときは、そもそも⽐較をしない
26
⽐較バンディットアルゴリズム
1. ランダム (baseline)
• ランダムに i(sʼ), j(sʼ) を選ぶ • ⼀貫性なし
2. Copeland Confidence Bound (CCB) [Zoghi+ 15]
• Upper Confidence Bound (UCB) の拡張 • 楽観的に Copeland 勝者である確率を推定
3. ECW-RMED [Komiyama+ 16]
• Minimum Empirical Divergence (MED) の拡張
• Copeland 勝者である確率が 1/sʼ 以上のものを順に試す
⽬次
•
研究背景
•
Copeland Two Stage Pairwise Model
•
⽐較バンディット + Online CTSPM
•
実験
•
まとめ・今後の課題
実験設定
• ⽬的
• CTSPM vs Online CTSPM w/ Dueling Bandits
• コスト削減できていることを確認 • 品質が⼤きく低下しないことを確認 • データ • TSPM で得られた実データ (A + W) • 同時に TSM で各 Artifact に絶対評価(5段階評価)も取得 • 詳細は後述 • 結果 • 経験負け数 Lʼi vs 平均品質 q(Ai) • コスト削減率 R vs 経験負け数 Lʼc* コスト削減率 R vs 平均品質 q(A )
29
データ・セット
•
Translation
• Task = 英⽇翻訳 • l, m, n = 20, 20, 187 • |A| = 200 • |W| = 16,314•
Description
• Task = 画像説明 • l, m, n = 20, 17, 68 • |A| = 190 • |W| = 15,98030
経験負け数
L
’i
vs 平均品質 q(A
i)
31
Description Translation