• 検索結果がありません。

較バンディットアルゴリズムを いた クラウドソーシングにおける 品質 コストトレードオフの 動調整 畠正和, 宮 純平, 場雪乃 北海道 学 /NTT, 東京 学, 京都 学

N/A
N/A
Protected

Academic year: 2021

シェア "較バンディットアルゴリズムを いた クラウドソーシングにおける 品質 コストトレードオフの 動調整 畠正和, 宮 純平, 場雪乃 北海道 学 /NTT, 東京 学, 京都 学"

Copied!
35
0
0

読み込み中.... (全文を見る)

全文

(1)

⽐較バンディットアルゴリズムを⽤いた

クラウドソーシングにおける

品質・コストトレードオフの⾃動調整

(2)

今⽇のお話(⼀枚概要)

•  問題 •  クラウドソーシングの 品質・コストトレードオフ を調整 •  最終成果物の品質をできるだけ下げず、コストを削減 •  ⼿法 •  ⽐較バンディットアルゴリズム を利⽤ •  有⽤な Worker を推定しながら Task を依頼 •  結果 •  実データでコストを 30~50% に削減 •  品質はほぼそのまま

2

(3)

⽬次

研究背景

• 

Copeland Two Stage Pairwise Model

• 

⽐較バンディット + Online CTSPM

• 

実験

• 

まとめ・今後の課題

(4)

クラウドソーシング

• 

クラウドソーシングとは

• 

インターネットを介して

• 

様々な仕事

Task

• 

不特定多数の労働者

Worker

に依頼し

• 

(安価に)成果物

Artifact

を得る枠組み

• 

クラウドソーシングの利⽤例

• 

画像のアノテーション

• 

翻訳⽂・説明⽂の⽣成

• 

イベントロゴの作成

4

AIに⽀配される⼈々

(5)

クラウドソーシングの課題

•  Worker の能⼒にばらつきがある •  能⼒、やる気が異なる •  得意、不得意がある •  複数の Artifact を統合して品質を上げる •  2値分類タスク → 多数決 •  絶対評価値タスク → 平均 •  英⽇翻訳タスク → ??? •  Artifact が統合できない場合がある •  最も品質が⾼い Artifact を選べばいい!! •  どうやって各 Artifact の品質を知る?

5

(6)

Two Stage Model

[Baba+ 13]

Artifact

の品質もクラウドソーシングで評価

1.  Creation Stage

•  Creator が Task に対する Artifact を⽣成

2.  Evaluation Stage

•  Evaluator が Artifact に対する 絶対評価 を⽣成

3.  最終成果物の決定

•  複数の Evaluator の絶対評価を統合 (ex. 平均) •  統合した評価から最も優れた Artifact を選択

6

(7)

Two Stage Model の課題

• 

絶対評価は難しい

• 

複数⼈で評価基準を共有するのは困難

• 

全体的に⾼く・低く付ける⼈がいる

• 

絶対評価はコストが⾼い

• 

各 Artifact を注意深く評価する必要がある

• 

⾼い専⾨性が要求される

7

(8)

Two Stage Pairwise Model

[Sunahase+ 17]

2つの

Artifact

のうち優れた⽅を選ぶ

1.  Creation Stage

•  Creator が Task に対する Artifact を⽣成

2.  Evaluation Stage

•  Evaluator が Artifact に対する

相対評価

を⽣成

3.  最終成果物の決定

•  複数の⽐較結果から最も優れた Artifact を選択

(9)

Two Stage Pairwise Model の課題

• 

全対⽐較はコストが⾼い

• 

1回の⽐較コストは低い

• 

全対⽐較のコスト = O( Artifact数の2乗 )

• 

下⼿に⽐較を減らすと品質が下がる

• 

最終成果物の決定法が⾃明ではない

• 

⽐較結果と Artifact の品質の関係は?

9

(10)

本研究の⽬的

• 

⽬的

• 

Two Stage Pairwise Model のコストを減らす

• 

最終成果物の品質はできるだけ下げない

• 

提案⼿法

• 

Copeland Two Stage Pairwise Model

• 

⽐較バンディット + Online CTSPM

(11)

⽬次

• 

研究背景

Copeland Two Stage Pairwise Model

• 

⽐較バンディット + Online CTSPM

• 

実験

• 

まとめ・今後の課題

(12)

Notation

•  l = Task の数 t ∈ [l]

•  m = Creator の数 i, j ∈ [m] •  n = Evaluator の数 k ∈ [n]

•  at,i = Task t ∈ [l] に対する Creator i ∈ [m] の Artifact •  wt,i,j,k = at,i と at,j の Evaluator k ∈[m] による⽐較結果

•  wt,i,j,k = 1 : k は at,i の⽅がよいと判断 (at,i の勝ち) •  wt,i,j,k = 0 : k は at,j の⽅がよいと判断 (at,i の負け)

•  A = 得られた at,i すべての集合 •  W = 得られた wt,i,j,kすべての集合

(13)

Two Stage Pairwise Model (再掲)

1.  Creator が Artifact A を⽣成

2.  Evaluator が 全対⽐較結果 W を⽣成

3.  W から最終成果物 A

final

⊆A を決定

–  q(A

final

) = A

final

の平均品質 (

観測できない

)

–  q(A

final

) が⾼くなるように A

final

を選択

W と q(A

final

) の関係に何らかの仮定が必要

(14)

Copeland Two Stage Pairwise Model

• 

仮定1: W の分布

• 

w

t,i,j,k

~ Bernouli(p

*k,i,j

)

•  P*k ∈ [0,1]m×m : k の 選好⾏列

•  p*k,i,j = (P*k )i,j : k の Creator i, j に関する選好

• 

解釈

• 

勝率 p

*k,i,j

は Task t によらない

•  Creator i, j の Evaluator k の判断による勝率は Task に関して不変

(15)

Copeland Two Stage Pairwise Model

• 

仮定2: W と q(A) の関係

• 

L

*i

< L

*j

⇒ E[q(A

i

)] > E[q(A

j

)]

•  P* = P*k の平均 : 真の選好 •  L*i = |{j ∈ [m] | p*i,j < ½}| : P* 上での負け数 •  Ai = {at,i | t ∈ [l]}

• 

解釈

• 

Copeland 勝者 : c

*

= argmin

i∈[m]

L

*i

E[ q(A

c*

) ] が最も⾼い

(16)

Copeland Two Stage Pairwise Model

1.  A, W をクラウドソーシングにより得る

2.  経験勝率 p

ʼ i,j

を計算

–  pʼ i,j = Σt∈[l] Σk∈[m] wt,i,j,k / lm

3.  経験負け数 L

ʼ i

を計算

–  Lʼ i = |{j ∈ [m] | pʼi,j < ½ }|

4.  経験 Copeland 勝者 cʼ を計算

–  cʼ = argmini∈[m] Lʼ i

5.  A

final

= {a

t,cʼ

| t ∈[l]} を出⼒

16

(17)

Copeland TSPM のコスト

• 

C

C

: Creator 1⼈に Artifact 1つを作成して

もらうコスト

• 

C

E

: Evaluator 1⼈に Artifact 2つを⽐較して

もらうコスト

• 

C

CTSPM

: Copeland TSPM を実⾏するコスト

• 

C

CTSPM

= l (mC

C

+ m(m-1)/2 nC

E

)

• 

m

2

の項がネック à

無駄な⽐較を減らしたい

17

(18)

Online CTSPM

1.  t, i, j, k を

何らかの⽅法

で選ぶ

2.  Creator i, j に Task t を依頼して a

t,i

, a

t,j

を得る

3.  Evaluator k に a

t,i

, a

t,j

の⽐較を依頼して w

t,i,j,k

得る

4.  1.-3. (ラウンド)を s 回繰り返す

5.  s 個の⽐較結果から

何らかの⽅法

で経験 Copeland

勝者 cʼ を計算し,A

final

= {a

t,cʼ

| t ∈[l]} を出⼒

(19)

Online CTSPM のコスト

• 

C

C

: Creator 1⼈に Artifact 1つを作成してもらう

コスト

• 

C

E

: Evaluator 1⼈に Artifact 2つを⽐較してもら

うコスト

• 

C

CTSPM

: Copeland TSPM を実⾏するコスト

•  CCTSPM = l (mCC + m(m-1)/2 nCE)

• 

C

OCTSPM

: Online CTSPM を実⾏するコスト

•  COCTSPM < s(2CC + CE) + lCC

19

(20)

⽬次

• 

研究背景

• 

Copeland Two Stage Pairwise Model

⽐較バンディット + Online CTSPM

• 

実験

• 

まとめ・今後の課題

(21)

Online CTSPM

1.  t, i, j, k を

何らかの⽅法

で選ぶ

2.  Creator i, j に Task t を依頼して a

t,i

, a

t,j

を得る

3.  Evaluator k に a

t,i

, a

t,j

の⽐較を依頼して w

t,i,j,k

得る

4.  1.-3. (ラウンド)を s 回繰り返す

5.  s 個の⽐較結果から

何らかの⽅法

で経験 Copeland

勝者 cʼ を計算し,A

final

= {a

t,cʼ

| t ∈[l]} を出⼒

(22)

⽐較バンディットを⽤いた OCTSPM (再掲)

• 

Copeland TSPM の仮定

1.  w

t,i,j,k

~ Bernouli(p

* k,i,j

)

2.  E[ q(A

c*

) ] が⼀番⾼い

•  c* = P* の Copeland 勝者 •  P* = Σ P* k / n

•  à

t, k はランダムに選んで良い

•  à

効率よく c

*

を推定できれば良い

• 

各ラウンドでc

*

らしい Creator i, j を選ぶ問題

⽐較バンディット問題

そのもの!!

22

(23)

確率的バンディット問題

• 

⼊⼒

•  m 個の選択肢 •  μi ∈[0,1] : 選択肢 i の期待値 (観測できない)

• 

アルゴリズム

•  各ラウンド sʼ で選択肢から 1つ 選び i(sʼ) とする •  i(sʼ) から報酬 R(sʼ) ∈ {0, 1} を得る •  R(sʼ) ~ Bernoulli(μi(sʼ))

• 

⽬的

•  Regret(s) = Σsʼ∈[s] ( μmax – μi(sʼ) ) の最⼩化 •  μmax = max{μi | i ∈[m]}

(24)

⽐較バンディット問題

[Yue+ 12] •  ⼊⼒ •  m 個の選択肢 (今回は Creator の集合) •  pi,j = i の j に対する勝率 (観測できない) •  アルゴリズム •  各ラウンド sʼ で選択肢から 2つ 選び i(sʼ), j(sʼ) とする •  i(sʼ), j(sʼ) の勝敗 w(sʼ) ∈{0,1} を得る •  w(sʼ) ~ Bernoulli(pi(sʼ),j(sʼ)) •  ⽬的

•  Regret(s) = Σsʼ∈[s] (Li(sʼ) + Lj(sʼ) - 2Lmin) を最⼩化 •  Li = |{j ∈ [m] | pi,j < ½}|

•  Lmin = min{Li | i ∈ [m]}

24

(25)

⼀貫性 (Strongly Consistent)

• 

アルゴリズムが⼀貫性を持つ

• 

E[ Regret(s) ] = o(s

α

) を達成する

• 

仮説「c* ≠ cʼ」が有意⽔準 1/s で棄却できる

• 

OCTSPM + ⼀貫性のあるアルゴリズム

• 

統計的に保証のあるコスト削減が可能

25

(26)

⽐較バンディットによるコスト削減

• 

無駄な⽐較を減らす

• 

Copeland 勝者の候補だけに仕事を依頼

• 

Copeland 勝者の特定だけに⽐較を利⽤

• 

推定に⾃信があるときはコストを減らす

• 

現時点での Copeland 勝者の推定に⾃⾝がある

ときは、そもそも⽐較をしない

26

(27)

⽐較バンディットアルゴリズム

1.  ランダム (baseline)

•  ランダムに i(sʼ), j(sʼ) を選ぶ •  ⼀貫性なし

2.  Copeland Confidence Bound (CCB) [Zoghi+ 15]

•  Upper Confidence Bound (UCB) の拡張 •  楽観的に Copeland 勝者である確率を推定

3.  ECW-RMED [Komiyama+ 16]

•  Minimum Empirical Divergence (MED) の拡張

•  Copeland 勝者である確率が 1/sʼ 以上のものを順に試す

(28)

⽬次

• 

研究背景

• 

Copeland Two Stage Pairwise Model

• 

⽐較バンディット + Online CTSPM

実験

• 

まとめ・今後の課題

(29)

実験設定

•  ⽬的

•  CTSPM vs Online CTSPM w/ Dueling Bandits

•  コスト削減できていることを確認 •  品質が⼤きく低下しないことを確認 •  データ •  TSPM で得られた実データ (A + W) •  同時に TSM で各 Artifact に絶対評価(5段階評価)も取得 •  詳細は後述 •  結果 •  経験負け数 Lʼi vs 平均品質 q(Ai) •  コスト削減率 R vs 経験負け数 Lʼc* コスト削減率 R vs 平均品質 q(A )

29

(30)

データ・セット

• 

Translation

•  Task = 英⽇翻訳 •  l, m, n = 20, 20, 187 •  |A| = 200 •  |W| = 16,314

• 

Description

•  Task = 画像説明 •  l, m, n = 20, 17, 68 •  |A| = 190 •  |W| = 15,980

30

(31)

経験負け数

L

i

vs 平均品質 q(A

i

)

31

Description Translation

(32)

コスト削減率 R vs 負け数 L

i

30~50%のコストで Copeland 勝者を推定

32

(33)

コスト削減率 R vs 平均品質 q(A

c*

)

30~50%で CTSPM とほぼ同じ品質を達成

33

(34)

⽬次

• 

研究背景

• 

Copeland Two Stage Pairwise Model

• 

⽐較バンディット + Online CTSPM

• 

実験

まとめ・今後の課題

(35)

まとめ・今後の課題

• 

まとめ

•  TSPMにおける品質・コストトレードオフを⾃動調整す る⼿法を提案 •  Online Copeland TSPM + ⽐較バンディット •  実データにおいて 30~50 % のコスト削減 •  最終的な品質はほぼそのまま

• 

今後の課題

•  より弱い仮定の⼿法を考える •  ex) Task 毎に分布が異なる •  Evaluator の能⼒を考慮する •  今回は平均化により能⼒の違いを吸収している

35

参照

関連したドキュメント

学期 指導計画(学習内容) 小学校との連携 評価の観点 評価基準 主な評価方法 主な判定基準. (おおむね満足できる

「都民ファーストでつくる「新しい東京」~2020年に向けた実行プラン~」(平成 28年12月 東京都)では、「3つのシティ(セーフ

ヘッジ手段のキャッシュ・フロー変動の累計を半期

★分割によりその調査手法や評価が全体を対象とした 場合と変わることがないように調査計画を立案する必要 がある。..

具体的な取組の 状況とその効果 に対する評価.

具体的な取組の 状況とその効果 に対する評価.

通関業者全体の「窓口相談」に対する評価については、 「①相談までの待ち時間」を除く