1.は
じ め に
本稿では,機械学習やデータマイニング分野における 公平性と,この公平性を扱う手法を概観する.こうした 分野は公平性配慮型データマイニング(fairness-aware data mining)や公平性配慮型機械学習(fairness-aware machine learning)などと呼ばれている.公平性配慮型 データマイニングでは,公平性,差別,中立性,独立性 などの潜在的な問題を考慮に入れてデータ分析を行う. この機械学習における公平性の研究は 2010 年以前で はわずかに行われていたのみだったが,2010 年から徐々 に研究者が増え,2017 年には急速に注目されるように なった.これは,EU の新しいデータ利用法制 General Data Protection Regulation [GDPR]や,2016 年の米大 統領選挙に伴う Fake News 問題が大きく影響している と考える.また,The IEEE Global Initiative on Ethics of Autonomous and Intelligent Systems [IEEEGIoE, 江 間 18] による Ethically Aligned Design や,ACM Code of Ethics and Professional Conduct [ACMCoE]などの 倫理規定制定の動きとも連動しているだろう. 本稿の構成は以下のとおりである.2 章では,データ 分析において公平性が関連した事例を紹介する.3 章で は,公平性配慮型データマイニング分野で考案された形 式的な公平性の規準を述べる.4 章ではこの分野でのタ スクを,5 章ではこれらのタスクを実行する手法を,6 章ではその他の観点を紹介する.7 章のまとめでは関連 資料や研究コミュニティを紹介する.2.データ
分析で公平性が議論された背景
データマイニング・機械学習で公平性が議論されはじ めた背景を紹介する.単純にデータ分析を適用すると, 性別や人種など生得的地位に対する不公平な扱いが,意 図的ではないにせよ生じた事例を二つ紹介する. 2・1 ネット広告配信の事例 まず,ネット広告配信における Sweeney による指摘 を紹介する [Sweeney 13].読者は,多くの文書や Web ページから,必要な情報を見つけ出す情報検索サイト を毎日利用していることと思う.これらのサイトでは, キーワードに関連した項目に加え,そのキーワードに関 連した広告も併せて表示される.Sweeney はこの広告 が,人種に対する偏見に基づいている可能性について調 査した.具体的には,マサチューセッツ州の新生児の記 録から,アフリカ系とヨーロッパ系の間で偏りが大きい 2 000種以上の名前を選び,これらの名前で検索サイト とニュースサイトで検索し,表示される広告を調査した. Sweeneyは,米国の各州で公開されている逮捕歴の 情報などを検索する Instant Checkmate などのサイト に関する広告に注目した.図 1(a)は,アフリカ系に 多い名前“Latanya Farrell”で検索した場合に表示さ れた広告の例である.1 行目の広告は『Latanya Farrell は逮捕されたか?』という逮捕歴を示唆するような広 告文になっている.一方で,ヨーロッパ系の名前“Jill Schneider”で検索した図 1(b)では,2 行目の『Jill Schneiderを見つけました』のように,特に逮捕歴を示 唆しない中立的な広告文であった.より詳しく調べると, 実際のリンク先のサイトで逮捕歴があるか,また,その 名前のレコードが存在するかに基づいて広告文が選択さ れているわけではなかった.アフリカ・ヨーロッパ系の 区別と,広告文が中立かどうかの独立性を統計的に検定 したところ,有意にアフリカ系で逮捕歴を示唆する広告 文が多かったと報告している.機械学習・データマイニングにおける公平性
Fairness in Machine Learning and Data Mining
神嶌 敏弘
産業技術総合研究所Toshihiro Kamishima National Institute of Advanced Industrial Science and Technology(AIST). [email protected], http://www.kamishima.net/
小宮山 純平
東京大学Junpei Komiyama The University of Tokyo.
[email protected], http://www.tkl.iis.u-tokyo.ac.jp/~jkomiyama/index_jp.html
Keywords:
fairness, machine learning, data mining, ethics, intepretability. 「道徳判断の自動化をめぐる問題:規範の選択と協力の進化」† 冊子版「人工知能」Vol. 34, No. 2, p. 198, 201, 202 では誤った情報が記載されている.
そこで,Instant Checkmate 社に対してインタビュー による調査を行ったが,単純に広告の収益率を最大化す るようなものを選択しており,恣意的な差別は認められ なかった.このテンプレートは姓のみに基づいて選択し ており,他の規準はないとのことであった.これは,デー タ分析技術自体には偏見はないが,データに含まれる社 会の悪意が,意図せず反映されてしまった事例といえる. 2・2 再犯リスクスコアの事例 次に,データジャーナリズム NPO の Propublica に よる再犯リスクスコアに対する指摘を紹介する [Angwin 16].データジャーナリズムとは,データ分析を用いた エビデンスに基づくジャーナリズムで,記事とともに分 析過程やデータをも公開している. ここでいう再犯リスクスコアは,被告人が 2 年以内に 再び犯罪を犯す可能性を評価するものである.過去の裁 判システムには人種に対する主観的な偏見があったとの 反省に立ち,エビデンスに基づく決定を重視するという 方針で導入が進んでいる.この記事中でも指摘している ことではあるが,スコアの導入自体ではなく,そのスコ アに偏りがあることを問題視している点が重要である. このようなエビデンスを重視する方針がなければ,統計 分析に基づいたこうした厳密な議論すらできなかったで あろう. 本題に戻り,再犯リスクの予測の傾向が人種間で異 なっているとの ProPublica の分析結果を紹介する.具 体的には,実際には 2 年間に再犯しなかった人が,再犯 すると誤って予測されてしまった割合は,アフリカ系が 45%であるのに対し,ヨーロッパ系では 23%であった. すなわち,アフリカ系の人について,実際には更生する 人を再犯すると予測してしまいやすい.逆に,その後 2 年の間に実際に再犯しまった人を,再犯しないと誤って 予測してしまった割合は,アフリカ系が 28%でヨーロッ パ系が 48%であった.すなわち,実際には再犯するヨー ロッパ系の犯罪者を見逃しやすい.ここで注意すべき は,全般的にはアフリカ系の場合のほうが実際の犯罪率 は 51%対 39%と高いので,アフリカ系の人を全般的に 高リスクであると判定してしまうことを問題としている わけではない.予測には不確実性が必ず伴うが,大まか にいえば,この不確実性に人種間で差があるという指摘 である. 予測アルゴリズムはデータ量が十分であるなど条件が 整えば,こうした予測の不確実性には偏りが生じないよ うに設計されている.しかし,実際にはこうした条件が 十分に満たされない場合もあり,特に悪意ある操作をし なくても,この事例のような差が生じ得る.
3.データマイニングにおける
公平性規準
特徴と目的変数についていくつかの記号を定義したあ と,データマイニングや機械学習分野における形式的な 公平性の規準を示す.公平性の規準として確率論的なも のを先に述べ,その後でゲーム理論・経済学の概念に基 づく公平性を紹介する.最後に,形式的な公平性のその 他の要素を紹介する. 3・1 表 記 確 率 変 数 S と X は, そ れ ぞ れ セ ン シ テ ィ ブ 特 徴 (sensitive feature)と非センシティブ特徴(もしくは, 単に特徴;non-sensitive feature)を表す.公平性配慮 型データマイニングでは,センシティブ特徴の表す性質 に対して公平性を保証しつつ分析する.例えば,与信, 採用,保険などの決定について扱うとき,社会的公平性 の観点からその関与を排除すべき対象者の性別や人種と いった個人属性情報を,このセンシティブ情報とする. なお,このセンシティブ特徴に何を設定するかは,デー タマイニングで扱うタスクと,法や規制などの社会的環 境を考慮して与えるものとする.S は,連続変数でも離 散変数でも,またスカラでもベクトルであってもよい. しかし,既存の研究では主に定義域が {0, 1} である 2 値 変数でスカラの場合が扱われており,本稿はこの場合に 限定する.値 1 と 0 をとるときを,それぞれ非保護状態 (non-protected)と保護状態(protected)にあるといい, あるデータ集合中で,保護状態にある事例の集合を保護 グループ,それ以外の事例集合を非保護グループという. 保護グループのほうが少数で,不利な決定を受ける可能 図 1 人名で検索した場合に表示される Web 広告の例*1(a)アフリカ系の“Latanya Farrell”で検索した場合 (b)ヨーロッパ系の“Jill Schneider”で検索した場合
*1 [Sweeney 13] Communications of the ACM by Association for Computing Machinery Reproduced with permission of ASSOCIATION FOR COMPUTING MACHINERY in the format Republish in a journal/magazine via Copyright Clearance Center.
性が高いと仮定する.一方の非センシティブ特徴 X は, 対象を表す特徴の中で,上記のセンシティブ特徴以外の すべてを含む特徴ベクトルである.確率変数 Y は目的変 数で,与信・採用・保険などの決定を表し,分析者はこ の変数の表す内容に関心がある.公平性配慮型データマ イニングでは,Y は,与信などで有利な決定をする場合 を正クラス 1 で,不利な場合を負クラス 0 で表す二値変 数となる場合が主に研究されている.この Y については, さらに結果の予測値を Yˆ,観測値を Y として区別する. 3・2 確率論的な公平性 最初に最も議論が進んでいる確率論的な公平性を紹介 する.これは,変数 S, Yˆ, Y,および X の間の独立性や 無相関性で形式的な公平性を定義する.この種の公平性 は,米国の Uniform Guidelines on Employee Selection
Procedure [Feldman 15]の優遇されたグループとそうで ないグループの雇用の比率を定めた規則などを参考に考 案されたものである. 最も単純な規準は,センシティブ特徴を取り除い てモデルを訓練する,すなわち目的変数は S とは独 立 で,X の み に 依 存 す る,Pr [Yˆ|X]=Pr [Yˆ|S, X] と いうものである.この条件は条件付き独立性 Yˆ S|X に該当する.この条件を満たさない場合は,直接差別 (direct discrimination)[Pedreschi 08] や disparate
treatment [Feldman 15]と呼ばれている.しかし,も しセンシティブ特徴と他の特徴との間に依存関係があれ ば,その特徴を通じてセンシティブな情報が結果に影響 してしまう.例えば,人種ごとにまとまった地域に住ん でいることはよくあるため,たとえ人種という情報を直 接的に使わなくても,住所の情報を用いて分析すると間 接的に人種の情報を使ってしまうことになる.この現象 は red-lining 効果 [Calders 10] と呼ばれている.また, この効果のために,分析過程からセンシティブ情報を取 り除くだけでは予測結果を十分に公平にすることはでき ない.そして,現状では公平性保証のために収集しない センシティブな情報を,逆に収集しなければ対応できな いという問題もある. 次に,red-lining 効果をも考慮した公平性規準につい て述べるために,2・1 節の広告配信の例を考えよう.こ の例では,社会の偏見に基づく判定がデータに含まれて いることが原因となっている.すなわち,アフリカ系の 人に対して犯罪歴を示唆する広告文があるとクリックす るという偏見のある判断がデータに含まれている.よっ て,データの判断を部分的に無視して,センシティブ情 報が変わっても同じ割合で広告文を選ぶようにする形式 的公平性を考える [Calders 10].すなわち,センシティ ブ特徴 S がアフリカ系とヨーロッパ系とのいずれの場 合でも,選択する広告文の比率を一定に保つようにす る.これは,図 2(a)の S = 0 と 1 の二つの場合の比 率(図中の矢印で示した黒塗り部分)が一致するという ことである.この規準は,一般的には,Yˆ と S の統計的 独立性 Yˆ S に当たる.この条件を満たさない不公平性 を,間接差別(indirect discrimination)[Pedreschi 08] や disparate impact [Feldman 15] といい,特に S が二 値の場合の公平性を統計的均一性(statistical parity) [Dwork 12]と い う.disparate treatment は セ ン シ ティブな情報を使わないという手続き上の公平性だが, disparate impactは結果に対する公平性である [Barocas 17]. 2・2 節の再犯リスクスコアの例では別の公平性規準が 必要になる.この場合は,主観的な判断ではなく,実際 に再犯をしたかどうかという客観的基準によってクラス は決定される.ここでの問題は,データ量が十分ではな いなどの理由による帰納バイアスにより予測結果に偏り が生じているということである.この場合,スコアによ るリスクの高低は Yˆ,実際に 2 年に以内に再犯したかは Yに該当する.このとき,実際の結果 Y に対して,予測 結果 Yˆ がどれくらい外れてしまうのかを,センシティブ 特徴の値によらないように調整する.これは,図 2(b) のように,データ Y と予測 Yˆ の間の 2 組の比率(図中 の矢印で示した黒塗り部分)が,センシティブ特徴 S の 値が 0 であっても 1 であっても同じになるようにする [Hardt 16].この規準は,Y が与えられたときの Yˆ と
Sの独立性 Yˆ S|Y と形式的には表せ,均等オッズ
(equalized odds)[Hardt 16, Zafar 17b] などと呼ばれて いる.なお,条件なし独立であっても,条件付き独立に なるわけではないので,均等オッズと統計的均一性は同 時には達成できない場合がある. 特定の条件・文脈が成立するときにのみ差別的かどう かを扱う場合があり,相関ルールを対象に扱われている [Pedreschi 08].例えば,ローンの可否を決めるとき,ア フリカ系全般では不公平な扱いはないが,ある特定の居 住地に限れば不公平がある場合である.このような場合 は文脈依存独立性(context-specific independence)Yˆ S|X=x で表せる. 3・3 その他の観点での公平性規準 確率論以外の観点の公平性規準として,ゲーム理論に 基づくものと,経済学に基づくものを順に紹介する.ゲー ム理論では,公平分割問題 [宍戸 03] における無羨望 (envy free)の規準を導入したものがある [Zafar 17a].
Ŷ = 1 S = 1 Ŷ = 0 Ŷ = 1 Ŷ = 0 S = 0 FPR TPR FPR TPR Y = 0 Y = 1 S = 1 S = 0 Ŷ=1 Ŷ = 0 Ŷ=0 Ŷ = 1 Y = 0 Y = 1 Ŷ=1 Ŷ = 0 Ŷ=0 Ŷ = 1 図 2 形式的な公平性の規準 (a)予測の比率の一致 (b)予測誤差の比率の一致
3・2 節の規準は,出力 Y の比率といった,グループ間で 共通の指標に基づいていた.公平分割問題での無羨望規 準では,指標はグループごとに存在し,全グループにとっ て自グループの規準に照らして良い状態であれば受け入 れるというものである.この考えを利用して,予測器は 各グループごとにあり,自身の予測器を用いたほうが他 グループの予測器を用いるより,有利な判定を受ける割 合が多い予測器をそれぞれ採用するという公平性規準を 提案している. 経済学の,社会自体の貧富の差を評価する指標(Gini 係数など)を利用する規準も提案されている [Speicher 18].例えば,支払ができない人に対して,支払が可能 と予測されると,その人は大きな利益を得て,逆であれ ば大きな損失を被るだろう.このようにして予測によっ て個々の参加者が得る利益を定義し,この利益がグルー プ間で貧富の差が小さくなっているかで公平性を評価す る. 3・4 形式的な公平性のその他の要素 公平性規準にはほかにも考慮すべき点がある.まずグ ループ公平性(group fairness)と個人公平性(individual fairness)について述べる [Dwork 12].グループごとの 平均がグループ間で一致しているのがグループ公平性 で,3・2 節で述べたものはすべてこのグループ公平性で ある.一方で,センシティブ情報は異なるが,非センシ ティブ情報は全く同じ一対の個人がいたとしたとき,そ の個人は同様の扱いを受けるのが個人公平性である.こ の個人公平性を検証する手続きは situation testing など とも呼ばれる [Luong 11]. 公平性には S や Y の値を対称に扱う場合と,非対称 に扱う場合がある.S の対称性は,保護・非保護グルー プを同等に扱って公平にする場合と,保護グループが差 別的に扱われないように,すなわち非保護グループと 同等以上の扱いを受けるようにする場合である.Y の対 称性は,有利に扱われる場合の利益と,不利に扱われる 場合の損失を同等に評価するかどうかということである [Žliobait˙e 17]. 条件なし独立性 Yˆ S が成立しなくても,依存して いる条件 Yˆ S|X(E)によっては公平である場合があ る.ここで,X(E)は非センシティブ特徴 X の部分集合 である.X(E)は,たとえ間接的に目的変数に影響を与 えたとしても,専門家や分析者が問題ないと判断した 要因を表し,説明可能特徴(explainable feature)や legallygrounded attributeという [Calders 13, Žliobait˙e 11].文献の例では,女性の入試の合格率が低かったと しても,それが全般的に合格率の低い医学部を受ける比 率が女性のほうが高く,また合格率の高い計算機科学を 受ける比率が男性のほうが高かったためであったとした ら不公平とはいえず,このとき,受験する学部が X(E) に該当する.また,因果推論の文脈では X(E)は交絡因 子や合流点に該当し,傾向スコアを導入して扱うことが できる [Calders 13].
4.
公平配慮型データマイニングのタスク
公平配慮型データマイニングの分析タスクは,不公平 発見(unfairness discovery)と不公平防止(unfairness prevention)に大きく分類できる [Ruggieri 10].不公平 発見では,判断結果に不公平なものが含まれているか, また含まれているとすればその結果を抽出する.不公平 防止とは,不公平な分析結果が生じないようにしつつ, クラス分類や回帰といった分析を行う手法である. 不公平発見は,データベースとアルゴリズムを対象と するものがある.データベースは,多くの事例に対する 判断結果と入力の情報を保持したものである.このデー タベースから,判断結果を導く相関ルールを列挙し,こ の中から不公平なものを発見する [Pedreschi 08].また, データベースに対して因果推論を適用して,センシティ ブ情報の判断結果への影響を調査したりする [Zhang 18].アルゴリズムは,特徴ベクトルを入力として与え ると,その結果のみを観測できるブラックボックス予測 器を対象とする.さまざまなデータをアルゴリズムに入 力し,その出力を観測することで,センシティブ情報の 目的変数に与える影響の度合いを測ってそのアルゴリズ ムを監査する [Adler 16]. 不公平防止では,通常の予測問題と同様に,多様な 目的変数が扱われている.最初は分類を対象としたも の [Calders 10] が 提 案 さ れ, そ の 後, 回 帰 [Calders 13],次元削減 [Bolukbasi 16],推薦 [Kamishima 12a, Kamishima 18b],ランキング [Zehlike 17] などのほか の予測問題に拡張されていった.これらの手法は,公 平性を達成する過程の違いに基づいて,前処理型(pre- process),中処理型(in-process),および後処理型(post-process)に分けられる [Ruggieri 10].図 3 は(Y, X, S) 上の分布を表す.水平な平面で表したものは確率分布の モデル分布の族を表すモデル部分空間,垂直な平面は 3 章の規準を満たす公平部分空間である.公平性制約を満 たさない可能性のあるⓐの分布から得た標本・訓練デー タから,公平性を満たすモデル分布の中で最も近似誤差 の小さなⓑを見つけることが,不公平防止タスクの目標 である. 前処理型では,図 3 ⓐの訓練データを公平性を満た しつつひずみが最小なⓒに写像し,その後,通常の分類 器などを使って目標モデルⓑを見つける [Kamiran12a, Feldman 15].任意の分類器を利用できる利点があるが, 分類器についてなんら仮定を導入せずに公平部分空間へ の適切な写像を決めるのには困難が伴う. 中処理型の手法は,図 3 ⓐの訓練データから,目標モ デルⓑを直接獲得する [Kamishima 12b, Zafar 17c].こ の手法はモデルに対する制約が少ないので,潜在的に最も良い公平性と性能のトレードオフを達成できる可能性 がある.しかし,目的関数の設計やその最適化には技術 的な困難が伴う. 後処理型では,通常の予測器を使って学習してⓓの モデルを獲得し,その後,公平性制約を満たすように そのモデルを修正して目標モデルⓑを得る [Calders 10, Hardt 16, Kamiran 12b].この方法では,公平な予測結 果は非センシティブ特徴には依存せず,通常の予測モデ ルⓓの予測結果とセンシティブ特徴にのみ依存する紛失 性(oblivious)[Hardt 16] という制約のため,公平性と 性能のトレードオフの観点からは不利である.しかし, この仮定により公平な予測器の設計とその学習は非常に 簡潔になる.
5.
不公平防止の手法
分類問題とその他の問題に分けて不公平防止用の予測 手法を紹介する. 5・1 クラス分類問題 最も多くの手法が開発されている公平性配慮型のクラ ス分類器を,4 章で述べた前処理型,中処理型,および 後処理型に分けて紹介する. § 1 前処理型 前処理型では入力データを,クラス分類結果に影響 しないように変換する.マッサージング(massaging) は,訓練データのクラスラベルを置き換える方法であ る [Kamiran 12a].図 4 の上の列は非保護,下の列は保 護グループである.また,丸一つが各訓練データに該当 し,+と−はそれぞれデータ中の正負のクラス 1 と 0 を 表す.何らかの分類器によって変換前のデータで正クラ スへのなりやすさを予測し,その順に整列する(図の矢 印の方向).そして,保護・非保護グループの正負のク ラスの比率が一致する点(図中の実線)でクラスの正負 が分かれるように,点線で囲んだ事例のラベルを反転さ せる.この例では,上段の 4 個の正クラスから負クラス, 下段の 1 個を負クラスから正クラスに変換する.あとは, この変換したデータで再び分類器を学習させるものであ る.この方法は簡潔である点で優れるが,変換の前後で 用いる分類器が異なる場合は必ずしも最適な結果は得ら れない. Feldman らのアルゴリズムは,クラスラベルではなく 非センシティブ特徴を書き換える [Feldman 15].形式的 には,センシティブ特徴値で条件付けした非センシティ ブ特徴 X の分布 Pr [ X|S=s] がすべての可能な値で一 致するように,X の値を変換する.置き換える値は,こ の条件付き分布の累積密度関数を経験的に求め,S = 0 と S = 1 での累積密度が等しい点での X の値の中央値に する.この変換では,特徴値の大小関係は保存されるの で,クラス分類への影響は小さくて済む. その他,センシティブ情報を置換する方法 [Hajian 13]や,個人公平性を考慮する [Zemel 13] などの手法が ある. § 2 中処理型 中処理型では,分類器の学習時に公平性を満たすよう にする.正則化を用いる方法 [Kamishima 12b] は,分 類器の目的関数に,公平性を強化するための正則化項を 加えたものを目的関数とし,これを最小化する. s ln L(Ds;θ)+η ( , SYˆ )+ λ ‖ θ(s)‖22 RPR min θ - 2 s (1) 第 1 項は負の対数尤度関数をセンシティブ情報が同じ データごとに求めたものの和で,第 3 項は過学習を防ぐ L2正則化項である.第 2 項は prejudice remover と呼ぶ 項で,公平性を保つための制約項である.この文献では Yˆと S の非独立性を測るためこれらの変数の相互情報量 を用いた. RPR( , S)=n , S Pr[ , S] ln Pr[ , S] Pr[ ] Pr[S] Yˆ Yˆ Yˆ Yˆ Yˆ (2) 定式化は簡潔であるが,目的関数が凸関数と凹関数の 和であり全体として非凸となるため,その最適化は難し い.また,公平性と精度のトレードオフを良くするには, 確定的なクラスの決定則の影響を明示的に考慮する必要 がある [Kamishima 18a].Zafar らの方法 [Zafar 17c] は,Y と S の独立性では なく,無相関性を制約とする.無相関でもセンシティブ 情報の影響は残ってしまうのだが,目的関数の最適化は 容易になる.ロジスティック回帰のような線形モデルで は次のような制約付きの最適化問題になる. fair sub-space model sub-space
fair model sub-space
c a d b c a d b c a d b 図 3 不公平防止手法の分類 -- - -S = 1 S = 0 + + + + + + + + + -+ + + Pr[Ŷ=1∣∙] 図 4 マッサージング
min θ - lnL(D ;θ) s.t. N1 (si-¯s)(θTxi) ≤η i (3) 目的関数は負の対数尤度で,この関数を相関の絶対値 が十分に小さいという制約条件のもとで最小化する.制 約式中の, ¯s はセンシティブ変数の平均値で,この平均 値からの各データの乖離が si− ¯s である.一方のθTxiは 決定平面からの乖離を表し,これらの乖離の積の全訓練 データについての平均が S と Yˆ の共分散となる. この共分散を小さく保つことで,無相関性を達成する. ほかには,決定木の葉ノードでのクラス分布を調整し て公平性を確保する Kamiran らの方法 [Kamiran 10] や,η中立性を用いる福地らの方法 [Fukuchi 13] などが ある. § 3 後処理型 後処理型は,通常の分類器で得られたクラスラベル を公平性が保たれるように置換する.Calders らは,保 護・非保護グループそれぞれの訓練データから通常の 方法で単純ベイズ分類器を学習し,その事前分布を修 正することで公平な決定をする 2‒ 単純ベイズ法(two-naive-Bayes method)を提案した [Calders 10].Reject Option based Classification 法 [Kamiran 12b] は,統計 的均一性を達成するように決定境界に近い事例の分類 結果を書き換える.通常は Pr [Y=1|X] 0.5 なら正ク ラスに分類するが,この決定境界 0.5 付近では予測は不 確実であると考える.そこで [1−θ, θ], 0.5<θ1 の領 域では,非保護グループでは正クラスと予測された事例 は負クラスに,逆に保護グループでは負クラスと予測さ れた事例を正クラスに分類することで公平性を高める. さらに,誤分類のコストを考慮するコスト配慮型学習 [Elkan 01]とこの手法との関連についても論じている. 統計的均一性ではなく,均等オッズを達成するように置 き換える手法は,Hardt らが提案している [Hardt 16]. 5・2 その他の予測問題 分類以外の予測問題で,公平性を考慮する方法につ いてまとめる.目的変数の定義域が実数である回帰問題 では,保護・非保護グループ間で平均を一致させる方 法 [Calders 13] やη中立性と呼ぶ max ダイバージェン スに基づく制約を用いる方法 [Fukuchi 13] などがある. Pérez-Suay らは,Hilbert-Schmidt 独立性規準(HSIC) を制約項として用いて,線形回帰・カーネル回帰で Yˆ と Sの独立性を達成する手法を提案している [Pérez-Suay 17].その他,上記の回帰で用いた HSIC は次元削減に も適用でき,データからセンシティブ情報を除去する ことができる [Pérez-Suay 17].小宮山らは,回帰にお いて統計的均一性を制約として入れた最適化は非凸な 最適化問題になり正確に解くことが難しいことを示した [Komiyama 18].また,例外的に二乗誤差の場合は正確 な最適化が可能なことを示した. 自然言語処理では,単語を Skip-gram などのモデルを 用いて低次元空間のベクトルで表現する.このようなベ クトルでは,「王」は「男性」に,「女王」は「女性」に 近いといった,意味の近さがベクトル間の類似性に反映 される.このとき,学習に用いたコーパスに影響されて, 「船長」は「男性」に,「看護師」は「女性」に近いと いった職業における性別の偏りが生じていた [Bolukbasi 16].これら偏りの見られた単語を性別とは無相関に変 換することで補正する手法を提案している. 推薦は,利用者が好むであろうものを予測して,そ れを利用者に提示するタスクである.利用者が商品に付 けるであろう評価スコアを予測する問題で,センシティ ブ情報を除外して公平性を確保する研究がある.神嶌ら はクラス分類に用いた正則化項を推薦にも利用してい る [Kamishima 12a, Kamishima 18b].また,神嶌らは グラフィカルモデルを用いた推薦モデルも提案している [Kamishima 16].これは,トピックモデルを用いた協 調フィルタリングモデル [Hofmann 99] に,評価スコア とセンシティブ情報が独立となるようにセンシティブ変 数を追加したものである.これらの手法は統計的均一性 を達成するように設計されているが,均等オッズ,すな わち保護・非保護グループ間で予測誤差を等しくする手 法も提案されている [Yao 17]. ランキングとは,情報検索の結果などで用いられるも ので,目的に適合したものから順に整列したリストを提 示するタスクである.このリストは,検索内容への一致 度などを個々の対象について求め,それが大きいものか ら順に整列し,上位 k 個を選択して作製する.このラン キングもデータやアルゴリズムによってさまざまな偏向 が生じることが知られている [Baeza-Yates 18].こうし た偏向を除去するために FA*IR アルゴリズムは考案さ れた [Zehlike 17].まずランキングにおける公平性はク ラス分類など他の問題とは若干異なる点がある.クラス 分類は対象を個別にクラスに割り当てるのに対し,ラン キング問題では複数の対象を同時に扱う必要がある.そ こで,リストの最上位から最下位までのどの順位であっ ても,リストのその順位までに含まれる対象の保護・非 保護グループの比率が,データ全体のそれと統計的に 有意な差がない場合にリストは公平であると定義する. FA*IR では,保護・非保護のグループに対してそれぞ れでリストを作製したあと(図 5 右),それらを一つの リストに併合する(図 5 左).併合するときには,適合 度の大きなものから順に選ぶのだが,そこまでのリスト の保護・非保護グループの比率が全体の比率と大きく 違ってしまいそうな場合は,比率の差を緩和するような 対象を加える.図 5 の例では,第 3 位に非保護グループ から適合度 0.9 の対象を加えようとすると,リストの上 位 3 位までの比率と全体の比率との差が規定値を超えて しまう.そこで,この例では保護グループで最も適合度
の大きなものを併合リストに加えることで,この比率の 差を緩和している.公平性に配慮したランキングアルゴ リズムは Singh ら [Singh 18] などの研究もある.
6.そ の
他 の 話 題
公平性に関わる話題を二つ紹介する.まず,ここまで は一度だけの決定について考慮したが,この決定を何度 も繰り返すとどうなるかという点についての分析を紹介 する [Liu 18].銀行が貸出しを認めるかどうかの例を考 えてみよう.保護グループに貸出しを認める割合を非保 護グループと同じにしたとき,非保護グループで返済能 力の高い個人より保護グループ中のより返済能力の低い 個人に貸出しを認めたとしよう.その結果,返済率は保 護グループで悪化し,そのデータから予測器を再学習す ると保護・非保護グループの予測返済率の差は広がる可 能性がある.すると,公平性を保証するための仕組みに よって,保護グループの信用に悪影響を与える可能性が ある.そこで,銀行側の効用(返済による利益)と,保 護・非保護グループの借り手の信用スコアの変動の,返 済率に基づくモデルが与えられたと仮定する.また,公 平性を無視した場合,disparate impact,均等オッズの 各条件を満たす,ローンの受理方策を想定する.そして, このモデルがどういう条件を満たせば,信用スコアが各 グループで増減するのかを分析している. 公平性とともに,決定に至る判断規準を明らかにする 透明性(transparency)・説明可能性(explainability)や, 判断過程自体を明らかにし,作為的な行為がないことを 示す説明責任(accountability)も,EU の GDPR など によって重視され始めている.これらの状況をふまえ, 透明性・説明可能性のため,機械学習の予測結果を解釈 する手法の研究も活発になっている.ここでは,そうし た研究の一つである LIME(Local Interpretable Model-agnostic Explanations)アルゴリズムを紹介しておく [Ribeiro 16].画像を入力すると,そこに写っているの が狼かハスキー犬かを識別する例を考えよう.画像と識 別結果の対応関係は,多種多様な画像があるため非常に 複雑なものとなり,人間がその対応関係を見いだすのは 容易ではない.この対応関係を概念的に示したものが図 6で,ハスキー犬と狼を 2 色の領域に塗り分けて表示し ている.LIME では,この複雑な対応関係を単純なもの に変換することで説明とする.まず,対応関係全般を考 える代わりに,ある特定の分類結果(図 6 の太い+印) について注目する.そして,その画像を少し変えたとき ハスキー犬になるか狼になるかということを調べ,変え 方の影響を調べることで簡潔な対応関係を見つけて,説 明とする.図 7(a)の画像はハスキー犬だが,狼と誤 識別されてしまった事例である.図 7(b)は画像の中 で,狼と識別した根拠となった部分だが,背景の雪だけ になっている.狼の画像では,偶然にも雪の場面が多かっ たため,雪が写っていることを根拠に狼と識別してし まったことがわかる.このようにして,アルゴリズムに よる判断の根拠を調査することができる.7.ま
と め
最後にデータマイニング・機械学習における公平 性に関連した会議の動向についてまとめておく.機械 学習における公平性を扱うワークショップは最初に ICDM 2012に併設された.その後,NIPS 2014 で新たに「Fairness, Accountability, and Transparency in Machine Learning」のワークショップが始まり,その 後毎年開催されている.NIPS 2016 ではシンポジウム 「Machine Learning and the Law」などのイベントも企 画され,KDD 2017 や NIPS 2017 では基調講演のテー マともなった.チュートアリルも,不公平発見に詳しい KDD 2016併設 [Hajian 16],法学と学習理論を中心と する NIPS 2017 併設 [Barocas 17],および因果推論の 研究者による KDD 2018 併設 [Zhang 18] などが開催さ れている.2018 年からは,新たな国際会議 Conference S = 0 S = 1 1.0 1.0 0.9 0.3 0.7 0.5 1.0 1.0 0.7 0.9 図 5 FA * IR アルゴリズム 図 6 LIME による説明の生成 図 7 ハスキー犬を狼と誤識別した場合の説明 (a)狼と識別された画像 (b)識別結果の説明
on Fairness, Accountability, and Transparency*2が始 まった.また,機械学習・データマイニング分野におけ る公平性については著者もサーベイ*3を公開しているの で,関心のある読者は参考にされたい. 本稿で述べたように,データ分析は公平性などに問題 を生じることがあり得る.しかし,このことはデータ分 析を利用すること自体の問題ではない.2・2 節の再犯リ スクスコアが導入された経緯も,人間による偏見を少な くしようとするためであった.もし定量的な分析が導入 されていなければ,このような不公平が存在することや, それがどのようなものであるかということすら明らかに はならなかったであろう.分析技術で生じた不公平な状 況は,本稿のようなアルゴリズムの改良によって対処で きるものであると考えている. 機械学習・データマイニング分野での公平性の研究は まだ始まったばかりであり,多くの研究課題がある.分 類問題が集中的に研究されており,他の予測問題につい ては十分に研究されているとは言いがたい.センシティ ブ変数は 2 値のスカラがほとんどで,他の場合について, また説明可能変数がある場合については研究は少ない. 最適化は制約のために非凸最適化問題になりやすく困難 を伴うし,大規模化や,あとからセンシティブ変数を変 更するなど運用上の問題もある.理論面でも,予測精度 に加えて,公平性の汎化性能評価などを同時に考える必 要がある.これら多くの課題があり,今後の研究の進展 が期待される.
◇ 参 考 文 献 ◇
[ACMCoE] ACM Code of Ethics and Professional Conduct, https://www.acm.org/code-of-ethics
[Adler 16] Adler, P., Falk, C., Friedler, S., Rybeck, G., Schedegger, C., Smith, B. and Venkatasubramanian, S.: Auditing black-box models for indirect influence, Proc. 16th IEEE Int. Conf. on
Data Mining, pp. 1-10(2016)
[Angwin 16] Angwin, J., Larson, J., Mattu, S. and Kirchner, L.: Machine bias(2016), https://www.propublica. org/article/machine-bias-risk-assessments-incriminal-sentencing
[Baeza-Yates 18] Baeza-Yates, R.: Bias on the web, Commun.
ACM, Vol. 61, No. 6, pp. 54-61(2018)
[Barocas 17] Barocas, S. and Hardt, M.: Fairness in machine learning, 31st Annual Conf. on Neural Information Processing
Systems, Tutorial(2017), https://mrtz.org/nips17/ [Bolukbasi 16] Bolukbasi, T., Chang, K.-W., Zou, J. Y., Saligrama,
V. and Kalai, A. T.: Man is to computer programmer as woman is to homemaker? Debiasing word embeddings, Advances in
Neural Information Processing Systems, Vol. 29(2016) [Calders 10] Calders, T. and Verwer, S.: Three naive bayes
approaches for discrimination-free classification, Data Mining
and Knowledge Discovery, Vol. 21, pp. 277-292(2010) [Calders 13] Calders, T., Karim, A., Kamiran, F., Ali, W. and
Zhang, X.: Controlling attribute effect in linear regression,
Proc. 13th IEEE Int. Conf. on Data Mining, pp. 71-80(2013) [Dwork 12] Dwork, C., Hardt, M., Pitassi, T., Reingold, O. and
Zemel, R.: Fairness through awareness, Proc. 3rd Innovations
in Theoretical Computer Science Conf., pp. 214-226(2012) [Elkan 01] Elkan, C.: The foundations of cost-sensitive learning,
Proc. 17th Int. Joint Conf. on Artificial Intelligence, pp. 973-978
(2001)
[江間 18] 江間有沙,長倉克枝:倫理的に調和した設計の論点整理─ 異分野・異業種によるワークショップからの示唆,情報法制研究, No. 4(2018)
[Feldman 15] Feldman, M., Friedler, S. A., Moeller, J., Scheidegger, C. and Venkatasubramanian, S.: Certifying and removing disparate impact, Proc. 21st ACM SIGKDD Int.
Conf. on Knowledge Discovery and Data Mining, pp. 259-268
(2015)
[Fukuchi 13] Fukuchi, K., Sakuma, J. and Kamishima, T.: Prediction with model-based neutrality, Proc. ECML PKDD
2013, Part Ⅱ, pp. 499-514, [LNCS 8189](2013)
[GDPR] General Data Protection Regulation, http://data. europa.eu/eli/reg/2016/679/oj
[Hajian 13] Hajian, S. and Domingo-Ferrer, J.: A methodology for direct and indirect discrimination prevention in data mining,
IEEE Trans. on Knowledge and Data Engineering, Vol. 25, No.
7, pp. 1445-1459(2013)
[Hajian 16] Hajian, S., Bonchi, F. and Castillo, C.: Algorithmic bias: From discrimination discovery to fairness-aware data mining, 22nd ACM SIGKDD Int. Conf. on Knowledge
Discovery and Data Mining, Tutorial(2016)
[Hardt 16] Hardt, M., Price, E. and Srebro, N.: Equality of opportunity in supervised learning, Advances in Neural
Information Processing Systems, Vol. 29(2016)
[Hofmann 99] Hofmann, T. and Puzicha, J.: Latent class models for collaborative filtering, Proc. 16th Int. Joint Conf. on
Artificial Intelligence, pp. 688-693(1999)
[IEEEGIoE] The IEEE Global Initiative on Ethics of Autonomous and Intelligent Systems, https://ethicsinaction.ieee. org/
[Kamiran 10] Kamiran, F., Calders, T. and Pechenizkiy, M.: Discrimination aware decision tree learning, Proc. 10th IEEE
Int. Conf. on Data Mining, pp. 869-874(2010)
[Kamiran 12a] Kamiran, F. and Calders, T.: Data preprocessing techniques for classification without discrimination,
Knowledge and Information Systems, Vol. 33, pp. 1-33(2012) [Kamiran 12b] Kamiran, F., Karim, A. and Zhang, X.: Decision
theory for discrimination-aware classification, Proc. 12th IEEE
Int. Conf. on Data Mining, pp. 924-929(2012)
[Kamishima 12a] Kamishima, T., Akaho, S., Asoh, H. and Sakuma, J.: Enhancement of the neutrality in recommendation, 2nd Workshop on Human Decision Making
in Recommender Systems(2012)
[Kamishima 12b] Kamishima, T., Akaho, S., Asoh, H. and Sakuma, J.: Fairness-aware classifier with prejudice remover regularizer, Proc. ECML PKDD 2012, Part Ⅱ, pp. 35-50(2012), [LNCS 7524]
[Kamishima 16] Kamishima, T., Akaho, S., Asoh, H. and Sato, I.: Model-based approaches for independence-enhanced recommendation, Proc. IEEE 16th Int. Conf. on Data Mining
Workshops, pp. 860-867(2016)
[Kamishima 18a] Kamishima, T., Akaho, S., Asoh, H. and Sakuma, J.: Model-based and actual independence for fairnessaware classification, Data Mining and Knowledge
Discovery, Vol. 32, pp. 258-286(2018)
[Kamishima 18b] Kamishima, T., Akaho, S., Asoh, H. and Sakuma, J.: Recommendation independence, Proc. of the
Conf. on Fairness, Accountability and Transparency, Vol. 81 of
PMLR, pp. 187-201(2018)
[Komiyama 18] Komiyama, J., Takeda, A., Honda, J. and Shimao, H.: Nonconvex optimization for regression with fairness constraints, Proc. 35th Int. Conf. on Machine Learning, pp. 2742-2751(2018)
[Liu 18] Liu, L. T., Dean, S., Rolf, E., Simchowitz, M. and Hardt, *2 https://fatconference.org/
M.: Delayed impact of fair machine learning, Proc. 35th Int.
Conf. on Machine Learning, pp. 3156-3164(2018)
[Luong 11] Luong, B. T., Ruggieri, S. and Turini, F.: k-NN as an implementation of situation testing for discrimination discovery and prevention, Proc. 17th ACM SIGKDD Int. Conf.
on Knowledge Discovery and Data Mining, pp. 502-510(2011) [Pedreschi 08] Pedreschi, D., Ruggieri, S. and Turini, F.:
Discrimination-aware data mining, Proc. 14th ACM SIGKDD
Int. Conf. on Knowledge Discovery and Data Mining,
pp.560-568(2008)
[Pérez-Suay 17] Pérez-Suay, A., Laparra, V., Mateo-García, G., Muños-Marí, J., Gómez-Chova, L. and Camps-Valls, G.: Fair kernel learning, Proc. ECML PKDD 2017, PartⅠ, pp. 339-355, [LNCS 10534](2017)
[Ribeiro 16] Ribeiro, M. T., Singh, S. and Guestrin, C.: “Why Should I Trust You?” Explaining the predictions of any classifier, Proc. 22nd ACM SIGKDD Int. Conf. on Knowledge
Discovery and Data Mining(2016)
[Ruggieri 10] Ruggieri, S., Pedreschi, D. and Turini, F.: Data mining for discrimination discovery, ACM Trans. on
Knowledge Discovery from Data, Vol. 4, No. 2(2010) [宍戸 03] 宍戸栄徳,曽道 智:公平分割と公平割当,オペレーショ
ンズ・リサーチ,Vol. 48, No. 3, pp. 203-209(2003)
[Singh 18] Singh, A. and Joachims, T.: Fairness of exposure in rankings, Proc. 24th ACM SIGKDD Int. Conf. on Knowledge
Discovery and Data Mining(2018)
[Speicher 18] Speicher, T., Heidari, H., Grgic-Hlaca, N., Gummadi, K. P., Singla, A., Weller, A. and Zafar, M. B.: A unified approach to quantifying algorithmic unfairness: measuring individual & group unfairness via inequality indices, Proc. 24th ACM SIGKDD Int. Conf. on Knowledge
Discovery and Data Mining(2018)
[Sweeney 13] Sweeney, L.: Discrimination in online ad delivery,
Commun. ACM, Vol. 56, No. 5, pp. 44-54(2013)
[Yao 17] Yao, S. and Huang, B.: Beyond parity: Fairness objectives for collaborative filtering, Advances in Neural Information
Processing Systems, Vol. 30(2017)
[Zafar 17a] Zafar, M. B., Valera, I., Rodriguez, M., Gummadi, K. and Weller, A.: From parity to preference-based notions of fairness in classification, Advances in Neural Information
Processing Systems, Vol. 30(2017)
[Zafar 17b] Zafar, M. B., Valera, I., Rogriguez, M. G. and Gummadi, K. P.: Fairness beyond disparate treatment & disparate impact: Learning classification without disparate mistreatment, Proc. 26th Int. Conf. on World Wide Web, pp. 1171-1180(2017)
[Zafar 17c] Zafar, M. B., Valera, I., Rogriguez, M. G. and Gummadi, K. P.: Fairness constraints: Mechanisms for fair classification, Proc. 20th Int. Conf. on Artificial Intelligence and
Statistics, Vol. 54 of PMLR, pp. 962-970(2017)
[Zehlike 17] Zehlike, M., Bonchi, F., Castillo, C., Hajian, S., Megahed, M. and Baeza-Yates, R.: FA*IR: A Fair Top-k ranking algorithm, Proc. 25th ACM Conf. on Information and
Knowledge Management(2017)
[Zemel 13] Zemel, R., Wu, Y., Swersky, K., Pitassi, T. and Dwork, C.: Learning Fair Representations, Proc. 30th Int. Conf. on
Machine Learning, pp. 325-333(2013)
[Zhang 18] Zhang, L., Wu, Y. and Wu, X.: Anti-discrimination learning: From association to causation, 24th ACM SIGKDD
Int. Conf. on Knowledge Discovery and Data Mining, Tutorial
(2018)
[Žliobait˙e 11] Žliobait˙e, I., Kamiran, F. and Calders, T.: Handling conditional discrimination, Proc. 11th IEEE Int. Conf. on Data
Mining(2011)
[Žliobait ˙e 17] Žliobait ˙e, I.: Measuring discrimination in algorithmic decision making, Data Mining and Knowledge
Discovery(2017) 2019年 1 月 15 日 受理