特集論文
表情認知に関する計算論的モデル化研究の動向
熊野 史朗(NTTコミュニケーション科学基礎研究所)
Trends in computational modeling on facial expression recognition
Shiro Kumano ( )
(2020年1月22日受稿,2020年5月28日受理)
This paper surveys studies aimed at building computational models of human cognitive processes of facial expression, done mainly in the machine learning domain. By aggregating a set of labels obtained through online crowdsourcing, the ground truth of item/instance is estimated while maintaining a psycho-logical perspective. These models are closely connected with theories established in psychology such as sig-nal detection theory and item response theory. In that respect, the boundary between the machine learning and psychology fields seem to be considerably narrowed. The purpose of this paper is to clarify the relation-ship between these two research areas to promote the development of both.
Key words: facial expression, machine learning, truth inference, signal detection theory, item response
theory, crowdsourcing
顔表情(以下,単に表情)は,人の社会的生活の 中で意識的/無意識的に表出され,相手によって認 知されることで,お互いの気持ちが伝達されるとい う,一種の社会的ツールとして重要な役割を果たし て い る(Crivelli & Fridlund, 2018)。 こ の た め, 表 情は心理学でも主要なトピックの一つであり(Paiva-Silva, Pontes, Aguiar, & de Souza, 2016),表情の生 成の機序解明や,表情の認知に関して基本表情の普遍 性や精神疾患の影響の解明,個人の得点化(Suzuki, Hoshino, & Shigemasu, 2006)など様々な研究が行わ れている。 表情研究は心理学に閉じておらず,他分野とも密 接に関わっている。その一つが計算機科学分野であ り,機械学習(人工知能)分野や著者が専門とする Affective Computing分野などを含む。計算機科学分 野における表情の中心的な研究対象は,静止画像や動 画像からの表情の自動解析であり,目尻や口角といっ た顔のランドマーク点の位置を求める,Facial Action Units(AU)を自動で検出する,怒りや喜びなどの基 本感情カテゴリの強度/確からしさを出力する,と
いったツールが今では複数公開されている(Baltru-saitis, Zadeh, Lim, & Morency, 2018; Stöckli, Schulte-Mecklenbeck, Borer, & Samson, 2018)。 そ の 結 果, 大規模なオンライン実験による表情の文化差や性差 の研究も行われている(McDuff, Girard, & Kaliouby, 2017; McDuff, Kodra, Kaliouby, & LaFrance, 2017)。
最近の表情解析ツールの多くが深層学習を用いてい るが,その実現には,膨大な教師データの用意を可能 としたAmazon Mechanical Turkなどのオンライン クラウドソーシング環境の普及が大きな役割を担って いる。そこで与えられるタスクは,画像のタグ付け, 発話の書き起こし,官能評価や真偽判断など広範囲に 及び,もちろん,表情認知課題も含まる(Whitehill, Wu, Bergsma, Movellan, & Ruvolo, 2009)。複数名が 複数の項目(画像や音声刺激,試行)に対して評定す る/ラベルを付与し,終了後に報酬を得る。必要に応 じてクオリティコントロールも行う。同意書に同意し てもらうこともある。この手順は,心理実験と大差な く,オンラインの心理実験だとなおさら変わりがな い。 近年では,機械学習分野でも心理学分野でも個人の 認知過程のモデル化が進んできており,モデルの観点 からも両者は似てきている(これは,似たデータを 取っているため必然とも言える)。どちらも,多くの 場合,同じ項目に対して複数人を割り振ることで個人 差をなるべく消去しようとする。だが,その目的は両 Correspondence concerning this article should be sent to: Shiro
Kumano, NTT Communication Science Laboratories, 3‒1, Mori-nosato-Wakamiya, Atsugi, Kanagawa, 243‒0198 Japan (e-mail: [email protected])
者で異なる。心理学は,通常,普遍的な人の性質を抽 出することを目的とする。これに対して,機械学習は データを集約して質の高いデータを得る(それにより 画像認識や音声認識といった主目的の性能を高める) ことを目指す。 心理学では解釈可能性が重要である。このため,実 験参加者を対象の母集団から無作為抽出されたランダ ム効果,知りたい母集団の特性を固定効果とした混合 線形モデルなどもよく使われる。近年では,実験的に コントロールすることが容易ではない要因を正解がわ かっていない潜在変数としてモデル化する試みも行わ れている(Suzuki et al., 2006)。表情研究では演技さ れた強度の高い表情を用いるなどして正解をコント ロールした場合,生態学的妥当性が損なわれやすいた め(Paiva-Silva et al., 2016),このような方法はその 解決策の一つになりえる。 他方,機械学習では,工学的な立場からとりわけ未 知のデータに対する予測力が重要である。解釈可能性 と予測力は一般的にトレードオフの関係にあり両立 は容易ではない(Thomas et al., 2018)。だが,機械 学習分野の文脈では,集団の意見の集約する真値推 定((ground) truth inferenceなどと呼ばれる分野) (Sheng & Zhang, 2019; Zhang, Wu, & Sheng, 2016; Zheng, Li, Li, Shan, & Cheng, 2017)のうち,特に, 個人の特性を潜在変数として取り入れたモデルは,心 理学的なモデルに近いため解釈もしやすい。ただし, 機械学習は,それらのモデル変数をいかに精度よく, 効率的に求めるかという点も主眼にしているという点 では異なる。 そこで,本稿では,このような人の個人差をモデル 化する取り組みを主に機械学習分野を中心に概説し, 今後の感情心理学研究に繋げることを目的とする。統 計的モデルが多いが,ここでは,背後の考えや理論, 目的などの理解にフォーカスするために,複雑な数式 は一切用いないようにした。心理学分野における表情 研究の全体の動向については,本特集号の他の論文を 参考にされたい。 機械学習ベースのモデル 機械学習,とりわけ統計的機械学習の分野では,学 習データの質と規模の確保が高精度達成の一つの鍵で ある。このため,画像認識や音声認識,テキスト解析 など主目的として,実験室環境と比較して低品質だが 大量のラベルデータを得られるオンラインクラウド ソーシングのプラットフォームを用いて,そこからい かにして主目的のタスクにおいて高い推定精度を得 るかの研究が盛んに行われている(Sheng & Zhang, 2019; Zhang et al., 2016; Zheng et al., 2017)。
そこでは大きく2つのアプローチがある(Sheng & Zhang, 2019)。一つめのアプローチは,各項目に対し て与えられた複数のラベルを集約してより質の高い データにしたうえで,それを教師データとして教師あ り学習を行う2段階の方法である。この1段階目が, 各項目に対する真値を潜在クラスとして推定する真値 推定(ground truth inference, crowd aggregationな ど)と呼ばれる段階である。2段階目でこの真値と項 目の特徴との関係を学習することで,項目に対する真 値が推定可能となる。他方,ラベルデータの集約を行 わず,すべてのデータを2段階目の教師あり学習に用 いる方法も提案されており,Learning from Crowds などと呼ばれている(Sheng & Zhang, 2019)。Fig-ure 1にこれらのアプローチの違いを示す。本章では これらの2つのアプローチについてそれぞれ簡単に説 明する。
Figure 1. 機械学習分野におけるクラウドソーシングにより得たラベル集合を教師データとして利用する2つの方法 (Sheng & Zhang (2019)のFigure 1より抜粋)。(a)まず真値推定によりラベル集約を行い,次いでその真値の推定値 を教師として教師あり学習を行う2段階の方法。(b)すべてのラベルデータをそのまま教師として教師あり学習を行う 方法。
ラベル集約を行う方法(truth inference) 最も単純な集約方法は,評価者集団による多数決で あり,特に,多様な人物からなる集団がそれぞれ独立 に評定を行った場合に,個人の持つ様々な情報が集ま り,かつ,個人のバイアスが相殺されてよい結果を得 やすい(Surowiecki, 2005)。また,集約するラベルの 数が多いほどよく,例えば,(Zheng et al., 2017)に よると20個以上のラベルがあると機能しやすいとさ れている。オンラインクラウドソーシングではこの条 件を満たしやすいため実際に広く使われている。 真値推定法の中でも,確率的生成モデル(probabi-listic generative model)は比較して潜在変数の数が 少なく解釈可能性も高いため心理学との相性が良いと 考えられる。確率的生成モデルでは,項目 に対して 評価者 が与えるラベルL を確率的な生成過程として モデル化する。評価者の能力(スカラ量や混同行列な どによって表される)やバイアス(基本的には一次元 の潜在座標系における閾値として表される),項目の 特性(難易度に相当するものが多い)をモデル変数 に含む方法も多く提案されている(Sheng & Zhang, 2019; Zhang et al., 2016; Zheng et al., 2017)。ここで は,その中でもよく用いられており,かつ,心理学 的モデルとの接点が大きなモデルとして,Dawid & Skene(DS)(Dawid & Skene, 1979) や,Multidi-mensional Wisdom of Crowds(MWoC)(Welinder, Branson, Belongie, & Perona, 2010),GLAD(Genera-tive model of Labels, Abilities and Difficulties)モデ ル(Whitehill et al., 2009)について概説する。それ ぞれの詳細については原論文を参照されたい。なお, 本稿では取り上げないが,近年では深層学習を用い たモデルも提案されている点に触れておく(例えば (Atarashi, Oyama, & Kurihara, 2018))。
Dawid & Skene(DS)(Dawid & Skene, 1979)は, 1979年に発表された真値推定として非常に先駆的な論 文である。頑健に良好な結果が得られやすいため,依 然として広く用いられている(Sheng & Zhang, 2019; Zhang et al., 2016; Zheng et al., 2017)。観測はラベル データの集合であり,そこから潜在変数である項目 変数と評価者変数を推定する。項目の変数は正解ラ ベル(2値量)のみであり,評価者の特性は混合行列 (例えば,真値が正クラスの場合に正と反応する確率 や,真値が負クラスの場合に正と反応する確率)のみ である。(真値が与えられたもとでの)評価者と項目 の相互作用はないと仮定されている。混合行列の要素 が対角行列に近い,すなわち,正と負の両クラスを正 しく識別できるほど熟練した評価者であると解釈する ことが可能である。正解を行,評価者の反応を列とす る混合行列を考えると,各行の要素の和は1となるた め,自由度は評定のカテゴリ数をSとしてS×(S−1) となる。2クラスの場合は自由度が2であり,例えば, ヒット率(hit rate)1と特異度(specificity,または,
true negative rate)で定義できる(false negative= 1−ヒット率であり,ミス率=1−特異度と確定的に決 まる)。このため,評価過程のモデル化は信号検出理 論に近いが,正解ラベルが潜在変数である,すなわち, ヒット率や特異度を直接計算できないことを想定して いる点が大きく異なる。なお,DSモデルの各変数の 事前情報を含めたベイズ推定の方法も提案されている (Raykar et al., 2010)。
MWoCモデル(Welinder et al., 2010)とGLADモ デル(Whitehill et al., 2009)は偶然にも同時期に独 立に提案されたよく似た2値ラベルデータ用のモデル である。MWoCの方が汎用的で評価者変数も多く, かつ,信号検出理論との接点がより明確である。この ため,ここでは,MWoCモデル,GLADモデルの順 で説明する。 MWoCモデルの観測はラベル集合であり,そこか ら潜在変数である項目変数と評価者変数を推定する 点はDS含め他の真値推定法と同様である。項目の特 徴については,正解ラベル (2値量),及び,潜在空 間における座標値 (ベクトル量またはスカラ量)に て表される。多次元の潜在空間を扱えるためMultidi-mensionalと名づけられている。座標値 が原点に近 いほど2クラスの識別が難しい,すなわち,難易度が 高いと解釈される。評価者の特性は,熟練度 (潜 在空間の各軸に対する重みであり と同次元)と,選 択におけるバイアスτ(スカラ量)にて表現されてい る。基本的には熟練度 は正クラス(2次元では座標 (1, 1))の方向を向いているという前提であり,そう でない場合は,実験者が期待する反応と逆の反応をし ていることが示唆される(そのような評価者はスパマ などと呼ばれる)。Figure 2にMWoCモデルをグラフ 表示する。1次元のMWoCモデルは,正解ラベルが未 知で(潜在変数化されており),2つのクラスがそれ ぞれ1次元上で等分散の正規分布をなしており,その マハラノビス距離が評価者に依存していることを表し ており,その意味で信号検出理論とほぼ等価であるこ とが示されている(Welinder et al., 2010)。評価実験 として,楕円の向き(縦長か横長か),greebles(新 奇な生物を見立てた幾何学模様がどちらのクラスに属 するか),及び,水鳥(鴨か否か)の識別課題実験(そ れぞれ項目数は200,評価者数は20または40)をオン ラインにて行い,多数決やGLADモデルよりも正し く正解ラベルを推定できることが示されている。 GLADモデル(Whitehill et al., 2009)は,バイア 1 ヒット率は感度(sensitivity)とも呼ばれるが,信号検出理 論におけるd′(sensitivity index)と混乱しやすいので,本稿で は使用を避けた。
ス変数を含まない1次元のMWoCモデルとほぼ等価 である。評価実験の一つとして,自然笑顔と作り笑顔 の識別課実験(項目数160,評価者数20)をオンライ ンにて行い,別途2名のエキスパートによって決定さ れた正解ラベルとの比較において,多数決では72% の正答率であったのに対してGLADモデルは78%の 正答率が得られている。GLADモデルはMWoCモデ ルの簡易版であるが,バイアスのモデル化は比較的難 しいとされており(Zhang et al., 2016),MWoCの原 論文の結果とは異なり,直接比較においてMWoCと 同等の性能が得られている(Zheng et al., 2017)。た だし,解釈の観点からは,バイアス変数を含まずに推 定された評価者変数(ここでは熟練度/能力変数)の 妥当性についての検証も必要と思われる。
ラベル集約を行わない方法(Learning from Crowds)
このアプローチは,複数人から得たラベルデータを 集約せずに,すべての情報を教師あり学習に用いる, すなわち,ラベルと項目の特徴とを直接関連づけるも のである。Figure 1の中では(b)に当たる。 例えば,Kajinoらは,集約を前処理的にラベルの レベルで行うのではなく,ラベルと項目の特徴とを関 連づける主タスクのレベルで行う方法を提案している (Kajino, Tsuboi, & Kashima, 2012)。既知の項目特徴 ベクトルに対する重みベクトルを平均的な評価者の潜 在変数とするロジスティック回帰であるベースモデル と,その平均評価者の重みベクトルから平均0の正規 分布に従い偏差した重みベクトルを潜在変数とする個 人のロジスティック回帰モデルを各評価者に対して用 意し,それらを同時に学習している。このモデルは平 均評価者(ベースモデル)を固定効果,実評価者をラ ンダム効果とした一種の混合ロジスティック回帰モデ ルと見ることができるだろう。 一方,我々は,ある評価者がある項目に対して与え るラベル(評定値)を予測するためのモデルとして, 各項目に対して与えられたラベル集合を集約せずにそ のまま得票率分布(確率分布)としてすべて保持し たものを項目変数とするモデルを提案している(Ku-mano, Ishii, & Otsuka, 2017)。DS法を参考に評価者 と項目の条件付き独立性を仮定することで,評価者の 周辺分布(項目が未知のときその評価者が与えるであ ろう評定値の確率分布),項目の周辺分布(未知の評 価者がその項目に与えるであろう評定値の確率分布), 及び,評定値の周辺分布(評価者と項目が共に未知の ときの評定値の確率分布)の3つの項から事後分布を 計算する。評価者はその事後分布からの無作為抽出で 評定値を決定していることを仮定している。いずれの 項も単に評定値のヒストグラムを計算するだけで最尤 推定が可能なため,この事後分布と評定値の予測値は 簡単に計算可能である。CG合成された表情画像97枚 に対して100名が感情価と覚醒度をそれぞれ5段階で 独立に評定した独自のデータセットに対して,再テス ト信頼性を1として97%という高い評定値の予想精度 を達成した。この方法は非常にシンプルで性能もよい ため,工学モデルとしての価値は有するが,解釈可能 性や理論的な拡張の難しさが課題となっている。 その他の方法として,行列分解(matrix factoriza-tion)による方法も提案されている(Sheng & Zhang, 2019; Zheng et al., 2017)。このアプローチは,データ のスパース性(欠損量の多さ)に対して,生成モデ ルよりも頑健とされている(Zheng et al., 2017)。ク ラウドソーシングでは,基本的に,各評価者には全項 目のうちの一部のみが割り当てられるため,評価者と 項目のすべての組み合わせで見ると欠損が多いデータ となりがちである。行列分解がよく用いられるのは推 薦システムであり,人を行,商品を列とする購買履歴 の行列に対して,ある人がまだ買っていない商品を買 うかどうかを予測するためなどに使われている。表 情認知の文脈では,上述した我々の研究(Kumano et al., 2017)同様に,ある評価者が一部の項目に対して すでに評定したときに,残りの項目に対してどう反応 するかの予測に有効と思われる。だが,直接の行列演 算を行う方法であるため結果の解釈は難しい。 項目反応理論にもとづくモデル 前章で紹介した真値推定は,項目の潜在変数として 真値(クラス)を表す離散量を含むモデルであった。 それに対して,本章では,離散的な真値クラスに相当 する項目変数を含まず,難易度といった項目の特徴を 表す連続量が用いられる項目反応理論にもとづくモデ Figure 2. MWoCモデル(Welinder et al. (2010)の
Figure 1(c)より抜粋)。項目(image)の変数は添え字 にて,評価者は添え字 にて表されている。 は真のク ラス(2値の潜在変数), は潜在空間上での座標(原点 に近いほど正しい識別が難しい(難易度が高い)ことを 意味する), は の知覚量(評価者 依存の正規ノイズが のった ), とτは評価者の特性(潜在空間の各軸に対 する重みと選択におけるバイアス)を表す。
ルを取り上げる。 基本感情に対する敏感さの測定 表情認知課題において,各項目画像の難易度を潜在 変数として扱った実験心理学研究の先駆的論文として (Suzuki et al., 2006)が挙げられる。モーフィングに より生成された混合表情画像を項目として用いている が,それでも表情カテゴリ毎の課題の難易度を統制す るのは容易ではないため,評価者の特性や項目の難易 度相当の変数を潜在変数として含む項目反応モデル (item response model)を用いることで,難易度を分 析上で統制した際の評価者の能力を数値化する方法を 提案している。 具体的には,評価者の特性を表情表出されている基 本感情に対する敏感さ2と定義し,ある感情に対する 敏感さが高いほどその感情を含む表情に対して高い 評定値を与えると仮定している。使用されたgraded response model(GRM) は,2値 変 数 向 け の2変 数 ロジスティックモデル(2-parameter logistic model, 2PLM)を順序尺度に拡張したモデルの一つであり, 1つの評価者変数(ここでは敏感さ変数)と,項目変 数として,各項目が評価者の能力(敏感さ)にどれだ け影響を受けるか(能力をどれほど識別できるか)を 表す項目識別変数,及び,どの強度が選ばれやすいか を表す項目のカテゴリ閾値変数を含む。これにより, 課題の難易度や識別性の影響を除いたうえで,評価者 の敏感さを測定できるとされている。混合表情画像に 対して評価者が6段階で与えた各基本感情に関する強 度に関する評定値を観測データとして,感情カテゴリ 毎にモデル変数を推定している。得られた敏感さ変数 は,従来よく用いられてきた各感情カテゴリに対する 平均評定値(強度スコア)と.87以上の強い相関を示 している。 回答スタイルの除去 真値推定は評価者集団の集約値の質を事後的に高め る方法であるが,個人の個々のラベルの質を事後的に 高める方法として,近年,我々は個人の回答スタイル を項目反応モデルに含めて除去する方法を提案してい る(Kumano & Nomura, 2019)。
回答スタイル(RS)とは,評価する内容に関係な く,極端な(両端の)ラベルや中央のラベルといっ た特定のカテゴリを選択する傾向である(Baumgart-ner & Jan-Benedict, 2001)。最も一般的なRSの種類 として,両端あるいは中央を好む極端/中心反応傾向 (ERS/MRS)や,選択肢の中で最も高いスコア(ポ ジティブ)あるいは最も低いスコア(ネガティブ)を
選ぶ傾向である黙従/非黙従反応傾向(ARS/DRS) がある(Baumgartner & Jan-Benedict, 2001)。回答 スタイルは文化にも依存し,日本人などアジア人は 中央のラベルを選ぶ傾向が強いとされている(Zax & Takahashi, 1967)。RSは内容や課題に依存しない (内容独立性を持つ)と定義されることが多く,そ の点で,それらに依存する回答バイアスである社会 的望ましさやハロー効果などと区別される(Wetzel, Böhnke, & Brown, 2016)。回答スタイルは相関分析 や分散分析といった分析の妥当性を低下させることが 知られている(Baumgartner & Jan-Benedict, 2001)。
RSは単純な方法でも計測は可能である。例えば, 極端反応傾向は,全項目の中で両端の選択肢を選ん だ割合としてしばしば測定される(Baumgartner & Jan-Benedict, 2001)。だが,このような単純な方法で は計測はできても除去まではできない。RSを除去す る技術はマーケティングリサーチなどの分野を中心 にすでにいくつか提案されている(Jonas & Markon, 2019; Tutz, Schauberger, & Berger, 2018)3。潜在変
数としてRSを含む評価過程のモデルを構築すること でRSの影響を除去しようとしている。RSの内容独 立性を前提とすると,RSは,様々な課題,たとえば, 心理アンケート,満足度評価などに対して一貫して観 察されるはずである。しかしながら,既存のRS除去 法(Jonas & Markon, 2019; Tutz et al., 2018)はその 性質を利用しておらず,単一の課題のみからRSを除 去するものである。このため,これらの方法では課 題に依存した反応バイアスを含む反応傾向と課題に 非依存のRSを区別することが難しく,用いる項目や 選択肢次第で推定結果が異なることが予想される。例 えば,同じ評価者であっても,明らかな笑顔と明らか な怒りだけからなる顔画像集合に対して感情価(ポジ ティブ感情/ネガティブ感情)の度合いを評価した場 合には極端反応傾向と推定され,微細な表情のみを集 めた画像集合を用いた場合には中心反応傾向と推定さ れてしまうだろう。しかし,そのようにして得られた 結果は内容独立性を満たしておらず,RSを正しく推 定できているとは言いがたい。 そこで,我々は,複数の課題から得たラベルを入 力として,マルチタスク学習の枠組みで課題非依存 の成分として回答スタイルを抽出・除去する方法を 提案している(Kumano & Nomura, 2019)。上述した 我々の論文(Kumano et al., 2017)のデータに性格特 性尺度に対する回答データを合わせたデータを用い たところ,提案法がベースラインよりも高い適合度 を示し,日本人の中心反応傾向を再現するなどの有 2 原著で使われているsensitivityについても,脚注1と同じ理 由で,ここでは敏感さと訳した。 3 回答スタイルの対処法として,事前の回避と事後の除去とが ある。事前の回避としては二肢強制選択やアンカリング・ビネッ ト法などがある(Wetzel et al., 2016)。
効性が確認された(Kumano & Nomura, 2019)。さら に,回答スタイルを除去した場合と比較した際,観測 されたラベルそのものを用いた場合には,評価者間信 頼性が過少に見積もられる可能性が示唆されている。 また,評定値付きの公開画像データベースを用いた 場合にも有効性が確認された(Nomura, Kumano, & Yotsumoto, 2019)。提案法は様々な種類の主観評定値 に適用可能な汎用的な方法であり,興味対象の分析を より精緻に行うための前処理としての利用など期待さ れる。 モデル変数の推定アルゴリズム 本章で取り上げたモデルを含む多くの真値推定法と 項目反応モデルでは,変数推定に反復法の一種である EMアルゴリズムが広く使われている(Muraki, 1992; Zhang et al., 2016)。EMアルゴリズムは効率的なア ルゴリズムであり(機械学習的な更新式の工夫による ところも大きい)大規模データに対して有効だが,反 復法ゆえに局所解に陥る(つまり,初期値に依存して 推定結果が異なる)可能性を有する。この問題は,一 般に,モデルが複雑になるほど顕在化するため,今後, 評価者の認知過程をより精緻にモデル化する場合に注 意が必要であろう。 他方,マルコフ連鎖モンテカルロ(MCMC)法な どのサンプリング法は,一般に,反復法に比べて計 算時間やメモリを多く要するため大規模データには 向かないが,一般的な心理データ(数十名の評価者, 数十∼数百程度の項目)であれば十分適用可能であ る。我々は,確率的プログラム言語であるStan(Stan Development Team)に実装されているNo-U-Turn Sampler(NUTS)(Hoffman & Gelman, 2011) を 用 いてベイズ推定を行っており,複雑な数式展開を行う ことなく簡単なモデルの記述で良好な結果が得られる ことを複数確認している(Kumano & Nomura, 2019; Nomura et al., 2019)。 ま と め 本稿では,人の認知過程を計算論的にモデル化する 研究として,オンラインのクラウドソーシングなどの 環境で多人数から得たラベルデータを集約して正解ラ ベルを推定するための機械学習分野を中心に,心理学 的観点を交えながら概説した。モデル自体は,信号検 出理論や項目反応理論といった心理学でも確立した理 論と深く関係しており,その点では機械学習分野と心 理学分野の境界はかなり狭まっているように見える。 本稿を通じて,機械学習分野と心理学分野の関係がよ り明確になり,双方の発展に繋がれば幸いである。 謝 辞 東京大学の野村圭史氏には有益なコメントをいただ いた。記して深く感謝する。 引 用 文 献
Atarashi, K., Oyama, S., & Kurihara, M. (2018). emi-supervised learning from crowds using deep generative models
.
Baltrusaitis, T., Zadeh, A., Lim, Y. C., & Morency, L. (2018). OpenFace 2.0: Facial behavior analysis toolkit
( ).
Baumgartner, H., & Jan-Benedict, E. M. S. (2001). Response styles in marketing research: A cross-national investigation.
, , 143‒156.
Crivelli, C., & Fridlund, A. J. (2018). Facial displays are tools for social influence.
, , 388‒399. doi: https://doi. org/10.1016/j.tics.2018.02.006
Dawid, A. P., & Skene, A. M. (1979). Maximum likelihood estimation of observer error-rates using the EM algorithm.
, , 20‒28. doi: 10.2307/2346806
Hoffman, M., & Gelman, A. (2011). The no-U-turn sampler: Adaptively setting path lengths in Hamiltonian Monte Carlo.
.
Jonas, K. G., & Markon, K. E. (2019). Modeling response style using vignettes and person-specific item response theory.
, , 3‒17. doi: 10.1177/0146621618798663
Kajino, H., Tsuboi, Y., & Kashima, H. (2012). A con-vex formulation for learning from crowds
.
Kumano, S., Ishii, R., & Otsuka, K. (2017). Compu-tational model of idiosyncratic perception of others emotions.
( ). Kumano, S., & Nomura, K. (2019). Multitask item
re-sponse models for rere-sponse bias removal from affective ratings
( ).
McDuff, D., Girard, J. M., & Kaliouby, R. E. (2017). Large-scale observational evidence of cross-cultural differences in facial behavior.
, , 1‒19. doi: 10.1007/ s10919-016-0244-x
McDuff, D., Kodra, E., Kaliouby, R. E., & LaFrance, M. (2017). A large-scale analysis of sex differ-ences in facial expressions. , ,
e0173942. doi: 10.1371/journal.pone.0173942 Muraki, E. (1992). A generalized partial credit
model: Application of an EM algorithm. , , 159‒176. doi: 10.1177/014662169201600206
Nomura, K., Kumano, S., & Yotsumoto, Y. (2019). Mul-titask partial credit model with response style revealed extreme/midpoint response styles in the socio-moral image database (SMID)
.
Paiva-Silva, A. I. D., Pontes, M. K., Aguiar, J. S. R., & de Souza, W. C. (2016). How do we evaluate facial emotion recognition?
, , 153‒175. doi: 10.1037/pne0000047 Raykar, V. C., Yu, S., Zhao, L. H., Valadez, G. H.,
Flo-rin, C., Bogoni, L., & Moy, L. (2010). Learning from crowds.
, , 1297‒1322.
Sheng, V. S., & Zhang, J. (2019). Machine learning with crowdsourcing: A brief summary of the past research and future directions.
, 9837‒9843.
Stöckli, S., Schulte-Mecklenbeck, M., Borer, S., & Samson, A. C. (2018). Facial expression analysis with AFFDEX and FACET: A validation study. , , 1446‒1460. doi: 10.3758/s13428-017-0996-1
Surowiecki, J. (2005). New York, NY: Anchor Books.
Suzuki, A., Hoshino, T., & Shigemasu, K. (2006). Mea-suring individual differences in sensitivities to basic emotions in faces. , , 327‒353. doi: https://doi.org/10.1016/j.cognition.2005.04.003 Thomas, M. L., Brown, G. G., Gur, R. C., Moore, T. M.,
Patt, V. M., Risbrough, V. B., & Baker, D. G. (2018). A signal detection-item response theory model for evaluating neuropsychological measures.
, , 745‒760. doi: 10.1080/13803395.2018. 1427699
Tutz, G., Schauberger, G., & Berger, M. (2018). Re-sponse styles in the partial credit model.
, , 407‒427. doi: 10.1177/0146621617748322
Welinder, P., Branson, S., Belongie, S., & Perona, P.
(2010). .
Vancouver, British Columbia: Curran Associates Inc.
Wetzel, E., Böhnke, J. R., & Brown, A. (2016). Re-sponse biases. In F. T. L. Leong, D. Bartram, F. M. Cheung, K. F. Geisinger, & D. Iliescu (Eds.), (pp. 349‒363). New York, NY: Oxford University Press. doi: https://doi.org/10.1093/ med:psych/9780199356942.003.0024
Whitehill, J., Wu, T.-F., Bergsma, J., Movellan, J. R., & Ruvolo, P. L. (2009). Whose vote should count more: Optimal integration of labels from labelers of unknown expertise.
.
Zax, M., & Takahashi, S. (1967). Cultural influences on response style: Comparisons of Japanese and American college students.
, , 3‒10. doi: 10.1080/00224545. 1967.9919760
Zhang, J., Wu, X., & Sheng, V. S. (2016). Learning from crowdsourced labeled data: A survey. , , 543‒576. doi: 10.1007/s10462-016-9491-9
Zheng, Y., Li, G., Li, Y., Shan, C., & Cheng, R. (2017). Truth inference in crowdsourcing: Is the problem solved?
, , 541‒552. doi: https://doi.org/ 10.14778/3055540.3055547