表情認知に関する計算論的モデル化研究の動向

(1)

特集論文

表情認知に関する計算論的モデル化研究の動向

熊野史朗（NTTコミュニケーション科学基礎研究所）

Trends in computational modeling on facial expression recognition

Shiro Kumano ( )

（2020年1月22日受稿，2020年5月28日受理）

This paper surveys studies aimed at building computational models of human cognitive processes of facial expression, done mainly in the machine learning domain. By aggregating a set of labels obtained through online crowdsourcing, the ground truth of item/instance is estimated while maintaining a psycho-logical perspective. These models are closely connected with theories established in psychology such as sig-nal detection theory and item response theory. In that respect, the boundary between the machine learning and psychology ﬁelds seem to be considerably narrowed. The purpose of this paper is to clarify the relation-ship between these two research areas to promote the development of both.

Key words: facial expression, machine learning, truth inference, signal detection theory, item response

theory, crowdsourcing

顔表情（以下，単に表情）は，人の社会的生活の中で意識的／無意識的に表出され，相手によって認知されることで，お互いの気持ちが伝達されるという，一種の社会的ツールとして重要な役割を果たしている（Crivelli & Fridlund, 2018）。このため，表情は心理学でも主要なトピックの一つであり（Paiva-Silva, Pontes, Aguiar, & de Souza, 2016），表情の生成の機序解明や，表情の認知に関して基本表情の普遍性や精神疾患の影響の解明，個人の得点化（Suzuki, Hoshino, & Shigemasu, 2006）など様々な研究が行われている。表情研究は心理学に閉じておらず，他分野とも密接に関わっている。その一つが計算機科学分野であり，機械学習（人工知能）分野や著者が専門とする Aﬀective Computing分野などを含む。計算機科学分野における表情の中心的な研究対象は，静止画像や動画像からの表情の自動解析であり，目尻や口角といった顔のランドマーク点の位置を求める，Facial Action Units（AU）を自動で検出する，怒りや喜びなどの基本感情カテゴリの強度／確からしさを出力する，と

いったツールが今では複数公開されている（Baltru-saitis, Zadeh, Lim, & Morency, 2018; Stöckli, Schulte-Mecklenbeck, Borer, & Samson, 2018）。その結果，大規模なオンライン実験による表情の文化差や性差の研究も行われている（McDuﬀ, Girard, & Kaliouby, 2017; McDuﬀ, Kodra, Kaliouby, & LaFrance, 2017）。

最近の表情解析ツールの多くが深層学習を用いているが，その実現には，膨大な教師データの用意を可能としたAmazon Mechanical Turkなどのオンラインクラウドソーシング環境の普及が大きな役割を担っている。そこで与えられるタスクは，画像のタグ付け，発話の書き起こし，官能評価や真偽判断など広範囲に及び，もちろん，表情認知課題も含まる（Whitehill, Wu, Bergsma, Movellan, & Ruvolo, 2009）。複数名が複数の項目（画像や音声刺激，試行）に対して評定する／ラベルを付与し，終了後に報酬を得る。必要に応じてクオリティコントロールも行う。同意書に同意してもらうこともある。この手順は，心理実験と大差なく，オンラインの心理実験だとなおさら変わりがない。近年では，機械学習分野でも心理学分野でも個人の認知過程のモデル化が進んできており，モデルの観点からも両者は似てきている（これは，似たデータを取っているため必然とも言える）。どちらも，多くの場合，同じ項目に対して複数人を割り振ることで個人差をなるべく消去しようとする。だが，その目的は両 Correspondence concerning this article should be sent to: Shiro

Kumano, NTT Communication Science Laboratories, 3‒1, Mori-nosato-Wakamiya, Atsugi, Kanagawa, 243‒0198 Japan (e-mail: [email protected])

(2)

者で異なる。心理学は，通常，普遍的な人の性質を抽出することを目的とする。これに対して，機械学習はデータを集約して質の高いデータを得る（それにより画像認識や音声認識といった主目的の性能を高める）ことを目指す。心理学では解釈可能性が重要である。このため，実験参加者を対象の母集団から無作為抽出されたランダム効果，知りたい母集団の特性を固定効果とした混合線形モデルなどもよく使われる。近年では，実験的にコントロールすることが容易ではない要因を正解がわかっていない潜在変数としてモデル化する試みも行われている（Suzuki et al., 2006）。表情研究では演技された強度の高い表情を用いるなどして正解をコントロールした場合，生態学的妥当性が損なわれやすいため（Paiva-Silva et al., 2016），このような方法はその解決策の一つになりえる。他方，機械学習では，工学的な立場からとりわけ未知のデータに対する予測力が重要である。解釈可能性と予測力は一般的にトレードオフの関係にあり両立は容易ではない（Thomas et al., 2018）。だが，機械学習分野の文脈では，集団の意見の集約する真値推定（（ground） truth inferenceなどと呼ばれる分野）（Sheng & Zhang, 2019; Zhang, Wu, & Sheng, 2016; Zheng, Li, Li, Shan, & Cheng, 2017）のうち，特に，個人の特性を潜在変数として取り入れたモデルは，心理学的なモデルに近いため解釈もしやすい。ただし，機械学習は，それらのモデル変数をいかに精度よく，効率的に求めるかという点も主眼にしているという点では異なる。そこで，本稿では，このような人の個人差をモデル化する取り組みを主に機械学習分野を中心に概説し，今後の感情心理学研究に繋げることを目的とする。統計的モデルが多いが，ここでは，背後の考えや理論，目的などの理解にフォーカスするために，複雑な数式は一切用いないようにした。心理学分野における表情研究の全体の動向については，本特集号の他の論文を参考にされたい。 機械学習ベースのモデル 機械学習，とりわけ統計的機械学習の分野では，学習データの質と規模の確保が高精度達成の一つの鍵である。このため，画像認識や音声認識，テキスト解析など主目的として，実験室環境と比較して低品質だが大量のラベルデータを得られるオンラインクラウドソーシングのプラットフォームを用いて，そこからいかにして主目的のタスクにおいて高い推定精度を得るかの研究が盛んに行われている（Sheng & Zhang, 2019; Zhang et al., 2016; Zheng et al., 2017）。

そこでは大きく2つのアプローチがある（Sheng & Zhang, 2019）。一つめのアプローチは，各項目に対して与えられた複数のラベルを集約してより質の高いデータにしたうえで，それを教師データとして教師あり学習を行う2段階の方法である。この1段階目が，各項目に対する真値を潜在クラスとして推定する真値推定（ground truth inference, crowd aggregationなど）と呼ばれる段階である。2段階目でこの真値と項目の特徴との関係を学習することで，項目に対する真値が推定可能となる。他方，ラベルデータの集約を行わず，すべてのデータを2段階目の教師あり学習に用いる方法も提案されており，Learning from Crowds などと呼ばれている（Sheng & Zhang, 2019）。Fig-ure 1にこれらのアプローチの違いを示す。本章ではこれらの2つのアプローチについてそれぞれ簡単に説明する。

Figure 1. 機械学習分野におけるクラウドソーシングにより得たラベル集合を教師データとして利用する2つの方法（Sheng & Zhang （2019）のFigure 1より抜粋）。（a）まず真値推定によりラベル集約を行い，次いでその真値の推定値を教師として教師あり学習を行う2段階の方法。（b）すべてのラベルデータをそのまま教師として教師あり学習を行う方法。

(3)

ラベル集約を行う方法（truth inference） 最も単純な集約方法は，評価者集団による多数決であり，特に，多様な人物からなる集団がそれぞれ独立に評定を行った場合に，個人の持つ様々な情報が集まり，かつ，個人のバイアスが相殺されてよい結果を得やすい（Surowiecki, 2005）。また，集約するラベルの数が多いほどよく，例えば，（Zheng et al., 2017）によると20個以上のラベルがあると機能しやすいとされている。オンラインクラウドソーシングではこの条件を満たしやすいため実際に広く使われている。真値推定法の中でも，確率的生成モデル（probabi-listic generative model）は比較して潜在変数の数が少なく解釈可能性も高いため心理学との相性が良いと考えられる。確率的生成モデルでは，項目に対して評価者が与えるラベルL を確率的な生成過程としてモデル化する。評価者の能力（スカラ量や混同行列などによって表される）やバイアス（基本的には一次元の潜在座標系における閾値として表される），項目の特性（難易度に相当するものが多い）をモデル変数に含む方法も多く提案されている（Sheng & Zhang, 2019; Zhang et al., 2016; Zheng et al., 2017）。ここでは，その中でもよく用いられており，かつ，心理学的モデルとの接点が大きなモデルとして，Dawid & Skene（DS）（Dawid & Skene, 1979）や，Multidi-mensional Wisdom of Crowds（MWoC）（Welinder, Branson, Belongie, & Perona, 2010），GLAD（Genera-tive model of Labels, Abilities and Diﬃculties）モデル（Whitehill et al., 2009）について概説する。それぞれの詳細については原論文を参照されたい。なお，本稿では取り上げないが，近年では深層学習を用いたモデルも提案されている点に触れておく（例えば（Atarashi, Oyama, & Kurihara, 2018））。

Dawid & Skene（DS）（Dawid & Skene, 1979）は， 1979年に発表された真値推定として非常に先駆的な論文である。頑健に良好な結果が得られやすいため，依然として広く用いられている（Sheng & Zhang, 2019; Zhang et al., 2016; Zheng et al., 2017）。観測はラベルデータの集合であり，そこから潜在変数である項目変数と評価者変数を推定する。項目の変数は正解ラベル（2値量）のみであり，評価者の特性は混合行列（例えば，真値が正クラスの場合に正と反応する確率や，真値が負クラスの場合に正と反応する確率）のみである。（真値が与えられたもとでの）評価者と項目の相互作用はないと仮定されている。混合行列の要素が対角行列に近い，すなわち，正と負の両クラスを正しく識別できるほど熟練した評価者であると解釈することが可能である。正解を行，評価者の反応を列とする混合行列を考えると，各行の要素の和は1となるため，自由度は評定のカテゴリ数をSとしてS×（S−1）となる。2クラスの場合は自由度が2であり，例えば，ヒット率（hit rate）1_{と特異度（speciﬁcity，または，}

true negative rate）で定義できる（false negative＝ 1−ヒット率であり，ミス率＝1−特異度と確定的に決まる）。このため，評価過程のモデル化は信号検出理論に近いが，正解ラベルが潜在変数である，すなわち，ヒット率や特異度を直接計算できないことを想定している点が大きく異なる。なお，DSモデルの各変数の事前情報を含めたベイズ推定の方法も提案されている（Raykar et al., 2010）。

MWoCモデル（Welinder et al., 2010）とGLADモデル（Whitehill et al., 2009）は偶然にも同時期に独立に提案されたよく似た2値ラベルデータ用のモデルである。MWoCの方が汎用的で評価者変数も多く，かつ，信号検出理論との接点がより明確である。このため，ここでは，MWoCモデル，GLADモデルの順で説明する。 MWoCモデルの観測はラベル集合であり，そこから潜在変数である項目変数と評価者変数を推定する点はDS含め他の真値推定法と同様である。項目の特徴については，正解ラベル（2値量），及び，潜在空間における座標値（ベクトル量またはスカラ量）にて表される。多次元の潜在空間を扱えるためMultidi-mensionalと名づけられている。座標値が原点に近いほど2クラスの識別が難しい，すなわち，難易度が高いと解釈される。評価者の特性は，熟練度（潜在空間の各軸に対する重みでありと同次元）と，選択におけるバイアスτ（スカラ量）にて表現されている。基本的には熟練度は正クラス（2次元では座標（1, 1））の方向を向いているという前提であり，そうでない場合は，実験者が期待する反応と逆の反応をしていることが示唆される（そのような評価者はスパマなどと呼ばれる）。Figure 2にMWoCモデルをグラフ表示する。1次元のMWoCモデルは，正解ラベルが未知で（潜在変数化されており），2つのクラスがそれぞれ1次元上で等分散の正規分布をなしており，そのマハラノビス距離が評価者に依存していることを表しており，その意味で信号検出理論とほぼ等価であることが示されている（Welinder et al., 2010）。評価実験として，楕円の向き（縦長か横長か），greebles（新奇な生物を見立てた幾何学模様がどちらのクラスに属するか），及び，水鳥（鴨か否か）の識別課題実験（それぞれ項目数は200，評価者数は20または40）をオンラインにて行い，多数決やGLADモデルよりも正しく正解ラベルを推定できることが示されている。 GLADモデル（Whitehill et al., 2009）は，バイア 1_{ヒット率は感度（sensitivity）とも呼ばれるが，信号検出理} 論におけるd′（sensitivity index）と混乱しやすいので，本稿では使用を避けた。

(4)

ス変数を含まない1次元のMWoCモデルとほぼ等価である。評価実験の一つとして，自然笑顔と作り笑顔の識別課実験（項目数160，評価者数20）をオンラインにて行い，別途2名のエキスパートによって決定された正解ラベルとの比較において，多数決では72％の正答率であったのに対してGLADモデルは78％の正答率が得られている。GLADモデルはMWoCモデルの簡易版であるが，バイアスのモデル化は比較的難しいとされており（Zhang et al., 2016），MWoCの原論文の結果とは異なり，直接比較においてMWoCと同等の性能が得られている（Zheng et al., 2017）。ただし，解釈の観点からは，バイアス変数を含まずに推定された評価者変数（ここでは熟練度／能力変数）の妥当性についての検証も必要と思われる。

ラベル集約を行わない方法（Learning from Crowds）

このアプローチは，複数人から得たラベルデータを集約せずに，すべての情報を教師あり学習に用いる，すなわち，ラベルと項目の特徴とを直接関連づけるものである。Figure 1の中では（b）に当たる。例えば，Kajinoらは，集約を前処理的にラベルのレベルで行うのではなく，ラベルと項目の特徴とを関連づける主タスクのレベルで行う方法を提案している（Kajino, Tsuboi, & Kashima, 2012）。既知の項目特徴ベクトルに対する重みベクトルを平均的な評価者の潜在変数とするロジスティック回帰であるベースモデルと，その平均評価者の重みベクトルから平均0の正規分布に従い偏差した重みベクトルを潜在変数とする個人のロジスティック回帰モデルを各評価者に対して用意し，それらを同時に学習している。このモデルは平均評価者（ベースモデル）を固定効果，実評価者をランダム効果とした一種の混合ロジスティック回帰モデルと見ることができるだろう。一方，我々は，ある評価者がある項目に対して与えるラベル（評定値）を予測するためのモデルとして，各項目に対して与えられたラベル集合を集約せずにそのまま得票率分布（確率分布）としてすべて保持したものを項目変数とするモデルを提案している（Ku-mano, Ishii, & Otsuka, 2017）。DS法を参考に評価者と項目の条件付き独立性を仮定することで，評価者の周辺分布（項目が未知のときその評価者が与えるであろう評定値の確率分布），項目の周辺分布（未知の評価者がその項目に与えるであろう評定値の確率分布），及び，評定値の周辺分布（評価者と項目が共に未知のときの評定値の確率分布）の3つの項から事後分布を計算する。評価者はその事後分布からの無作為抽出で評定値を決定していることを仮定している。いずれの項も単に評定値のヒストグラムを計算するだけで最尤推定が可能なため，この事後分布と評定値の予測値は簡単に計算可能である。CG合成された表情画像97枚に対して100名が感情価と覚醒度をそれぞれ5段階で独立に評定した独自のデータセットに対して，再テスト信頼性を1として97％という高い評定値の予想精度を達成した。この方法は非常にシンプルで性能もよいため，工学モデルとしての価値は有するが，解釈可能性や理論的な拡張の難しさが課題となっている。その他の方法として，行列分解（matrix factoriza-tion）による方法も提案されている（Sheng & Zhang, 2019; Zheng et al., 2017）。このアプローチは，データのスパース性（欠損量の多さ）に対して，生成モデルよりも頑健とされている（Zheng et al., 2017）。クラウドソーシングでは，基本的に，各評価者には全項目のうちの一部のみが割り当てられるため，評価者と項目のすべての組み合わせで見ると欠損が多いデータとなりがちである。行列分解がよく用いられるのは推薦システムであり，人を行，商品を列とする購買履歴の行列に対して，ある人がまだ買っていない商品を買うかどうかを予測するためなどに使われている。表情認知の文脈では，上述した我々の研究（Kumano et al., 2017）同様に，ある評価者が一部の項目に対してすでに評定したときに，残りの項目に対してどう反応するかの予測に有効と思われる。だが，直接の行列演算を行う方法であるため結果の解釈は難しい。 項目反応理論にもとづくモデル 前章で紹介した真値推定は，項目の潜在変数として真値（クラス）を表す離散量を含むモデルであった。それに対して，本章では，離散的な真値クラスに相当する項目変数を含まず，難易度といった項目の特徴を表す連続量が用いられる項目反応理論にもとづくモデ Figure 2. MWoCモデル（Welinder et al. （2010）の

Figure 1（c）より抜粋）。項目（image）の変数は添え字にて，評価者は添え字にて表されている。は真のクラス（2値の潜在変数），は潜在空間上での座標（原点に近いほど正しい識別が難しい（難易度が高い）ことを意味する），はの知覚量（評価者依存の正規ノイズがのった），とτは評価者の特性（潜在空間の各軸に対する重みと選択におけるバイアス）を表す。

(5)

ルを取り上げる。 基本感情に対する敏感さの測定 表情認知課題において，各項目画像の難易度を潜在変数として扱った実験心理学研究の先駆的論文として（Suzuki et al., 2006）が挙げられる。モーフィングにより生成された混合表情画像を項目として用いているが，それでも表情カテゴリ毎の課題の難易度を統制するのは容易ではないため，評価者の特性や項目の難易度相当の変数を潜在変数として含む項目反応モデル（item response model）を用いることで，難易度を分析上で統制した際の評価者の能力を数値化する方法を提案している。具体的には，評価者の特性を表情表出されている基本感情に対する敏感さ2_{と定義し，ある感情に対する} 敏感さが高いほどその感情を含む表情に対して高い評定値を与えると仮定している。使用されたgraded response model（GRM）は，2値変数向けの2変数ロジスティックモデル（2-parameter logistic model, 2PLM）を順序尺度に拡張したモデルの一つであり， 1つの評価者変数（ここでは敏感さ変数）と，項目変数として，各項目が評価者の能力（敏感さ）にどれだけ影響を受けるか（能力をどれほど識別できるか）を表す項目識別変数，及び，どの強度が選ばれやすいかを表す項目のカテゴリ閾値変数を含む。これにより，課題の難易度や識別性の影響を除いたうえで，評価者の敏感さを測定できるとされている。混合表情画像に対して評価者が6段階で与えた各基本感情に関する強度に関する評定値を観測データとして，感情カテゴリ毎にモデル変数を推定している。得られた敏感さ変数は，従来よく用いられてきた各感情カテゴリに対する平均評定値（強度スコア）と.87以上の強い相関を示している。 回答スタイルの除去 真値推定は評価者集団の集約値の質を事後的に高める方法であるが，個人の個々のラベルの質を事後的に高める方法として，近年，我々は個人の回答スタイルを項目反応モデルに含めて除去する方法を提案している（Kumano & Nomura, 2019）。

回答スタイル（RS）とは，評価する内容に関係なく，極端な（両端の）ラベルや中央のラベルといった特定のカテゴリを選択する傾向である（Baumgart-ner & Jan-Benedict, 2001）。最も一般的なRSの種類として，両端あるいは中央を好む極端／中心反応傾向（ERS/MRS）や，選択肢の中で最も高いスコア（ポジティブ）あるいは最も低いスコア（ネガティブ）を

選ぶ傾向である黙従／非黙従反応傾向（ARS/DRS）がある（Baumgartner & Jan-Benedict, 2001）。回答スタイルは文化にも依存し，日本人などアジア人は中央のラベルを選ぶ傾向が強いとされている（Zax & Takahashi, 1967）。RSは内容や課題に依存しない（内容独立性を持つ）と定義されることが多く，その点で，それらに依存する回答バイアスである社会的望ましさやハロー効果などと区別される（Wetzel, Böhnke, & Brown, 2016）。回答スタイルは相関分析や分散分析といった分析の妥当性を低下させることが知られている（Baumgartner & Jan-Benedict, 2001）。

RSは単純な方法でも計測は可能である。例えば，極端反応傾向は，全項目の中で両端の選択肢を選んだ割合としてしばしば測定される（Baumgartner & Jan-Benedict, 2001）。だが，このような単純な方法では計測はできても除去まではできない。RSを除去する技術はマーケティングリサーチなどの分野を中心にすでにいくつか提案されている（Jonas & Markon, 2019; Tutz, Schauberger, & Berger, 2018）3_。潜在変

数としてRSを含む評価過程のモデルを構築することでRSの影響を除去しようとしている。RSの内容独立性を前提とすると，RSは，様々な課題，たとえば，心理アンケート，満足度評価などに対して一貫して観察されるはずである。しかしながら，既存のRS除去法（Jonas & Markon, 2019; Tutz et al., 2018）はその性質を利用しておらず，単一の課題のみからRSを除去するものである。このため，これらの方法では課題に依存した反応バイアスを含む反応傾向と課題に非依存のRSを区別することが難しく，用いる項目や選択肢次第で推定結果が異なることが予想される。例えば，同じ評価者であっても，明らかな笑顔と明らかな怒りだけからなる顔画像集合に対して感情価（ポジティブ感情／ネガティブ感情）の度合いを評価した場合には極端反応傾向と推定され，微細な表情のみを集めた画像集合を用いた場合には中心反応傾向と推定されてしまうだろう。しかし，そのようにして得られた結果は内容独立性を満たしておらず，RSを正しく推定できているとは言いがたい。そこで，我々は，複数の課題から得たラベルを入力として，マルチタスク学習の枠組みで課題非依存の成分として回答スタイルを抽出・除去する方法を提案している（Kumano & Nomura, 2019）。上述した我々の論文（Kumano et al., 2017）のデータに性格特性尺度に対する回答データを合わせたデータを用いたところ，提案法がベースラインよりも高い適合度を示し，日本人の中心反応傾向を再現するなどの有 2_{原著で使われているsensitivityについても，脚注1と同じ理} 由で，ここでは敏感さと訳した。 3_{回答スタイルの対処法として，事前の回避と事後の除去とが} ある。事前の回避としては二肢強制選択やアンカリング・ビネット法などがある（Wetzel et al., 2016）。

(6)

効性が確認された（Kumano & Nomura, 2019）。さらに，回答スタイルを除去した場合と比較した際，観測されたラベルそのものを用いた場合には，評価者間信頼性が過少に見積もられる可能性が示唆されている。また，評定値付きの公開画像データベースを用いた場合にも有効性が確認された（Nomura, Kumano, & Yotsumoto, 2019）。提案法は様々な種類の主観評定値に適用可能な汎用的な方法であり，興味対象の分析をより精緻に行うための前処理としての利用など期待される。 モデル変数の推定アルゴリズム 本章で取り上げたモデルを含む多くの真値推定法と項目反応モデルでは，変数推定に反復法の一種である EMアルゴリズムが広く使われている（Muraki, 1992; Zhang et al., 2016）。EMアルゴリズムは効率的なアルゴリズムであり（機械学習的な更新式の工夫によるところも大きい）大規模データに対して有効だが，反復法ゆえに局所解に陥る（つまり，初期値に依存して推定結果が異なる）可能性を有する。この問題は，一般に，モデルが複雑になるほど顕在化するため，今後，評価者の認知過程をより精緻にモデル化する場合に注意が必要であろう。他方，マルコフ連鎖モンテカルロ（MCMC）法などのサンプリング法は，一般に，反復法に比べて計算時間やメモリを多く要するため大規模データには向かないが，一般的な心理データ（数十名の評価者，数十∼数百程度の項目）であれば十分適用可能である。我々は，確率的プログラム言語であるStan（Stan Development Team）に実装されているNo-U-Turn Sampler（NUTS）（Hoﬀman & Gelman, 2011）を用いてベイズ推定を行っており，複雑な数式展開を行うことなく簡単なモデルの記述で良好な結果が得られることを複数確認している（Kumano & Nomura, 2019; Nomura et al., 2019）。 まとめ 本稿では，人の認知過程を計算論的にモデル化する研究として，オンラインのクラウドソーシングなどの環境で多人数から得たラベルデータを集約して正解ラベルを推定するための機械学習分野を中心に，心理学的観点を交えながら概説した。モデル自体は，信号検出理論や項目反応理論といった心理学でも確立した理論と深く関係しており，その点では機械学習分野と心理学分野の境界はかなり狭まっているように見える。本稿を通じて，機械学習分野と心理学分野の関係がより明確になり，双方の発展に繋がれば幸いである。謝辞東京大学の野村圭史氏には有益なコメントをいただいた。記して深く感謝する。 引用文献

Atarashi, K., Oyama, S., & Kurihara, M. (2018). emi-supervised learning from crowds using deep generative models

.

Baltrusaitis, T., Zadeh, A., Lim, Y. C., & Morency, L. (2018). OpenFace 2.0: Facial behavior analysis toolkit

( ).

Baumgartner, H., & Jan-Benedict, E. M. S. (2001). Response styles in marketing research: A cross-national investigation.

, , 143‒156.

Crivelli, C., & Fridlund, A. J. (2018). Facial displays are tools for social inﬂuence.

, , 388‒399. doi: https://doi. org/10.1016/j.tics.2018.02.006

Dawid, A. P., & Skene, A. M. (1979). Maximum likelihood estimation of observer error-rates using the EM algorithm.

, , 20‒28. doi: 10.2307/2346806

Hoﬀman, M., & Gelman, A. (2011). The no-U-turn sampler: Adaptively setting path lengths in Hamiltonian Monte Carlo.

.

Jonas, K. G., & Markon, K. E. (2019). Modeling response style using vignettes and person-speciﬁc item response theory.

, , 3‒17. doi: 10.1177/0146621618798663

Kajino, H., Tsuboi, Y., & Kashima, H. (2012). A con-vex formulation for learning from crowds

.

Kumano, S., Ishii, R., & Otsuka, K. (2017). Compu-tational model of idiosyncratic perception of others emotions.

( ). Kumano, S., & Nomura, K. (2019). Multitask item

re-sponse models for rere-sponse bias removal from aﬀective ratings

( ).

McDuﬀ, D., Girard, J. M., & Kaliouby, R. E. (2017). Large-scale observational evidence of cross-cultural diﬀerences in facial behavior.

, , 1‒19. doi: 10.1007/ s10919-016-0244-x

McDuﬀ, D., Kodra, E., Kaliouby, R. E., & LaFrance, M. (2017). A large-scale analysis of sex diﬀer-ences in facial expressions. , ,

(7)

e0173942. doi: 10.1371/journal.pone.0173942 Muraki, E. (1992). A generalized partial credit

model: Application of an EM algorithm. , , 159‒176. doi: 10.1177/014662169201600206

Nomura, K., Kumano, S., & Yotsumoto, Y. (2019). Mul-titask partial credit model with response style revealed extreme/midpoint response styles in the socio-moral image database (SMID)

.

Paiva-Silva, A. I. D., Pontes, M. K., Aguiar, J. S. R., & de Souza, W. C. (2016). How do we evaluate facial emotion recognition?

, , 153‒175. doi: 10.1037/pne0000047 Raykar, V. C., Yu, S., Zhao, L. H., Valadez, G. H.,

Flo-rin, C., Bogoni, L., & Moy, L. (2010). Learning from crowds.

, , 1297‒1322.

Sheng, V. S., & Zhang, J. (2019). Machine learning with crowdsourcing: A brief summary of the past research and future directions.

, 9837‒9843.

Stöckli, S., Schulte-Mecklenbeck, M., Borer, S., & Samson, A. C. (2018). Facial expression analysis with AFFDEX and FACET: A validation study. , , 1446‒1460. doi: 10.3758/s13428-017-0996-1

Surowiecki, J. (2005). New York, NY: Anchor Books.

Suzuki, A., Hoshino, T., & Shigemasu, K. (2006). Mea-suring individual diﬀerences in sensitivities to basic emotions in faces. , , 327‒353. doi: https://doi.org/10.1016/j.cognition.2005.04.003 Thomas, M. L., Brown, G. G., Gur, R. C., Moore, T. M.,

Patt, V. M., Risbrough, V. B., & Baker, D. G. (2018). A signal detection-item response theory model for evaluating neuropsychological measures.

, , 745‒760. doi: 10.1080/13803395.2018. 1427699

Tutz, G., Schauberger, G., & Berger, M. (2018). Re-sponse styles in the partial credit model.

, , 407‒427. doi: 10.1177/0146621617748322

Welinder, P., Branson, S., Belongie, S., & Perona, P.

(2010). .

Vancouver, British Columbia: Curran Associates Inc.

Wetzel, E., Böhnke, J. R., & Brown, A. (2016). Re-sponse biases. In F. T. L. Leong, D. Bartram, F. M. Cheung, K. F. Geisinger, & D. Iliescu (Eds.), (pp. 349‒363). New York, NY: Oxford University Press. doi: https://doi.org/10.1093/ med:psych/9780199356942.003.0024

Whitehill, J., Wu, T.-F., Bergsma, J., Movellan, J. R., & Ruvolo, P. L. (2009). Whose vote should count more: Optimal integration of labels from labelers of unknown expertise.

.

Zax, M., & Takahashi, S. (1967). Cultural inﬂuences on response style: Comparisons of Japanese and American college students.

, , 3‒10. doi: 10.1080/00224545. 1967.9919760

Zhang, J., Wu, X., & Sheng, V. S. (2016). Learning from crowdsourced labeled data: A survey. , , 543‒576. doi: 10.1007/s10462-016-9491-9

Zheng, Y., Li, G., Li, Y., Shan, C., & Cheng, R. (2017). Truth inference in crowdsourcing: Is the problem solved?

, , 541‒552. doi: https://doi.org/ 10.14778/3055540.3055547

表情認知に関する計算論的モデル化研究の動向

特集論文