NII-Electronic Library Service TheJapanese JournalqfpsJ‘ho門omi‘Science
2013
,
Vol 3且,
No.
2,
且82−
186講演論文
単
一
行 動
を
決
め る
動機 価値
南 本 敬 史
独 立 行 政 法 人 放 射 線 医 学 総 合 研 究 所
Motivational
value as adeterminant
for
action
Takafumi
MINAMIMoTO
Na亡ional lnstitute qズRadiological S‘iences
Value
−based
decision
−
making is a central concept inboth
behavioral
sciences and neuroscience,
which allows us todescribe
a choicefrom
several alternativesbased
on their sublective values.
However,
thedecision
of making whether a single a⊂tion shQuldbe
executed or not,
appears tobe
affectedby
not only external facters that constitute subjective value (e.
g.
,
size,
dela}〜orprobabilit
γofrewards ),
but also by internal factors(e.
g.
,
subject’
ssatiation leve旦
f()rthe rewards )
.
We recentlydemonstrated
that the proportion ofmonkey’
s non−
choice instrumental a⊂tion is weUdescr
童bed
by
a modehn which the sublective reward value (i.
e.
,
external variable )is multipliedb
アadecay
fUnction
accord 呈ng to water consumption (Le
,
,
infとrence ofinternal variable ).
Based on this model,
we introduce motivation−
al value,
a neural representation thatprovides
aquantitative
account of the interaction of external and internal f註c−
tors on instrumental
behaVior
.
Motivational value includes the concept of subjective value of a rewarding outcome,
the neural representation of which wasfound
in monkeys brain during task performance,
Motivational value can also describe a behaviora1 dysfunctien in the depression model monkey.
Key words :motivation
,
reward,
drive
,
incentive行 動 選 択 と価 値
主 体の主観 的 価 値に基づ く意思決 定の枠 組み は
,
複 数の選択肢か らの選択行動を よく説 明で き るこ と か ら
,
行動研究や脳 科 学 研 究において も中心 的 役 割を担っ てい る
(Rangel
,
Camerer,
&Montague,
2008)。
しか し,
選 択 肢がない 単
一
の行 動を実 行すべ き か否か の判 断に は , 期待さ れ る報 酬 量や確 率といっ た主 観 的 価 値を形成す る外 部 変 数だけで な く,
判 断 する時 点に お い て主 体が どの程 度 そ の報 酬 を必 要 とする か とい う内 部 状 態 も影 響 する。 この よ う な単一
の行 動を実 行す る/し ないの意 思 決 定を説 明 す る要素と して新た な価値の枠組み が必要である と考え ら れる。 これ らと既 存の主観 価値と の違い,
そ して対応 する脳 機 能な どについ て述べ る。Corresponding author
.
Department of Molecular Neuroimag−
ing,
Molecuar Imag 孟ng Center,
4−
9−
l Anagawa,
Inage−
ku,
Chiba 263
−
8555,
Japan
,
E−
mail : minamoto @ nirs.
go.
jp
報 酬 量と報 酬 獲 得 行 動と の関 係 まず
,
外 部 情 報と内 部 状 態を 反映す る行 動 測 定を行う た め,
出来る限 り単純で汎 用性の ある行動 測定系を開 発 する必 要がある。
我々は,
喉が渇い た サルが水を報酬と して単 純な反 応が要 求され る行 動 課 題 を用い て,
行 動と 外 的ま た は内的情 報と の関 係を調べ た (Minamimoto , La Camera,
& Richmond,
2009)。
サル は報 酬の水をもら う た めに,
レバー
を握 り,
日の前の コ ン ピュー
タ画 面に表示1
れ た赤い ター
ゲッ トが緑に変わ るのを待っ て,
握っ て い たバー
を放す とい う単 純な行 動が常に 要 求さ れ る (Figure IA )。 例えば,
成功報酬と し て水が1,
2,
4,
8 滴の いずれか の量 だ け与え ら れ る場合 (reward size task:報酬量課 題 )
,
報 酬量はあ らか じ め試行の開 始 時の手 がか り 刺 激 (CUE )に よっ て知 らさ れる。 正解 する と次の試 行 に進み,
1〜
8滴の い ずれか の試 行が ランダム で 呈 示さ れ る。 サル にとっ て はと て も簡単な課 題で あ り, 数日で 課 題を理 解し,
さ らに2週 間か ら1カ月訓 練す る と,
目々安 定し た行 動を見せ る。 し か し,
い く ら訓練 して も バー
を早 く放しす ぎる,
あるい は 1秒 以 内にバー
を放さCopyright
2013,
The
lapanese
Psychonemic
Seciety
.
All rights reserved.
The Japanese Psychonomic Society
NII-Electronic Library Service
The Japanese Psyohonomio Sooiety
南 本:単
一
行 動 を決 め る動 機 価 値 183ATou
⊂ (BO
」 OOO 崘 O 寸 O 甲り ON〔
ぎ}
国 〇 一 匣一
麟 ⊃←
匡 O尸
o Reward 51ze R 砲 1drOP 尋 2drops ■ 4drops → 8drOPS T /華肖
ゴ
蕁
’
i 薄罹
te .
O、
99ヂ
!
竃MTTTI
O O.
5 1 Saturation @IevelFigロre
L
Behavioral task and data.A
. Sequenceo
events in the reward size task with incentive cue.Th
trial in two drop size condition were shown.B
. Effect o saturation level (S
) on refusal rate (E
)
, Percentage o r¢ 血sal trial (mean ±SEM )lbr each reward size(gra scale )as a functionof
saturation level,The
superimposed curves are the best fit ofEq.(2)to the da
ない とい う 不 成功 な試行が時々 ある (こ の場
合
は , じ 試行条 件が繰 り 返され る ) 。このよ うな 不成功 試 は サ ル がその 試行を 完遂 さ せるの
を
や め,
’拒 否’ たと 解 釈した。こ の拒 否が 発生す る試
行 の 割合, 拒 率は報酬 量が増 えるにつ れ 減少す る 。 興味
深 い こと ,拒 否 率E と報酬 量R
と の間に 反比
例 関係 が あり
, 由パラメータa
を用 いて式 (1 )のよ に記
述 き る。E
=⊥aR
(1 )こ
こ で 強調し た い の は,実験者が 比 例関 係に なる よう にサル
を訓 練 し た訳で はなく , 然 発 生 的 に 多 くの 個体 でこ のよ う な 反比 例の 関 係 が 察さ れ ると
い う ことであ る。また,報酬 量 が少ない 反応時間
が長 くなる傾 向 が あるが,ほ とんどの成
功試 におい て 反応
時 間はo
.6
秒 以 内であ
り ,拒 否は反
応
間が 延長 した“運 動 エラーtt
で はな いようだ。 な 反 比例 になるかの
理由は未だ理解 できて いない が , 来 的 な脳 内の 仕組み 根 付 い ている こ と は 間 違 いない 。 報酬価値の 減少と
報酬獲
得行 動の関係 報酬量課題 ,毎
日,サル が喉が渇いた状態
で開始 さ れ , 喉 の 渇 があ る程
度癒 え ,次 の 試 行を 始 めなくなる まで1
〜 條ヤ
続 けられ る 。 こ の間 の 喉 が渇い た状態か ら渇 き 癒えるま での 内 部状態 の変 化に伴っ て,サ
ルの 水 対す
る欲求度は減弱 する はずで あ る。 言い換える
と1
滴 の水に対 する価値が減少 するであ ろう。 この報 酬 価 値 の減
少devaluation
)の
効 果 を 調 べ るた めに ,課 閧ナ
獲得した
総 報酬量 を1
,課 題 開始時 を0
とす る 充 足 率 を 定義 し ,報 酬を 獲得して 充足率 が上昇す るの に した が っ て拒否 率がどの よう
に 変 化す るかを 調べ た。す る と 充足 率 の上昇 に 従って,拒 否率がしだいに
高 くな
っていく
ことが か る (Figure
IB
) 。また ,拒否 率と 1 〜8
滴
報酬量と の 反比例 関 係が保存さ れて い た。1 滴の価 , つまり水の欲 求度 が充足 率S に 従っ て 減少 する シ グ イ ド関 数F
(S
)を仮定すると ,すべての 拒否率E が
酬 量 と欲
度 関数F(S) 用いて (2
)で
説 明でき る。1E
三 aRFS
) (2
) つまり
,試行ご
と に変 化す る報酬
量 R , っ く り と変化 する欲 求度関数F (S )
, そして 一 つ 自 由パラメータa
か らなる数 式 で報酬 獲 得 行動 が記述 きる 。 ここで欲求
関数F(
S)は
自 然現象
記述によく
い ら れ るシグ モイ
関数を い た 。1
+ ε一
{s −s
〕 ’ σF
(s
) = @1
+eS
・「a
(3
) ここで ,Se は 変曲 ,σは変動 の シ ャ ー プネ ス を示す 。 この 式 (3 によ り, テストしたす べ て の個体 における充 足 率 の上
にとも な う 拒 否 率の上昇 が 説明できた。 こ の式 ( j はあく まで も経験 的 なモデル で ある
た め, その生 学的 妥当
性につい て 検 証する 必要 があろ う。 サ ルを むほ 乳類 は恒 常性を 保つ ため ,体 液 の浸透 圧 につ
い も一定 に 保 つよ う に 様々
な 器官が協調し て働いて
い 。 脳 には体液 の浸 透圧を
感 受 す る 器 官 があり, 浸 透 圧ェ
高い 場 合 ( 脱 水 時 ),個体 の喉の渇きを催し,適切
な 浸 透圧 保て るよ う に, 水 分摂 取行動を 行わせると
い う 働き 示されている(Bourque , 2008 )。報酬量課 を 行っている サ ル から 繰 り返し 採血を行い , 血中の 透圧
濃 度と 拒否 率との 関 係を調 べた と ころ ,同 じ 報 条件 で も 浸 透圧 が高 い,っま り脱水度
が 高くなる
と拒否 率が低
く,浸透圧が
くなると拒否 率 が 上 昇 するという 相関関 係が
認められたMinamimoto ,
ada
, Hori ,& Sura
,2012
)。こ のこと は報酬獲得 行 動 にお い て 浸 透圧濃 度 が水 報 酬 の価値 を 決 め る内 部 情報として いら れて いる 可能性 を 示唆すNII-Electronic Library Service 184 基 礎 心 理 学 研 究 第31巻 第2号
?
O σう O 創 O 尸(
承)
Φ一
応」
「
邸 oり ⊃舮
Φ ぼ O S − ■0
3
.
3
6 .
9
10 .
5
Delay
duration
(s)Figure 2
.
Effect of predicted reward size and delay−
to・
reward on refusal rate
.
Perc巳ntage of error trials(mean±SEM )as a
function
of delay duration ln monkey CS in the reward−
size−
and−
delaアtask.
Filled and open cir−
cles correspond to l and 4 drops ofreward
、
respective−
ly
.
PuIl black lines and dashed gray curves are the best且tof Eq& (6)and (7)
,
respectivel )r.
遅 延
価値割引
に よ る主観
的 価 値 と報酬獲得行動
の 関係 単 純 な 行 動の実 行 / 拒 否は報 酬の量や種 類だ け で な く,
行 動し た後 どの程 度時間お く れて報酬が与えられ る か に も大き く影響を うける。一
般に時 間 遅れが長い ほ ど,
行 動はおそ く,
不 正 確になる。
で は,
サル の報 酬 獲 得 行 動は どの ように影 響 を受け るだろ うか ? 成 功 試 行 の あとす ぐ に報 酬を与え る だ けでな く,
報酬遅延も あ る課題に変 更し た (reward size
−
and−
delay task;報酬 量
一
遅 延課 題)。 こ の課 題に お いてサル は固 有の手が か り刺 激か
ら
,
報 酬 量 (2段 階 )と報 酬 遅 延 (4段 階)の両方の情報を知ること が で き る (Minamimoto
,
La Camera,
&Rich・
mond,
2009)。一
頭の結 果 をFigure 2に示した が,
ご覧の 通 りサル の拒 否 率は遅 延 時 間に対 して直 線 的に増 加し て い る。
また,
同じ遅 延 時 間であっ て も,
報 酬 量が1!4に な ると拒否率が 4 倍に な る とい う反 比 例 関係が保た れて い る。 こ のサルの場合,
報酬が4滴の場 合で も,
わずか な遅 延時間があるこ と がわか ると,
す ぐに与え ら れ る1 滴の試 行に比べ より拒 否す る割 合が高い こと が わ か る。
つ まり,
こ のサル に とっ て水報酬の価値が わずかな遅 延 時 間で大き く減 少 する のだ。
直 感 的に分か り難いか もし れ ない が,
小さ な子 供が 目の前の お やつ を10秒 我 慢す ると ころ を想 像 して い た だ き たい。
こ の よ う に 遅延に よっ て報酬の価値が低下して し ま う 現 象を遅 延 価 値 割 引 (delaydisceunting
)とい い,
心 理 学・
行動分析に おい て多くの研究が な されて い る。 遅 延 に よっ て報 酬の主 観 的 価 値が どの よ う に変 化す る か を表 すモ デル である割引関数が複数提案さ れ て お り,
代表 的な もの に双曲 線 型 (hアperbollc fun¢tion)
,
指 数 型 (expo−
nential function)が あ げ ら れ る。 双 曲 線型割 引 関 数は次 の式で表さ れ る。 V=
Af(1+ kD) (4) こ こ で Vは遅 延 報 酬の主 観 的 価 値.
A は遅 延0に お け る 報 酬 価 値, D は遅 延時間,
そ し てk
は割引率である。 ヒ ト・
動 物を対象とし た多くの遅延価値割引実験の結 果に おいて双曲線 型害「」引 関 数が よ く当て は ま る こと が知 ら れ てい る (例 えばMazur.
1984)。一
方,
指 数 関 数 型の割引 関 数は,
以 ドの式で表さ れる。 v≡
Ae−
kP (5) 指 数 型 割 引関数は 遅延 時問に伴っ て価値が常に一
定の割 合で低 下し てい くこ ごを仮定してお り,
経済学な どの理 論で よ く用い ら れてい る。
さ て, サル で見ら れ た報酬遅 延と拒否 率の直線関係 はt こ れ ら の割 引関数で説明 で き る の だ ろ う か ? そこ で 式 (1)の報 酬量Rの代わ りに主観 価値 Vを代人する。 その際 式 (4)のA (遅 延0に お け る報 酬 価 値 ) をRと すると,
E=
(1十kD)/aR (6) の式が得られ る。 こ の式 (6)は拒否率 Eが遅 延 時 間D に 比 例し,
かつ 報 酬 量Rの反 比 例 関 係 を保 存 して い るの だ。 この式 (6)はFigure 2の デー
タ を と てもよ く説 明す る。一
方,
式 (5)の指 数 型関数を組み 込 ん だ場 合,
E; ekD /aR (7) とな るが, こ の式の 当て は まりは式(6)と比較し て良く ない 場 合が多い。
つ まり,
遅 延を導 入す る と サル の報 酬 獲 得 行 動にお け る報酬価値が 遅延時間に よっ て双曲線型 に割 り引かれるこ とが分か る。 また,
こ の場 合の行 動の 拒 否 率は,
報 酬 量だ けの場 合と同様に充 足 率S上 昇の過 程に おいて,
欲 求 度関数F(S)を 用いて,
1+kD
E= (8) aRF (s) の ように記 述で きる。
単
一
行動
の実行
/拒
否 を決
め る動機価値
こ の よ うに,
サルが報酬獲得のた めの単純な行動を満 N工 工一
Eleotronio LibraryThe Japanese Psychonomic Society
NII-Electronic Library Service
The Japanese Psyohonomio Sooiety
南 本:単
一
行 動を決める動 機 価 値 185 足 する まで繰り返し行う過 程で, 期 待され る報 酬 量と報 酬 遅 延の 2次 元から なる外部 変数 そ し て水分欲 求とい う内 部 情 報を用い て,
行 動の拒 否率が式 (8)の ように記 述で き る こ と を み て き た。
式 (8)に おい て報 酬 量 (R),
遅延報酬割 引 (11(1+kD)),
欲 求 度 関 数 (F(S))の 3要 因 が掛け合わ さ れてい る こ とが 分か る。
この 3要 因 問の 関 係を保っ た ま ま行 動の決 定 因 子として相応しい表現を探 すと式 (8)の逆 数が思い浮ぶ。
そ れ を動 機 価値MV と呼 ぶ こ と にする。MV
−
1罸
蹇
。 ・(・)(・) 動 機 価 値は報 酬 量に比 例 し遅延報 酬割 引に よ る主観価 値 を包 含す る
。
ま た,
内 部 要 因で あ る欲 求 度関数 (F(S)) に よ る価 値 減 少の影 響 を うけ る。
こ の動 機 価 値MV は値 が大き く な るにつれ,
拒否 率Eが小さくな り,
行 動が実 行される確 率が高 くなる。 ま た,
こ の動 機 価値 は 行動か ら推 定し た も の な の で,
定 義 上 行 動 との 1対1対 応に な る よ うに して お くた め,
報 酬量,
遅 延 と欲 求 度の 3要 因 だ け で な くパ ラ メー
タa も必 要で ある。
パ ラメー
タa は 3要因に よ る“
報 酬の 主 観 的 価 値”
(こ の場 合は内 部 要 因 も加 味 されるこ と に注意して い た だ き たい)か ら行動 に変 換 する際の’
変 換 効率”
を表現 す る と も と ら え ら れ る。
動機
価値
の脳内表
現 と理 用 さて,
報酬獲 得行 動を行っ てい る サル の脳 内に おい て,
動 機 価 値に相 当 す る神 経 情報が存 在 する の だろう か ? 我々 は,
価 値に よ る行 動 選 択,
報 酬や動 機付けに 関わ るとさ れて い る線条 体の尾状核に着目し,
報酬 量一
遅 延 課 題を行っ て い る2頭のサル の尾状核よ り単一
神 経 活 動を記 録 した (Hori,
Richmond,
8【Minamimoto,
2010)。サル の拒 否 率 よ り式 (
6
)を用い て推 定 した遅 延 報 酬 割 引 に より,
各 試 行の報 酬 量,
遅 延か ら主観 価 値Vを計 算し て,
そ の試 行での尾 状 核の神 経 活 動と比 較した。
する と,
全体の 約15%の神経 細 胞に おいて主 観 価 値と相 関 関 係 を示 す 活 動が観察さ れ た。一
方,
同じ報酬条件に対 する こ の神 経 活 動は, 報 酬 獲 得に従っ て変 化 な く一
定で あっ た。 つ まり尾 状 核の一
部の神 経 細 胞に より,
報 酬 量 と遅 延に よ る 主 観 価値を表現 す る が,
報酬獲 得に と も な う価値の減 衰 (devaluation)を含ん だ動機価値は表 現し て い ない こ と がわか っ た。
これ らの尾 状 核で の価値表現 は報 酬 獲 得 行 動の実 行 / 拒 否に直 接 関わる の で はな く,
価 値に よ る適 切な行 動の学 習 / 選 択や,
行 動の実 行を早 め ると い っ たパ ラ メー
タに関 わ るこ とが 示 唆 さ れ る。
ま た尾 状 核の主 観 価 値 表 現はサルの拒 否 率で見られ る報酬 量と遅 延の関係と非 常に よ く対 応す るこ とか ら,
こ の価 値 情 報が別の脳 部 位に おい て欲 求 度と掛け合わ さ れ動機 価値に変 換され てい る可 能 性 もある。
動 機 価 値 表 現の一
つ の応用 と して,”
主 体の気 分”
を 記 述で きる可 能 性があ げら れ る。 例えば,
うつ など意 欲 が 減 退す る場 合は,
同じ報酬量 や 遅延と い っ た外 部情 報,
欲 求度などの内部 状 態であっ ても,
動 機 価 値が低 下 して,
拒 否率が上 昇す るこ とが予 測さ れ る。
その場 合,
式 (9)に お い てパ ラ メー
タa の減 少が 生 じ てい ること で 説 明で きる かもし れない。
我 々の最 近の研 究におい て,
意 欲 低 下 状 態のサル に報 酬 量 課 題 を 行 わ せ ると,
拒 否 率 が上 昇し,
パ ラ メー
タaが 減 少 して い るこ とが確かめ ら れてい る。
お わ り に 動 物の水 分 報 酬 獲 得の た め に単一
行 動を要求し た場 合,
その実行 する/し ないを よ く説明す る新た な枠組み と して,
報 酬 量などの外 部 変 数と欲求度の内部変 数か ら 計 算され る動 機価値 (motivational value )とい う価 値 概 念 を提案した。
こ の動機価値は遅延報酬に お け る主観的価 値を包 含 し, 動 機 価 値の計算 過 程に お い て主観 的 価 値が 脳 内に表 現されて いるこ とも見いだ さ れ た。 さ らに動機 価 値は“
主 体の気 分”
も反 映し,
うつ な ど意欲の減退状 態に あ る動 物の行 動につ い て も説 明 可 能で ある。
一
方で,
拒否 率と動機価値と の間にある反 比 例 関 係と その背 後にある メ カニ ズム につ い て明 確な解 釈はで き て い ないe さ ら に行 動 指 標である拒 否 率は複 数の試 行か ら 構成さ れる確率 的な ものなの で,
試 行 ごと に動 機 価 値か ら実 行 / 拒 否 を決め る仕 組み を明らか にす る 必要が あ り,
学 習 理 論など も取 り込んだ よ り包 括 的 な理 論 構 築が 求 め ら れ る。
行動課題を行っ てい る サル か らの脳 情 報 計 測・
脳情 報操作に よ る脳メカニ ズ ム探 索も現 在 進 行 中で あ り,
外部・
内 部 情 報か ら行 動にいた る脳で の動 機 価 値 の情 報 表 現・
計 算 処理 な どの脳メカニ ズムが,
理 論 と対 応 した 形で解 明で きるこ とを 目指 して い る。引
用文 献
Bourque
,
C.
W (2008),
Central mechanisms of osmesensationand systemic osmoregulation
.
Nature Revゴew Neuroscience、
9
,
519−
531,
Hori
,
Y,
Richmond,
B.
1.
,& Minamimoto , T (2010).
Neuralcodillg of pred亘cted and experienced outcome value with
temporal discounting in the primate caudate nucleus
.
Neu−
rσ5‘iens Research,
5u∫「plement
,
68,
e295・
Mazur
,
L
E.
(1984).
Tests
of an equivalence rule 丘)rfxed
and variable reinf 〜}rcer delays.
Journai
()fExperimental
Psycholo一
NII-Electronic Library Service
186
gen,llimpt#-xng31gij25
gy:Anin:alBehavior Processes,10,426-436.
Minamimoto, T, La Carnera, G.,& Richmond, B.
J,
(2009).
Measuring and modeling the interactionamong reward
size, delayte reward, and satiation levelon motivation in
menkeys.
Journal
ofIVeuropP-,siology;
101,437-447,Minamimoto, Z,Yamada, H.,HorL Y, & Suhara,T.
(2012).
Hydrationlevelisan internalvariable
for
computingvation to obtain water rewards in monkeys, Experimentat
BrainResearch,218,609-618.
RangeLA,,Camerer,C.E,&Montague,PR.