単一行動を決める動機価値(日本基礎心理学会第30回大会)

(1)

NII-Electronic Library Service TheJapanese　JournalqfpsJ‘ho門omi‘Science

2013

，

Vol　3且

，

No

．

2

，

且82

−

186

講演論文

単

一

行動

を

決

める

動機価値

南　本　敬　史

独立行政法人放射線医学総合研究所

Motivational

　_value 　_as　_a　

determinant

for

action

Takafumi

MINAMIMoTO

Na亡ional　lnstitute　q_ズRadiological　S‘iences

　　Value

−based

decision

−

making 　is　a　central　concept 　in　

both

behavioral

　sciences 　and 　neuroscience

，

　which 　allows us　to　

describe

　a　choice 　

from

　several　alternatives 　

based

　on　their　sublective 　values

．

　However

，

　the　

decision

　of　making whether 　a　single　a⊂tion　shQuld　

be

　executed　or　not

，

　appears　to　

be

　affected　

by

　not　only　external　facters　that　constitute subjective 　value （e

．

_g．

，

　size

，

　dela_｝〜or　

probabilit

_γofrewards ）

，

but　also　by　internal　factors（e

．

g．

，

　subject

’

ssatiation 　leve旦

f（）rthe 　rewards ）

．

We　recently 　

demonstrated

　that　the　_proportion　ofmonkey

’

s　non

−

choice 　instrumental　a⊂tion　is　weU

descr

童

bed

by

　a　modehn 　which 　the　sublective 　reward 　value _（i

．

e

．

，

　external 　variable _）is　multiplied 　

b

_アa　

decay

fUnction

accord 呈ng　to　water 　consumption （Le

，

　infとrence 　ofinternal 　variable ）

．

Based　on　this　model

，

　we 　introduce　motivation

−

al　value

，

　a　neural 　representation 　that　

provides

　a　

quantitative

　account 　of　the　interaction　of　external 　and 　internal　f註c

−

tors　on　instrumental　

behaVior

．

　Motivational　value 　includes　the　concept 　of　subjective 　value　of　a　rewarding 　outcome

，

the　neural 　representation 　of　which 　was 　

found

　in　monkeys 　brain　during　task　performance

，

　Motivational　value 　can also　describe　a　behaviora1　dysfunctien　in　the　depression　model 　monkey

．

Key 　words ：motivation

，

　reward

，

drive

，

　incentive

行動選択と価値

　主体の主観的価値に基づく意思決定の枠組みは

，

複数

の選択肢からの選択行動をよく説明できることから

，

行

動研究や脳科学研究においても中心的役割を担っている

（Rangel

_，

　Camerer

，

＆Montague

，

2008）

。

しかし

，

選択肢が

ない単

一

の行動を実行すべ _{きか}_否_{かの}_{判断}_{には} ，期待される報酬量や確率といった主観的価値を形成する外部変数だけでなく

，

判断する時点において主体がどの程度その報酬を必要とするかという内部状態も影響する。このような単

一

の行動を実行する／しないの意思決定を説明する要素として新たな価値の_枠組みが必要であると考えられる。これらと既存の主観価値との違い

，

そして対応する脳機能などについて述べる。

Corresponding 　author

．

　Department 　of　Molecular　Neuroimag

−

ing

，

　Molecuar　Imag 孟ng 　Center

，

4

−

9

−

l　Anagawa

，

　Inage

−

ku

，

Chiba　263

−

8555

，

Japan

，

　E

−

mail ：　_minamoto _{＠ nirs}

．

_go

．

jp

報酬量と報酬獲得行動との関係　まず

，

外部情報と内部状態を反映する行動測定を行うため

，

出来る限り単純で汎用性のある行動測定系を開発する必要がある

。

我々は

，

喉が渇いたサルが水を報酬として単純な反応が要求される行動課題を用いて

，

行動と外的または内的情報との関係を調べ _た _（Minamimoto ，　La Camera

，

＆ Richmond

，

2009）

。

サルは報酬の水をもらうために

，

レバ

ー

_{を握り}

，

_日の前のコンピ

ュー

タ画面に_表示

1

れた赤いタ

ー

ゲットが緑に変わるのを待って

，

握っていたバ

ー

を放すという単純な行動が常に要求される（Figure　IA ）。例えば

，

成功報酬として水が1

，

2

，

4

，

8 滴のいずれかの量だけ与えられる場合（reward 　size　task_：報酬

量課題）

，

報酬量はあらかじめ試行の開始時の手がかり刺激（CUE ）によって知らされる。正解すると次の試行に進み

，

1

〜

8滴のいずれかの試行がランダムで呈示される。サルにとってはとても簡単な課題であり，数日で課題を理解し

，

さらに2週間から1カ月訓練すると

，

目々安定した行動を見せる。しかし

，

いくら訓練してもバ

ー

を早く放しすぎる

，

あるいは 1秒以内にバ

ー

を放さ

Copyright

　2013

，

The

lapanese

Psychonemic

Seciety

．

　All　rights　reserved

．

(2)

The Japanese Psychonomic Society

NII-Electronic Library Service

The 　Japanese 　Psyohonomio 　Sooiety

南本：_単

一

_{行動を決める動機価値} 183

ATou

⊂ （

BO

」 OOO 崘　　 O 寸　　 O 甲り　　 ON

〔

ぎ

｝

国〇一匣

一

麟 ⊃

←

匡 O

尸

o Reward　51ze　R 　砲 1drOP 尋 2drops ■ 4drops → 8drOPST ／華

肖

ゴ

蕁

’

　i 　　　薄　

罹

　　　 t

e ．

O

、

99

ヂ

　　　！

　　竃

MTTTI

O　　　　O

．

5　　　　 1 　Saturation　@Ievel　

Figロre 　

L

　Behavioral 　task 　and 　data．　

A

．　Sequence 　

o

　events 　in　the　reward 　size　task　with　incentive 　cue．　

Th

　trial　in　two 　drop　size　condition 　were　shown．　

B

．　Effect　o 　saturation 　level （

S

）　on　refusal　rate　（

E

）

，　Percentage 　o 　r¢ 血sal　trial （mean ±SEM ）lbr　each 　reward 　size_（gra 　scale ）as　a　function 　

of

　saturation 　level，　

The

　superim

　posed　curves　are　the　best　fit　ofEq．（2）to　the　da

ないという不成功な試行が時々ある（この場

合

は，じ試行条件が繰り返される）。このような不成功試はサルがその試行を完遂させる

の

を

やめ

，

’拒否’ たと解釈した。この拒否が発生する

試

行の割合，拒率は報酬量が増えるにつれ減少する。興

味

深いこと，拒否率E と報酬量

R

との間に反

比

例関係があ

り

，由パラメータ

a

を用いて式（1 ）のよに

記

述きる。

E

＝⊥ 　

aR

（1 ）

こ

こで強調したいのは，実験者が比例関係になるようにサ

ル

を訓練した訳ではなく，然発生的に多くの個体でこのような反比例の関係が察される

と

いうことである。また，報酬量が少ない反応時

間

が長くなる傾向があるが，ほとんどの

成

功試において反

応

時間は

o

．

6

秒以内で

あ

り，拒 _否

は反

応

間が延長した“運動エラー

tt

ではないようだ。な反比例になるか

の

理由は未だ理解できていないが，来的な脳内の仕組み根付いていることは間違いない。報酬価値の減少

と

報酬

獲

得行動_の関_係報酬_量課題，

毎

日，サルが喉が渇いた状

態

で開始され，喉の渇がある

程

度癒え，次の試行を始めなくなるまで

1

〜條

ﾔ

続けられる。この間の喉が渇いた状態から渇き癒えるまでの内部状態の変化に伴って，

サ

ルの水対

す

る欲求度は減弱するはずである。言い換え

る

と

1

滴の水_{に対す}る価値が減少するであろう。この報酬価値の

減

少

devaluation

）

の

効果を調べるために，課閧

ﾅ

獲得し

た

総報酬量を

1

，課題開始時を

0

とする充足率を定義し，報酬を獲得して充足率が上昇するのにしたがって拒否率がどのよ

う

に変化するかを調べた。すると充足率の上昇に従って_，拒否率がしだい

に

高く

な

ってい

く

ことがかる（

Figure

IB

）。また，拒否率と 1 〜

8 滴

報酬量との反比例関係が保存されていた。1 滴の価，つまり水の欲求度が充_足率S に従って減少するシグイ _{ド関数}

F

（

S

）を仮定すると，すべての拒否率

E が

酬量と

欲

度関数F_（S_）用いて（

2

）

で

説明できる。　　

1E

三　aRF

S

）（

2

）つま

り

，試行

ご

とに変化する報

酬

量 R ，っくりと変化する欲求度関数F （

S ）

，そして一つ自由パラメータ

a

からなる数式で報酬獲得行動が記述きる。ここで欲

求

関数F

（

S）

は

自然現

象

記述に_よ

く

いられるシグモ

イ

関数をいた。　

1

＋ ε

一

｛s −

s

〕 ’ σ

F

（

s

）＝ @　　

1

＋

eS

・「

a

（

3

）ここで，Se は変曲，σは変動のシャープネスを示す。この式（3 により，テストしたすべての個体における充足率の

上

にともなう拒否率の上昇が説_明できた。　この式（ j はあくまでも経験的なモデルであ

る

ため，その生学的妥

当

性について検証する必要があろう。サルをむほ乳類は恒常性を保つため，体液の浸透圧に

つ

いも一定 _{に保} _つ_{ように様}

々

_{な器}官が協調して働い

て

い。脳には体液の浸透圧

を

感受する器官があり，浸透圧

ｪ

高い場合（脱水時），個体の_喉の渇きを催し，適

切

な浸透圧保てるように，水分摂取行動を行わせる

と

いう働き示され_ている（Bourque ， 2008 ）。報酬量課を行ってい_るサルから繰り返し採血を行い，血中の透

圧

濃度と拒否率との関係を調べたところ，同じ報条件でも浸透圧が高い，っまり脱水

度

が高くな

る

と拒否率が

低

く，浸透圧

が

くなると拒否率が上昇するという相関関係

が

認められた

Minamimoto ，

ada

，　Hori ，＆ Su

ra

，

2012

）。このことは報酬獲得行動において浸透圧濃度が水報酬の価値を決める内部情報としていられている可能性を示唆す

(3)

NII-Electronic Library Service 184 _{基礎心理学研究}_第31巻　第2_号

？

　　　　 O σう　　 O 創　　 O 尸

（

承

）

Φ

一

応

」

「

邸 oり ⊃

舮

Φ ぼ O 　　 S − ■ 　　

0

3 ．

3 6 ．

9 10 ．

5 Delay

duration

（s）

Figure　2

．

Effect　of　predicted　reward 　size　and　delay

−

to

・

reward　on　refusal　rate

．

　Perc巳ntage　of　error　trials（mean

±_SEM ）as　a　

function

　of　delay　duration　ln　monkey 　CS 　in　the　reward

−

size

−

and

−

dela_アtask

．

　Filled　and 　open 　cir

−

　cles　correspond 　to　l　and 　4　drops　ofreward

、

　respective

−

　ly

．

　PuIl　black　lines　and 　dashed　_gray　curves 　are 　the　best

且tof　Eq＆（6）and （7）

，

　respectivel _）r

．

遅延

価値割引

による

主観

的価値と

　　　報酬獲得行動

の関係　単純な行動の実行／拒否は報酬の量や種類だけでなく

，

行動した後どの程度時間おくれて_報酬が与えられるかにも大きく影響をうける。

一

般に時間遅れが長いほど

，

行動はおそく

，

不正確になる

。

では

，

サルの報酬獲得行動はどのように影響を受けるだろうか？　成功試行のあとすぐに報酬を与えるだけでなく

，

報酬遅延もある

課題に変更した（reward 　_size

−

_and

−

delaytask

；報酬量

一

遅延

課題）。この課題においてサルは固有の手がかり刺激か

ら

，

報酬量（2段階）と報酬遅延（4_{段階）}の_両_方の情

報を知ることができる（Minamimoto

，

　La　Camera

，

＆Rich

・

mond

，

　2009_）_。

一

_頭の結果をFigure　2に示したが

，

ご覧の通りサルの拒否率は遅延時間に対して直線的に増加している

。

また

，

同じ遅延時間であっても

，

報酬量が1！4になると拒否率が _{4 倍}になるという反比例関係が保たれている。このサルの場合

，

報酬が4滴の場合でも

，

わずかな_{遅延}時間があることがわかると

，

すぐに与えられる1 滴の試行に比べ _よ_{り拒否}_{する}_{割合}_が_高いことがわかる

。

つまり

，

このサルにとって水報酬の価値がわずかな遅延時間で大きく減少するのだ

。

直感的に分かり難いかもしれないが

，

小さな子供が目の前のおやつを10秒我慢するところを想像していただきたい

。

　このように遅延によって報酬の価値が低下してしまう現象を遅延価値割引（delay　

disceunting

）といい

，

_{心理} 学

・

行動分析において多くの研究がなされている。遅延によって報酬の主観的価値がどのように変化するかを表すモデルである割引関数が複数提案されており

，

代表的

なものに双曲線型（hアperbollc　fun¢tion）

，

指数型（expo

−

nential 　function_）があげられる。双曲線型割引関数は次の式で表される。 V

＝

Af（1＋ kD）（4）ここで Vは遅延報酬の主観的価値

．

A は遅延0における報酬価値， D は遅延時間

，

そして

k

は割引率である。ヒト

・

動物を対象とした多くの遅延価値割引実験の結果において双曲線型害「_」_{引関数}がよく当てはまることが知られている（例えばMazur

．

1984）

。一

方

，

指数関数型の割引関数は

，

以ドの_式で_表される。 v

≡

Ae

−

kP （5）指数型割引関数は遅延時問に伴って価値が常に

一

定の割合で低下していくこごを仮定しており

，

経済学などの理論でよく用いられている

。

　さて_，サルで見られた報酬遅延と拒否率の直線関係はt これらの割引関数で説明できるのだろうか？　そこで式（1）の報酬量Rの代わりに主観価値 Vを代人する。その際式（4）のA （遅延0における報酬価値）をRとすると

，

E

＝

（1十kD）／aR （6）の式が得られる。この式（6）は拒否率 Eが遅延時間D に比例し

，

かつ報酬量Rの反比例関係を保存しているのだ。この式（6）はFigure　2のデ

ー

タをとてもよく説明する

。一

方

，

式（5）の指数型関数を組み込んだ場合

，

E； _ekD _／_aR （7）となるが_，この式の当てはまりは式（6）と比較して良くない場合が多い

。

つまり

，

遅延を導入するとサルの報酬獲得行動における報酬価値が遅延時間によって双曲線型に割り引かれることが分かる。また

，

この場合の行動の拒否率は

，

報酬量だけの場合と同様に充足率S上昇の過程において

，

欲求度関数F（S）を用いて

，

　　　　1＋

kD

　　 E＝　　　（8）　　　 aRF _（s_）のように記述できる

。

単

一

行動

の

実行

／

拒

否を

決

める

動機価値

このように

，

サルが報酬獲得のための単純な行動を満 N工工

一

Eleotronio _Library

(4)

The Japanese Psychonomic Society

The 　Japanese 　Psyohonomio 　Sooiety

南本：_単

一

_{行動}を決める動機価値 185 足するまで_繰り返し行う過程で_，期待される報酬量と報酬遅延の 2次元からなる外部変数そして水分欲求という内部情報を用いて

，

行動の拒否率が_{式（}8_）のように_記述できることをみてきた

。

式（8）において報酬量（R）

，

遅延報酬割引（11（1＋kD））

，

欲求度関数（F（S））の ₃要因が掛け合わされていることが分かる

。

この 3要因問の関係を保ったまま行動の決定因子として相応しい表現を探すと式（8）の逆数が思い浮ぶ

。

それを動機価値MV と_呼ぶことにする。

MV

−

1

罸

蹇

。・（・）

（・）動機価値は報酬量に比例し遅延報酬割引による主観価値を包含する

。

また

，

内部要因である欲求度関数（F（S））による価値減少の影響をうける

。

この動機価値MV は値が大きくなるにつれ

，

拒否率Eが小さくなり

，

行動が実行される確率が高くなる。また

，

この動機価値は行動から推定したものなので

，

定義上行動との ₁対1対応になるようにしておくため

，

報酬量

，

遅延と欲求度の 3要因だけでなくパラメ

ー

タa も必要である

。

パ _ラメ

ー

タa は 3要因による

“

報酬の主観的価値

”

（この場合は内部要因も加味されることに注意していただきたい_）から行動に変換する際の

’

変換効率

”

を表現するともとらえられる

。

動

機

価

値

の

脳内表

現と理用　さて

，

_報酬獲得行動を行っているサルの脳内において

，

動機価値に相当する神経情報が存在するのだろうか？　我々は

，

価値による行動選択

，

報酬や動機付けに関わるとされている線条体の尾状核に着目し

，

報酬量

一

遅延課題を行っている2頭のサルの尾状核より単

一

神経活動を記録した（Hori

_，

　Richmond

，

8【Minamimoto

，

2010）。

サルの拒否率より式（

6

）を用いて推定した遅延報酬割引により

，

各試行の報酬量

，

遅延から主観価値Vを計算して

，

その試行での尾状核の神経活動と比較した

。

すると

，

全体の約15％の神経細胞において主観価値と相関関係を示す活動が観察された。

一

方

，

同じ報酬条件に対するこの神経活動は，報酬獲得に従って変化なく

一

_定_であった。つまり尾状核の

一

_部_の_{神経細胞}_{によ}_り

_，

_{報酬量} と遅延による主観価値を表現するが

，

報酬獲得にともなう価値の減衰（devaluation）を含んだ動機価値は表現していないことがわかった

。

これらの尾状核での価値表現は報酬獲得行動の実行／拒否に直接関わるのではなく

，

価値による適切な行動の学習／選択や

，

行動の実行を早めるといったパラメ

ー

タに関わることが示唆される

。

また尾状核の主観価値表現はサルの拒否率で見られる報酬量と遅延の関係と非常によく対応することから

，

この価値情報が別の脳部位において欲求度と_掛け合わされ動機価値に変換されている可能性もある

。

　動機価値表現の

一

つの応用として_，

”

主体の気分

”

を記述できる可能性があげられる。例えば

，

うつなど意欲が減退する場合は

，

同じ報酬量や遅延といった外部情報

，

欲求度などの内部状態であっても

，

動機価値が低下して

，

_{拒否率}が上昇することが予測される

。

その場合

，

式（9）においてパラメ

ー

タa の減少が生じていることで説明できるかもしれない

。

我々の最近の研究において

，

意欲低下状態のサルに報酬量課題を行わせると

，

拒否率が上昇し

，

パラメ

ー

タaが減少していることが確かめられている

。

おわりに　動物の水分報酬獲得のために単

一

行動を要求した_場合

，

その_実行する／しないをよく説明する新たな枠組みとして

，

報酬量などの外部変数と欲求度の内部変数から計算される動機価値（motivational 　value ）という価値概念を提案した

。

この_動機価値は遅延報酬における主観的価値を包含し，動機価値の計算過程において主観的価値が脳内に表現されていることも見いだされた。さらに動機価値は

“

主体の気分

”

も反映し

，

うつなど意欲の減退状態にある動物の行動についても説明可能である

。

一

方で

，

拒否率と動機価値との間にある反比例関係とその背後にあるメカニズムについて明確な解釈はできていないe さらに行動指標である拒否率は複数の試行から構成される_{確率的}なものなので

，

試行ごとに動機価値から実行／拒否を決める仕組みを明らかにする必要があり

，

学習理論なども取り込んだより包括的な理論構築が求められる

。

行動課題を行っているサルからの脳情報計測

・

脳情報操作による脳メカニズム探索も現在進行中であり

，

外部

・

内部情報から行動にいたる脳での動機価値の情報表現

・

計算処理などの脳メカニズムが

，

理論と対応した形で解明できることを目指している。

引

用

文献

Bourque

_，

　C

．

　W （2008）

，

　Central　mechanisms 　of　osmesensation

　and 　systemic 　osmoregulation

．

　Nature　Revゴew　Neuroscience

、

　9

，

519

−

531

，

Hori

，

　Y

，

　Richmond

，

　B

．

1．

，＆ Minamimoto ，　T （2010）

．

　Neural

　codillg　of　_pred亘cted　and　experienced 　outcome 　value 　with

　temporal　discounting　in　the　primate　caudate 　nucleus

．

　Neu

−

　rσ5‘iens　Research

，

5u_∫_「

plement

，

68

，

　e295

・

Mazur

，

L

　E

．

（1984）

．

Tests

　of 　an 　equivalence 　rule 丘）r　

fxed

　and 　variable 　reinf 〜｝rcer　delays

．

Journai

（）

fExperimental

　Psycholo

一

(5)

186

_{gen,llimpt#-xng31gij25}

gy:Anin:alBehavior Processes,10,426-436.

Minamimoto, T, La Carnera, G.,& Richmond, B.

J,

(2009).

Measuring and modeling the interactionamong reward

size, delayte reward, and satiation levelon motivation in

menkeys.

Journal

ofIVeuropP-,siology;

101,437-447,

Minamimoto, Z,Yamada, _H.,_HorL _Y, _& _Suhara,_T.

(2012).

Hydrationlevelisan internalvariable

for

computing

vation to obtain water rewards in monkeys, Experimentat

BrainResearch,218,609-618.

RangeLA,,Camerer,C.E,&Montague,PR.

(2008).

A work

for

studying theneurobielogy ofvalue-based decision

単一行動を決める動機価値(日本基礎心理学会第30回大会)

，

，

．

，

−

講演論文

単

一

行 動

を

決

め る

動機 価値

南 本 敬 史

Motivational

determinant

for

action

Takafumi

MINAMIMoTO

−based

decision

−

both

behavioral

，

describe

from

based

．

，

decision

be

，

be

by

．

g．

，

，

probabilit

，

．

g．

，

’

．

demonstrated

’

−

descr

bed

by

．

．

，

b

decay

fUnction

，

，

．

，

−

，

provides

quantitative

−

behaVior

．

，

found

，

．

，

，

drive

，

，

行動

める

動機価値

南　本　敬　史

_g．

_，