行動選択における反応間間隔と 遅延時間の影響
期待報酬量が一定の状況での反応間間隔分布と 系列依存性および遅延価値割引判断について
川嶋健太郎
i
目次
第 1 章 序論 ... 1
1.1 遅延と待ち時間 ... 1
1.2 本論文の目的と構成 ... 4
第 2 章 研究史 ... 8
2.1 対応法則と最大化 ... 8
2.2 反応間間隔について ... 21
2.3 遅延価値割引 ... 29
2.4 まとめ ... 40
第 3 章 研究1:反応間間隔と報酬量についての実験心理学的研究 ... 43
3.1 実験1:S字型報酬量増加(SRAI)スケジュールでの実験 ... 57
3.2 実験2:直線型報酬量増加(LRAI)スケジュールでの強化確率の影響についての実験 ... 69
3.3 総合考察 ... 82
第 4 章 研究2:反応間間隔と強化確率,および系列依存性についての実験心理学的研究 ... 109
4.1 実験3:強化確率により単位時間報酬量を一定にしたスケジュールでのIRT分布と IRT系列依存性 ... 117
4.2 実験4:IRT系列依存性の学習期間による変化についての実験 ... 124
ii
4.3 実験5:vSRWスケジュール下でのIRT変動性 ... 130
4.4 総合考察 ... 142
第 5 章 研究3:遅延価値割引における利子率・インフレ率の効果についての実験心理学 的研究 ... 151
5.1 実験6:インフレ率の効果についての実験 ... 164
5.2 実験7:利子率の効果についての実験 デフレ状況 ... 176
5.3 実験8:利子率の効果についての実験 インフレ状況 ... 181
5.4 実験9:実質利子率一定の実験 ... 186
5.5 総合考察 ... 191
第 6 章 総論 ... 213
6.1 各研究のまとめ ... 213
6.2 IRTと遅延 ... 215
6.3 時間に応じた報酬量の増加と時間の価値について ... 216 文献 220
謝辞 236
1
第1章 序論
1.1 遅延と待ち時間
現代社会で生きる私たちにとって,実際に行動した直後にその報酬を受け取ることはほ とんどない.むしろしばらく時間が経ってから報酬を獲得するほうが多いといえる.例えば 春に種をまいても収穫をするには秋を待たなければいけない.会社で働いても給料が支払わ れる給料日まではお金が足りなくても我慢する.大学への受験勉強をしても大学に行けるの は合格してからである.株式に投資しても売却益を得るのは大抵数カ月から数年後である.
銀行に預金して利子を得るには半年から1年はお金を預け続けなければならない.このよう に報酬を得るための行動や選択をしてから報酬を実際に得るまでの時間のことを遅延とい う.
多くの人はできることならすぐに報酬がほしいと思うだろう.仕事をしたらそれに合わ せて給料が支払われたらすぐに買い物や遊びに行ける.もしも報酬がもらえるまでにあまり に時間がかかる場合には,その時間をかけてまでやらなくなるだろう.例えば今働いた分の 給料が10 年後に支払われるとしたら,金額にもよるが多くの人はその仕事をしようとはし ないだろう.このように遅延によって報酬の価値が低下してしまう現象を遅延価値割引とい い,多くの研究がなされている.一般的な遅延価値割引実験においては,例えば10年後の 100万円と今すぐもらえる80万円のどちらが欲しいか,質問する.今すぐもらえる金額を 数種類用意して質問することで,10 年後の100万円と同じ価値を持つ,現在の金額が測定 される.遅延価値割引実験は直後の報酬と遅延された報酬の間の選択であり,遅延時間も報 酬金額もあらかじめ決められていて遅延中に変化することがない.このような固定された遅 延と報酬の例としては,給料日が決まっている仕事の給料や開催日が決まっているイベント のチケットなどが挙げられるであろう.
しかしよく考えてみると日常生活では同じように報酬を獲得するまでに時間がかかると しても自分でその時間を決めることのできる場合があることに気づくだろう.例えば株式に 投資した場合には(配当を別に考えて)購入した株式を売るまでは売却益を獲得することがで きない.だが株式を購入した後にはいつでも売却できるため報酬を獲得するまでの時間を自 分で調整できる.自分で時間を決められるのになぜ早く報酬を獲得しようとしないのだろう か?
すぐに報酬を獲得できるのにしばらく獲得しようとしない理由のひとつは待っている時 間に報酬に何らかの変化が起こっているためと思われる.魚を網で取る場面を考えてみよう.
図 1-1は時間経過に伴う網の中の魚の量を仮想的にあらわしたものである.網を仕掛けてか らすぐには魚の量は少ない.網を引き上げるまでの時間が長いほどおそらく魚はたくさん網
2
に入っているだろう.そこで漁師は網の中に魚がある程度たまったと見込めたら網を引き揚 げる.網を仕掛けて待っている間に報酬である魚の量が増加するからこそ網を仕掛けたまま 待っているのだと考えられる.もしもいくら待っても網を仕掛けた時点での魚の量から変化 しないならば網を仕掛けてすぐに引き上げてしまうだろう1.このような待ち時間中に報酬 量の変化を伴う状況は他にもある.例えば銀行に預金をした場合もそうである.銀行に預金 をすると一定時間ごとに利子が追加される.いつでも銀行から預金を引き落とすことができ るので,銀行に預け続けるか預金を引き落とすのかは常に預金者の判断にかかっているとい えよう.
また報酬の量以外にも待ち時間の間に報酬がもらえる確率が上昇する場合なども考えら れるだろう.例えば電話で勧誘をする際に,同じ人に何度も何度も繰り返し電話をするより も,しばらく時間をおいてから電話をかけようとするだろう.電話をしなければ契約という 報酬を得ることはできないが,あまりに高頻度で電話をすると敬遠されてしまう.しばらく 電話をしないで待っている時間の間に次の電話で契約を獲得できる確率が上昇しているの だと考えられる.またWeb サイトをチェックして新着情報がないかを調べることも一つの 例であるといえよう.一度見てからすぐにまたそのサイトを訪れても新しい情報はないだろ う.しかし1日や2日待っていると新着情報が見られる確率が高くなる.
図 1-1 時間経過に伴う網の中の魚の量の変化(仮想)
ここで気をつけたいのは,このように報酬を獲得するまでの時間を自由に決められる場 合にはどの行動に注目するかによって同じ時間でも意味が少し異なることである.魚を網で 取る例で言えば,網を仕掛ける行動に注目すると,網を仕掛けてから引き揚げるまでの時間
1 このような状況に当てはまる漁は投げ網漁であろう.網を投げたらすぐに引き上げている.
網の中の魚の量
網 を 仕 掛 け る
網 を 引 き 揚 げ る
網 時間 を 仕 掛 け る
網
を
引
き
揚
げ
る
3
は遅延といってよいかもしれない.網を仕掛けるという行動をしてから実際に報酬である魚 を獲得するまでに時間がかかっているからである.一方,網を引き揚げる行動に注目すると 網を仕掛けてから引き揚げるまでの時間は遅延とはいえない.網を引き揚げるとすぐに報酬 である魚が獲得できるからである.むしろ網を引き揚げる行動に注目すると,この時間は網 を引き揚げるまでの待ち時間であると考えられる.
一方,遅延価値割引実験の場合のように報酬を獲得するまでの時間と報酬量が固定され ていたとしても,時間経過に伴う報酬の変化による影響というものは実際にはありうるだろ う.例えば,10年後の100万円と今すぐもらえる50万円のどちらが好ましいか選択する状 況を考えてみよう.10年後の100万円は固定されているにしても,今すぐもらえる50万円 の使い道については固定されていない.例えば今すぐもらえる50万円をすぐに銀行で年率
10%の定期預金に預けたとしよう.10年後にはその50万円は約130万円になる(図 1-2).
もしも遅延価値割引実験での選択肢が現実に提供された場合には,今すぐもらえる50万円 を今すぐ使うか,10年後の 100万円を選ぶかという通常の選択肢のほかに暗黙的に,しば らくどこかで運用するか,という3つ目の選択肢が提示されていることになる.上記の例で は今すぐもらえる50万円を運用したほうが得なので,10年後の100万円が選ばれる可能性 は低いだろう.このことは遅延された報酬の現在の価値にも時間経過による直後の報酬の変 化は影響を与えることを意味している.今すぐもらえる50万円を運用したほうが10年後の 100万円よりも得ならば,10年後の100万円の現在の価値は今の50万円よりも低くなるか らである.年率10%の定期預金に入れれば約38万円が10年後には100万円になる.この ため非常に合理的な被験者であれば10年後の100万円の現在の価値を約38万円と判断す るだろう.
図 1-2 遅延価値割引実験における時間経過による報酬の変化
0 2 4 6 8 10
50 100 150
時間 ( 年 )
すぐもらえる金額 ( その後預金 ) 遅延された金額
金額 ( 万 円 )
4
1.2 本論文の目的と構成
以上のように報酬を獲得するまでの時間には遅延価値割引実験において一般的に用いら れているような固定的で変更することのできない遅延と,自由に変更することのできる一種 の待ち時間の 2 種類があると思われる.またこの時間経過に伴う報酬の量や獲得できる確 率・報酬の価値の変化は人間の行動の選択や判断に影響を与えるものと思われる.しかし第 2章研究史でも述べるが,これまで時間経過に伴う報酬の様々な変化が行動に与える影響を 調べたものはほとんどないといってよいだろう.遅延の間に約束された報酬が減らされてし まうかもしれないとしたら,もしくは額面上は約束された報酬が支払われたとしてもその実 質的な価値がほとんどなくなってしまいそうなら,私たちはどう行動し,判断するのだろう か?また待てば待つほど報酬の量が増加するならば,私たちはずっと待っているのだろう か?それとも途中でがまんができなくなって待つのをやめるだろうか?本論文の研究では 以上のような問題意識に基づいて実験的な手法を用いて調べていく.
本論文の目的は報酬を獲得するまでの時間によって報酬の量や確率・価値が変化するこ とが人間の行動選択・判断にどう影響を与えるのかを実験的に調べることである.これに付 随して反応間間隔(interresponse time: IRT)の系列依存性の有無とIRT変動性を制御できる のかについても検討する.報酬を獲得するまでの時間を被験者が自由に決められる待ち時間 についてはフリーオペラント実験により,固定された遅延については遅延価値割引実験によ り検討する.フリーオペラント実験における IRT を本論文では待ち時間としてとらえてい る.IRTはオペラント反応についての重要な時間的指標の一つで,反応キーへの反応と反応 の間に経過した時間である.フリーオペラント実験では被験者が自由に IRT の長さを決め ることができるため,IRTは一種の待ち時間とみなすことができると考える.
図 1-3は本論文の問題意識と3つの研究の相互関係をまとめたものである.報酬獲得ま での時間には自由に決めることのできる待ち時間と固定されている遅延の 2 種類があると いう本論文での問題意識に基づき,研究1・2では待ち時間としてIRTを,研究3では遅延 を取り上げている.また報酬獲得までの時間経過中に起こる報酬の性質の変化が行動・選択 に影響を与えるという問題意識に基づき,各研究ではそれぞれ異なる報酬の性質の変化を検 討した.研究1ではIRTに応じて報酬の「量」を研究2では「強化確率」を変化させる.
また研究3においては仮想的な経済におけるインフレ率によって報酬の実質的な「価値」を,
また利子率によって報酬の「量」が遅延時間に応じて変化させる.
取り上げた報酬までの時間が異なることにより各研究において得られるデータ・分析方 法も異なっている.研究1・2ではIRTを取り上げたことにより,強化スケジュールのもと での被験者個人の行動データが得られる.これを詳細に分析することで,報酬獲得までの時 間経過に伴う報酬の変化が行動にどのような影響を与えるかを基礎的な側面から調べたい.
研究3では遅延時間を取り上げており,遅延報酬の主観的価値・選択に関するデータが得ら れる.経済学的な観点から報酬の量や実質的な価値を操作していることから,より応用的な
5
側面から報酬までの時間経過に伴う報酬の変化の影響を検討していく.
また3つの研究で行われる実験では客観的な基準からみるとどの時点も同じ価値となる ように設計された実験条件を入れるようにしている.このような実験条件で特定の時点での 反応が多かったり,特定の報酬量が選択されるならば,その時点やその報酬量が主観的に見 ると最も高い価値を持つであろうと考えられる.本論文における客観的基準とはフリーオペ ラント実験においては単位時間当たり報酬量(強化率)であり,遅延価値割引実験においては 名目利子率による指数関数的な割引である.
第2章では本論文の3つの研究に関する過去の研究について論じる.最初に3つの研究 それぞれに関係が深い「2.1対応法則と最大化」についてまとめる.ここではIRTを一種の 遅延・待ち時間とみなすことで対応法則と最大化という対立する理論が結びつく可能性につ いて論じる.次に「2.2反応間間隔について」では研究1および研究2において検討されて いる IRT についての理論とこれまで得られた代表的な実験結果についてまとめる.また研 究2で追加的に調べられるIRT 系列依存性・変動性の測定方法や個人差についての研究を 紹介する.最後の「2.3 遅延価値割引」では遅延価値割引研究で用いられる各種の割引関数 や経済学の分野での時間割引研究との関連,遅延価値割引に影響を与えるさまざまな要因に ついて論じている.
図 1-3 本論文の問題意識と3つの研究の相互関係 問題意識
・報酬までの時間には 2 種類ある 1. 自由に決められる「待ち時間」
2. 固定された「遅延」
・時間経過に伴う報酬の性質の変化
行動・選択にどう影響する?
研究 1:IRTに応じて報酬量が増加する
研究 2:IRTに応じて強化確率が増加する 報酬までの時間が
自由に決められる待ち時間の場合
基礎的・行動的データから時間が 行動に与える影響を検討
研究 3:
・遅延時間に応じてインフレ率により 報酬の価値が変化
・遅延時間に応じて利子率により 報酬量が増加
報酬までの時間が 固定されている遅延の場合
応用的・選択データから時間が 価値判断に与える影響を検討
遅延価値割引実験パラダイム 選択について検討
フリーオペラント実験パラダイム 行動について検討
6
第3章の研究1「反応間間隔と報酬量についての実験心理学的研究」ではIRTの長さに
よって報酬量が増加する強化スケジュールを用いたフリーオペラント実験を行う.報酬を獲 得するまでの時間は IRT であり,時間経過とともに変化するものは報酬量である.魚を網 で取る例ではいつでも網を引き揚げることができるのに引き揚げないで待つ理由の一つと して網の中の魚の量が増加することを指摘した.同様に研究1において被験者は自由にIRT という一種の待ち時間の長さを決めることができ,IRTの長さによって獲得できる報酬の量 が増加していく.研究1の目的は①被験者が単位時間当たりの報酬量を最大にするような行 動(特定の長さのIRTでの反応)を行うのか(実験1),②どのような長さのIRTであっても単 位時間当たり報酬量が一定である状況で被験者がどの長さのIRTでの反応を行うのか(実験
2),を検討することである.研究1の最後にはIRTを一種の遅延・待ち時間とみなした場合
に各実験の結果を説明するIRT割引モデルを提案する.
第4章の研究2「反応間間隔と強化確率,および系列依存性についての実験心理学的研
究」ではIRTの長さによって報酬を獲得できる確率(強化確率)が変化する強化スケジュール を用いている.報酬を獲得するまでの時間は IRT であり,時間経過とともに変化するもの は強化確率である.研究 2の目的は①強化確率が IRT に応じて変化することで,どのよう な長さの IRT であっても単位時間当たり報酬量が一定である状況で被験者がどの長さの IRTでの反応を行うのか(実験3,4),②IRTに系列依存性があるか(実験3,4),③IRT系列 依存性により個人差を特徴づけられるか(実験 3,4),④強化スケジュールにより IRT 変動 性を高められるか(実験5),を検討することである.IRT 系列依存性と変動性については第 2章研究史で紹介する.
以上の研究 1・2 により報酬獲得までの時間を被験者自身が自由に決められる場合につ いてはある程度検討できるといえよう.報酬の量と強化確率は時間経過に伴う報酬の変化と して主たるものであるからである.そこで研究3では報酬獲得までの時間と報酬量が固定さ れている場合について検討したい.たとえ遅延された報酬が固定されていたとしても,その 遅延時間中の直後の報酬の変化などによって遅延された報酬に対する価値判断が変化する ことを示したい.
第5章の研究3「遅延価値割引における利子率・インフレ率の効果についての実験心理
学的研究」では仮想的な貨幣を使うシミュレーション的実験課題を用いてインフレ率・利子 率といった経済的要因が遅延価値割引判断に与える影響を調べている.報酬を獲得するまで の時間は遅延であり,時間経過とともに変化するものは直後の報酬の量および直後・遅延報 酬双方の実質的価値である.インフレ率・利子率という要因を遅延価値割引実験に加えるこ とで,時間経過に伴う直後報酬の量の変化などを制御することが可能になる.研究3の目的 は①利子率により時間経過に伴って直後報酬の報酬量が増加すると遅延報酬への価値判断 が影響を受けるか(実験7,8),②客観的な基準では同一の判断をするべきであるときに,イ ンフレ率による見た目の変化が遅延報酬への価値判断に影響を与えるか(実験 6),③購買力 という実質的な価値が等しい時に,利子率やインフレ率は遅延報酬への価値判断に影響を与
7
えるか(実験 9),検討することである.最後にインフレ率・利子率の遅延価値割引への影響 を含めた2つのモデルを提案する.
第6章では3つの研究をまとめて,報酬獲得までの時間と時間計画に伴う報酬の変化が 行動選択や価値判断にどのように影響を与えるのかを考察する.
8
第2章 研究史
ここでは本論文の3つの研究と関連するこれまでの研究について論じる.最初に3つの 研究それぞれに関係が深い「2.1 対応法則と最大化」についてまとめる.行動分析において 対応法則と最大化理論はその理論的な精密さや適応範囲の広さなどから最も重要な理論と なっている.ここでは対応法則と最大化という対立する理論をつなぐものとして反応間間隔 (interresponse time: IRT)の長さによる遅延という考えがあることが示される.次に「2.2 反応間間隔について」では研究1および研究2において検討されているIRTについての理 論とこれまで得られた代表的な実験結果について簡潔にまとめる.IRTを研究対象とする場 合に注意するべきことが示されるだろう.さらに連続した IRT が相互にどのような関係が あるのか,その測定方法や個人差についての研究やIRTのばらつきの程度(変動性)について の研究についても簡単に述べたい.最後の「2.3遅延価値割引」では遅延価値割引研究で用 いられる各種の割引関数や経済学の分野での時間割引研究との関連,遅延価値割引に影響を 与えるさまざまな要因について論じる.
2.1 対応法則と最大化
この節では本論文での議論と深い関係のある実験的行動分析における対応法則と最大化 理論について紹介する.2つ以上の反応キーに対する相対反応率1あるいは単一の反応キーに 対する反応率については,それぞれを基本的な反応指標として膨大な数の実験が行われてい る.特に相対反応率については,それぞれの反応キーに結び付けられた強化スケジュールま たは強化子のどちらを選好するかをラットやハトはもとより人間でも明確に測定が出来る ことから実験による知見も非常に多く,それを説明する理論も重要である.
対応法則(matching law)と最大化理論(maximization)は強化スケジュールと反応率・相 対反応率の関係を説明する理論である.両者は対立しており,それぞれの理論家の間でどち らの理論が基本的な実験結果をよりよく説明するか多数の議論がある.また大きく分けて対 応法則,最大化理論の2つとして述べたが,どちらの理論でも基本的な考えは同じでもいく つかの点で異なる理論が複数あり,多数の実験を生み出す原動力の一つにもなっている.
選択および強化スケジュールのもとでの行動についての理論には大きく分けて巨視的
(molar)理論と微視的(molecular)理論の2種類がある.巨視的理論は主に平均的で集約的な
行動指標,例えば強化スケジュールのもとでの反応率と強化率との間の関数的関係を扱って いる.巨視的な理論である対応法則では,被験体の相対反応率と相対強化率は対応すると考
1 相対反応率(relative response rate)とは全体の反応数に対する,ある反応の割合である.例えば,反応A とBがあった場合の反応Aの相対反応率とは,反応Aの反応数/(反応Aの反応数+反応Bの反応数)とな る.
9
える.例えば,variable-interval(VI)スケジュール1のもとでの反応率はオペラント反応とそ れ以外の測定されていない行動をそれらの相対的な強化量に対応するように配分されると 説明される(Herrnstein, 1970).
一方,微視的理論は一つ一つの行動と強化の結果として,スケジュールのもとでの行動 が現れていると考えている.例えば,IRT や強化間隔(inter-reinforcement-interval: IRI),
強化にいたるまでの残りの反応数といった局所的な指標から,反応率といった集約的な指標 を導き出すことが目標となる.特にIRTに対する強化は微視的理論の一種であるIRT強化 理論での重要な要因と考えられる.
これから紹介する対応法則と巨視的最大化理論は巨視的な理論であり,強化率または相 対強化率から反応率・相対反応率を予測する.しかし両者の立場は異なっており,対応法則 では相対強化率が相対反応率と一致するという記述的な立場であるのに対し,巨視的最大化 理論では強化率を最大化するという目的のために相対反応率を調整していると考える目的 論的な立場にある.またここで紹介するメリオレーション理論,瞬時最大化, 微視的最大化 といった理論は微視的な理論であり比較的局所的な強化率を高めるといった過程から巨視 的な指標である相対強化率と相対反応率の対応が導かれると考える.ただし微視的理論の中 でも互いに立場は異なっている.
この節の最後では対応法則と最大化理論を結びつけるものとして,IRTを遅延とみなす ことを提案している研究について紹介する.
2.1.1 対応法則とは
1) 並立VI・VIスケジュールでの相対反応率
Herrnstein (1961)は動物の選択行動の研究から,動物の2つの選択肢にたいする相対反
応率はそれぞれの反応から得られた強化子の比率と一致しているという対応法則を提案し た(Herrnstein, 1970; Mazur, 1998).並立VI・VI(concurrent VI・VI)スケジュール2におい て平均強化間隔のさまざまな組み合わせで実験を行うと,それぞれのVIスケジュールに対 する相対反応率は相対強化率と一致することが知られている.図 2-1は対応法則が成立した 場合の相対反応率と相対強化率の関係を模式的に示したものである.
1 VIスケジュール(変時隔スケジュール)では前回の強化から平均して一定時間経過した最初の反応を強化 する.例えばVI30sでは前回の強化から平均して30s(ある場合は2s,別の場合は40sのように変動する) 経過した後の最初の反応に強化子を与える.
2 並立スケジュールでは2つの強化スケジュールを同時に提示する.例えば並立VI20s VI40sスケジュー ルでは2つの反応キーの一方ではVI20sスケジュールに従って強化子を,もう一方の反応キーにはVI40s スケジュールに従って強化子が提示される.
10
図 2-1 並立 VI・VIスケジュールでの右キーへの相対強化率・相対反応率の模式図
Herrnstein は以下の数式による対応法則を提案した(Herrnstein, 1961; Herrnstein, 1964; Herrnstein, 1970).
2 1
1 2
1 1
R R
R B
B B
= + +
2-1
ここでBは反応数,Rは強化数であり,添え字は選択肢(反応キー)を表している1. この数式は,全体の反応数に対する選択肢1への反応の割合は,全体の強化数に対する 選択肢1への強化数の割合と一致するということを示している2.
また式2-1は簡単に
2 1 2 1
R R B B =
2-2
と整理できる.この表し方では反応数の比は強化数の比に一致することが強調されてい る.分子・分母それぞれに選択肢1・2についての項が整理されていること,および以下で 見るように強化数以外の要因を追加しやすいため,この表記を以降使用したい.対応法則は 強化回数についてだけではなく,強化のそのほかの次元,例えば強化の遅延,強化子の量に
1 Herrnstein (1970)では反応数はP,強化数はRを用いて表記している.Bは単位時間当たりの全体反応 率,Rは単位時間当たりの全体強化率とする場合が多い.その場合でも式2-1の関係は成り立つ.
2 反応数だけではなく行動の時間的配分の対応も成立することが知られている(Baum & Rachlin, 1969)
50%
100%
50%
100%
反応キーAでの強化の割合(%)
反応キーAへの反応の割合(%)
0%
0%
11
ついても成り立っている(Catania, 1963;Chung & Herrnstein, 1967).
2) 一般対応法則と過大/過小対応
対応法則は多くの実験場面でほぼ成り立つことが確認されているが,その一方でシステ マチックに対応法則から逸脱することも示されている.Baum (1974)は対応法則からの逸脱 として過小対応(undermatching)・過大対応(overmatching)・バイアス(bias)をあげている.
過小対応とは実際の相対強化率と比較して,相対反応率が一貫して0.5に近くなることであ る.Baum (1979)では多くの並立VI・VIスケジュールでの実験結果(23の研究から103セ ットのデータ)を次の一般対応法則に当てはめた.対応法則からの逸脱を再検討し,式 2-2 にバイアスを表すパラメータbと過小(過大)対応を表すパラメータaを追加した.
a
R b R B
B ⎟⎟⎠
⎜⎜ ⎞
⎝
= ⎛
2 1 2
1
2-3
これまで動物を被験体とすると多くの場合対応法則が成立することが報告されている.
しかし,人間を被験者とした場合には必ずしも対応法則は成り立たないことが報告されてい る(Horne & Lowe, 1993).
3) 単一強化スケジュールでの対応法則
Herrnstein (1970)は単一強化スケジュール(特に VIスケジュール)においての反応率に
ついても対応法則を応用することで説明できることを示した.一見,単一キー強化スケジュ ールでは反応キーがひとつしかないため,強化や反応数の比率を計算することは出来ないよ うに思われる.しかし,実験中には被験体・被験者はオペラント反応以外の行動もしばしば 行う.例えば,ラットやハトでは周囲を探索するような行動,毛づくろい,体の一部を掻く など様々な行動を行っている.これらの行動はその行動に伴う自然で生得的な強化子によっ て維持されていると考えられる.これは例えば背中をかいたりすると気持ちいいことからも 分かるだろう. これらの「他行動」をしている最中にはオペラント反応をすることは出来 ない場合もある.
Herrnstein (1970)では単一強化スケジュールにおける反応率は,オペラント反応から得 られる強化と他行動から得られる強化の比に対応しているとした.
0 1
1
1
R R
B kR
= +
2-4
12
図 2-2 Herrnstein (1970)による単一キー強化スケジュールでの対応法則
ここで B1は当該オペラント反応の反応率,k はパラメータ,R0はオペラント反応では ない,測定されない他行動からの強化率,R1はオペラント反応からの強化率である.
図 2-2はHerrnstein(1970)による単一キー強化スケジュールでの対応法則(式2-4)をあ らわしている.左のパネルAではkを100に固定したの場合にR0が50の場合(実線)と10 の場合(破線)とで1時間あたりの強化率によって1分あたりの強化率がどのように変化する か表している.同様に右のパネルBではR0を50に固定した場合にkが100の場合(実線) と 50 の場合(破線)を比較している.図からわかるように,どの場合でも強化率が高くなる にしたがって反応率も高くなるが,反応率の上昇は次第に小さくなる.強化率が非常に高く なっても反応率には上限がある.パネルAから他行動から得られる強化率が低いとオペラン ト反応は低い強化率でも高い反応率になることが分かる.また k は反応率の漸近値(上限)で あり,kの値の違いによって反応率に大きな違いがあることがパネルBからもわかる.
Herrnstein (1970)は式2-4をCatania & Reynolds (1968)のVIスケジュールでの結果 にあてはめたところ,非常によく当てはまることがわかった(de Villiers & Herrnstein, 1976).また人間を被験者とした単一強化スケジュールでの結果についても対応法則が多く の場合に成り立っていることが示されている(Beardsley & McDowell, 1992; Bradshaw, Szabadi, & Bevan, 1976; Bradshaw, Szabadi, & Bevan, 1977).
4) メリオレーション(Melioration)理論
対応法則はさまざまな選択実験の結果と非常によく一致している.しかし,なぜ相対強 化率と相対反応率が対応するのか?ということについて説明するものではない.対応法則だ けでは実験結果を記述することはできても説明することはできないのである.対応法則その
Reinforcement Rate Per Hour
Response Rate Per Minute
0 50 100 150 20020 40 60 80 100
k=100, R =10
0k=100, R =50
00 50 100 150 200
20 40 60 80 100
k=50, R =50 k=100, R =50
00
A B
13
ままでは説明できない現象として並立variable ratio (VR)1・VRスケジュールでの実験があ げられる(Herrnstein & Loveland, 1976).そこでVaughan (1981)ではメリオレーション理 論を提唱し,上記の対応法則の問題点を解決している.メリオレーション理論では人間や動 物は反応率と強化率の比が有利なほうを選択し,それは2つの選択肢で等しくなるまで行う と仮定している.
並立 VR・VRスケジュールの場合に,VRの値が小さく有利な選択肢のみが選択される ことをメリオレーションはうまく説明できる.VRスケジュールではその選択肢に対する反 応が増えても反応1回あたりの強化確率は一定のため,強化率と反応率の比は一定のままで ある.このため有利なVRスケジュールの選択肢は反応率が高くなっても有利なままである ため,有利な選択肢を選択し続ける.メリオレーション理論は反応率・強化率といった巨視 的な変数についての理論であるが,対応法則が成立していく過程を説明している点で微視的 な理論とも言える.
2.1.2 最大化理論
ここでは巨視的最大化理論,微視的最大化理論のそれぞれ代表的なものを取り上げ,簡 単に解説する.最大化(maximization)または最適化(optimization)は行動分析だけではなく,
むしろ経済学・ゲーム理論や行動生態学における基本的な考え方である.経済学・ゲーム理 論においては合理的な経済人は効用を最大化するような行動をとると仮定されており,行動 生態学においては適応度(子孫を出来るだけ多く残すことが出来ること)が高い個体が生存し ていると考えられることから,ある生物は適応度が最も高い行動を選択しているものとして 分析をしている.行動分析において最大化の対象になっているのは研究者によって異なって いるがほとんどの場合には強化率であり,ときに強化確率などのほかの指標である.
1) 巨視的最大化理論
巨視的最大化理論は比較的長い時間にわたる行動と強化との関係性を強化率(単位時間 当たり報酬量)の最大化という観点から説明するモデルである.巨視的最大化理論にはミク ロ経済学における消費者行動理論を選択行動および強化スケジュールのもとでの反応率の 分析に当てはめたものがある.経済学においても特に消費者行動理論は個人の意思決定を扱 う点から心理学との親和性が高い.例えば経済学において重要な概念である効用を測定する 方法は心理学における精神物理学的測定法である(ただし経済学者が効用を測定することは ほとんどない).
異なる強化子への反応の割り振りの変化の仕方は,ちょうど人間が予算10,000円内で2 つの商品にどれだけのお金を配分するかと類似している(Rachlin, Battalio, Kagel, &
Green, 1981).動物実験における1実験セッションでの反応可能な回数は人間にとっての予
1 VRスケジュール(変率スケジュール)では変動する反応回数ごとに強化する.例えばVR30ではあるとき は5回,別のときには40回反応すると強化子が与えられるが,平均して30回反応するごとに強化子が与 えられる.
14
算制約であり,強化子を獲得するための反応回数が変わることは人間にとっては商品の価格 が変化したことと同じとみなすことが出来る.このため経済学での消費者行動理論の分析方 法(無差別曲線分析)をほぼそのまま動物実験の結果に適用することが出来,2 つの強化子間 の代替性の分析,代替効果・所得効果などを求めることが出来る.
Rachlin (1978),Rachlin & Burkhard (1978)によると強化スケジュールのもとでの行動 は,強化子を得るための道具的行動(オペラント反応),強化子を消費するための完了行動,
他行動(余暇的行動, leisure)からなる.これら3つの行動はちょうどミクロ経済学での品物 と同様であり,実験試行での時間をそれぞれの行動に配分することで被験者・被験体は全体 的な効用を最大化すると考えた.Rachlin et al. (1981) では対応法則が成立する理論的な説 明および対応法則が成立しない現象の説明を提供している (Kagel, Battalio, & Green, 1995; 坂上, 1997) .
異なる観点による最大化理論も提案されており,Rachlin らと同様に様々な実験結果を 説明している.Baum(1981)は環境と被験体はフィードバックシステムを構成しており,被 験体は参照基準(reference criterion)からの逸脱を小さくするように行動を配分していると 考えた.Baum(1981)では並立 VI・VI スケジュールでの対応法則が導き出せること,およ び単一VIスケジュールでの反応率を説明できることなどが示された.
巨視的最大化理論では反応率に応じて強化率がどう変化するかを示す,フィードバック 関数が重要な要素になっている.例えば一定の反応回数ごとに強化が与えられるFRスケジ ュールであれば,反応回数に依存して強化子が提示されるため,反応率が高くなるほど強化 率が高くなるという直線的な関数が考えられる.しかし強化スケジュールの中でも特に重要 なVIスケジュールにおけるフィードバック関数が正確にどのような関数であるのかは定義 することは難しく,さまざまな形のフィードバック関数が提案されている(Baum, 1992;
Heyman & Luce, 1979; Nevin & Baum, 1980; Prelec & Herrnstein, 1978; Staddon &
Motheral, 1978) .フィードバック関数を確定できない理由としては被験者・被験体がどの
ような IRT 分布で反応するかによって同じ反応率であっても強化率は異なってしまうから である.
2) 微視的最大化理論
微視的最大化理論は被験体が行動する毎に強化率(回数など)を最大にするように行動す ると仮定したモデルである.巨視的最大化理論では実験セッション全体に関した指標(反応 率・強化率など)を扱っていたが,微視的最大化理論ではIRTや強化間間隔といった短い時 間に関した指標を扱っている.被験体が瞬間瞬間または行動する機会があるごとに局所的な 強化率を最大にするような行動を選択する結果として,実験セッション全体で見た強化率の 最大化または相対強化率と相対反応率の対応が観察されると考えられている.
Shimp(1966)はハトを被験体として,視覚的刺激による確率学習課題と並立 VI・VI ス
ケジュールに類似した選択課題を用いて,瞬時最大化(momentary maximization)が行われ ているか検討した.瞬時最大化では,被験体は選択の瞬間に強化確率の最も高い選択肢を選
15
択する傾向があると仮定している.このため2つの選択肢A0,A1があったときに,例えば P(A1|A0,A1)つまり A0,A1という順序で被験体が選択した状況で次に被験体が A1を選択す る確率を予測できると考えた.実験では交替反応を抑えるために2回連続して一方の反応キ ーを押した場合にのみ強化を与えるようにすると,ほぼ瞬時最大化の予測と類似した反応系 列を示した.また相対強化率と相対反応率の対応も観察された.また瞬時最大化をする被験 体をコンピュータシミュレーションしたところ,並立 VI・VIスケジュールにおいて実際の ハトと同じように相対強化率と相対反応率の対応を示した.これらのことから,瞬時最大化 を被験体がする結果として,相対強化率と相対反応率の対応が起こるのだと主張した.
Shimp (1969)では瞬時最大化を数学的に定式化している.被験体は複数ある行動の選択 肢の中から強化確率で重み付けられた結果の価値が最大であるような選択肢をリアルタイ ムに選択していると仮定している.また強化に遅延がある場合には,結果の価値は単なる報 酬量ではなく遅延による影響を受けるとしている.また単一キーでのVIスケジュールにつ いても検討し,単一キーVI スケジュールにおいても並立スケジュールにおける反応の選択 と同様の選択が行われていると仮定した.強化が与えられた後に被験体は「いつキーに対し て反応をするか?」(またはそれまでに他行動(mediating behavior)をするか)決定すると考 えた.このため単一キーVIスケジュールでの選択肢とは異なる長さのIRTクラスであると し,IRTの長さによって割り引かれた報酬価値をもとに選択をしていると仮定された.この 仮定のもとでシミュレーションをした結果,Shimp(1967)において観察されたIRT分布とよ く一致していた.
Shimpの瞬時最大化に対して,Hinson & Staddon (1983a, 1983b)では①瞬時最大化の フォーマルな基準を決めること,②瞬時最大化が起こっているのかいないのかを正確に示す 行動指標が必要であると指摘した.互いに独立な並立 VI・VIスケジュール(それぞれのVI 時間がもう一方のスケジュールに対する被験者の反応の影響を受けない)においては,VIス ケジュールでの強化確率はその反応キーに対する反応からの経過時間のみに依存する.数式 では並立 VI・VI スケジュールにおいて,それぞれの反応キー1,2 に対する強化確率は以 下のように表すことができる.
( )
( )
221 1
1
| 1
|
2 1
t t
e t
R P
e t
R P
λ λ
−
−
−
=
−
=
2-5
ここで t1は反応キー1 での前回の強化からの経過時間,P(R|t1)はt1のときに反応した 場合の強化確率を示している1.λ1はVIスケジュールでの強化率を示している.反応キー2
1 ここではtiは前回の強化からの経過時間であるが,Constant Probability VIスケジュール(または Random Intervalスケジュール)においてはtiをIRTに変更しても式2-5は成立している.また1/λ1がVI
16
に対しても同様である.このように相互に独立なVIスケジュール同士での並立スケジュー ルでの強化確率は他のキーへの反応に依存しない.このため並立 VI・VIスケジュールにお いて瞬時最大化をするには,反応をする際に前回の強化からの経過時間を元に式2-5から反 応キー1,2 のどちらが強化確率が高いか比較し,強化確率が高い反応キーを選択すること となる.どちらの反応キーへ反応したほうが有利であるか(強化確率が高いか)を示すため,
また実際の被験体の反応が瞬時最大化を行っているかを示すためにclock spaceというグラ フを提案した.Hinson & Staddon (1983b)ではハトを被験体として並立 VI・VIスケジュ ールでの実験を行い,上記の分析方法を用いて瞬時最大化が行われているか分析した.この 結果,clock spaceグラフでは学習の初期段階では,clock space上に比較的ランダムに反応 が見られたが,学習が進んだ段階では瞬時最大化が予測するように反応キー1 での反応は
clock space上において反応キー1が有利な領域で多く見られた.反応キー2についても同様
であった.
この他にも微視的最大化を支持する研究がいくつか行われている.Silberberg & Ziriax (1985)はメリオレーション理論と微視的最大化を比較検討する実験を行い,被験体が局所的 な強化率を最大化(微視的最大化)するように行動するという結果を得ている.さらに微視的 最大化の方略を用いるハトのシミュレーションを行って,実験の結果と類似することを示し た.また人間を被験者とした場合でも対応法則よりも微視的最大化を支持する結果がある (Silberberg, Thomas, & Berendzen, 1991).
2.1.3 対応法則か最大化か?
ここでは対応法則・最大化理論に対する批判,理論を支持しない実験結果,理論的な問 題点などを取り上げる.最後に対応法則と最大化理論の類似点と統合の可能性について述べ たい.
1) 対応法則の問題点
はじめに対応法則に対する批判について説明する.対応法則は並立スケジュールのよう な2つの反応の選択実験,また単一キー強化スケジュールでの実験結果を幅広く説明できる 点から多くの研究者が支持している.また一般対応法則では厳密な対応法則からの逸脱現象 もパラメータを一部修正することによって記述することができるという点で柔軟性のある 理論になっている.しかし対応法則では説明することのできない逆対応(anti-matching)とい う現象も報告されている(Hursh, 1978)1.
また対応法則では相対強化率が等しければ,相対反応率も等しくなることを予測するが,
並立 VI・VR スケジュールを用いた実験では,相対強化率が等しいときでも多くの場合,
VRスケジュールに対して高い反応率を示す.またメリオレーション理論によって克服でき 時間となる.
1逆対応とは相対強化率が増加すると相対反応率が反対に減少する現象である.これは巨視的最大化理論で は説明することが可能である(Rachlin, Kagel, & Battalio, 1980).
17
たが,並立 VR・VRスケジュールにおいて強化に必要な反応回数の少ない選択肢のみが選 択されることを対応法則では説明できなかった.これは対応法則がなぜ反応が配分されるか を説明する理論というよりも,単に相対反応率を記述する理論であったことを示している.
また時間配分の対応についても,他行動に費やしている時間の方が実際にその選択肢での反 応キーに対してオペラント反応している時間よりも長いことが示されており,対応法則の想 定と異なっていることに問題がある(Davison, 2004).
理論的な面での問題点も指摘しておこう.Baum (1974)が提案した一般対応法則(式2-3) は厳密な対応法則から逸脱した多くの実験結果をうまく記述することに成功している.しか し,多くの実験結果によい当てはまりがあることが正しい理論とはいえない.厳密な対応法 則が自由パラメータを含まないものであったのに対して,一般対応法則では少なくとも2つ のパラメータを持っている.一般に自由パラメータの数が多くなればなるほど,モデルのデ ータへの当てはめは容易になる.
また一般対応法則では報酬量・遅延時間・強化率といった各変数は独立なものとして取 り扱っているが,この仮定にも問題がある. Davison (1988)は一般対応法則でうまく説明 できない,報酬量と強化率の交互作用についての実験をハトを被験体に並立 VI・VIを用い て調べたところ,全体強化率1(overall reinforcement ratio)が高くなるにつれて,強化量 (reinforcement duration)への感応度が低下することを示した.この結果は,2つ以上の独立 変数の交互作用を説明できないという一般対応法則の問題点を示している.
2) 巨視的最大化理論の問題点
ここまで対応法則への批判について簡単に見てきたが,最大化理論に対しても多くの批 判が寄せられている.並立 VI・VR スケジュールでは対応法則と最大化理論は異なる予測 をする.対応法則では相対強化率と相対反応率が対応することを予測する.一方,巨視的最 大化理論では対応しないことを予測する.VRスケジュールでは反応数に依存して強化子が 用意されるが,VI スケジュールでは強化子呈示の準備がされるまでにはある程度の時間が 必要であるので,並立 VI・VRスケジュールで全体強化率を最大化するためには,VRスケ ジュールに反応を多く振り分け,VIスケジュールにはときどき(強化子が準備されるほど時 間が過ぎたあとに)反応をするという方略がよい.このため巨視的最大化理論では相対強化 率よりも VR スケジュール側に多く反応するようなバイアスがあることを予測する.
Herrnstein & Heyman (1979)はFindley型の並立 VI・VRスケジュールでの選択行動を調 べたところ,ほぼ対応法則が予測するような相対強化率と相対反応率の対応が見られた.こ の結果は最大化理論の予測と一致しない.
これに対し最大化理論では他行動から得られる効用を含めての最大化を提案している.
人間も会社で働くことにのみ時間を振り分けるのではなく,遊びに行く,買い物をするなど の余暇を楽しむ.同じように反応キーへの反応を労働,それ以外の活動を余暇と考えると,
1 全体強化率とは実験セッション全体での強化率である.
18
VRスケジュールでは反応数に依存し強化子が与えられるためたくさんの労働をする必要が ある.一方,VI スケジュールでは以前の強化からの時間に依存しているため,他行動とい う余暇に時間を費やしていても強化子を得ることが可能になる.単なる強化率最大化では VRスケジュールへのバイアスを予測してしまうが,他行動を含めて最大化をすると仮定す ると実験データと同様の予測をすることが可能であるとした(Kagel et al., 1995; Rachlin et al., 1981).
巨視的最大化を支持しない実験結果は多数ある.巨視的最大化では全体強化率の最大化 がなされると考えられるが,全体強化率が選択の重要な要因とは認められない(Davison &
Kerr, 1989; Vaughan & Miller, 1984).また全体強化率よりも局所強化率のほうが重要とす る結果もある(DeCarlo, 1985).ハトやラットなどはセルフコントロール実験においてすぐに 獲得できる小さな報酬を選ぶことで,全体強化率の最大化を行えない(Ainslie, 1974; Logue
& Pena Correal, 1984; Rachlin & Green, 1972).人間を被験者とした場合でもセルフコン トロール実験において選好逆転が起こり,全体強化率を最大化しない場合があることが報告 されている(Kirby & Herrnstein, 1995).このほかにも最大化が見られないという結果は多 く報告されている(Vyse & Belke, 1992; Williams, 1985).Heyman & Herrnstein (1986)は ハトの並立VI・VRスケジュールでの実験結果をレビューし,再実験を行った.彼らの結果 を最大化理論では説明できず,対応法則とそこから導かれることを追求したほうがよいと結 論付けた.
理論的な分析からも巨視的最大化理論に対する批判がある.Heyman & Luce (1979)は 並立 VI・VI スケジュールにおいて,対応法則は強化率の最大化の結果だとする Rachlin, Green, Kagel, & Battalio (1976)のモデルを数学的に再検討し,巨視的最大化は正しくない と主張している.Prelec (1982)も同様の分析結果を出して巨視的最大化を批判している.こ れに対して Rachlin (1979)は実験者が設定した相対強化率で見た場合には最大化が対応法 則と一致しないが,実験で得られた実際の相対強化率で見た場合には一致すると反論してい る.ここまで巨視的最大化理論の問題点について述べてきたが,微視的最大化理論にも問題 点がある.これについては「2.2反応間間隔について」で述べたいと思う.
3) 何を最大化するのか?
Baum (1981)は巨視的な理論である一般対応法則と巨視的最大化理論の比較をして,ど ちらの理論でも複数または単一の行動についてうまく説明できているが,どちらかというと 対応法則は並立スケジュールでの行動を,最大化理論では単一強化スケジュールでの行動を うまく説明しているとした.
最大化理論と対応法則を比較する際に,局所強化率(local reinforcement rate)と全体強 化率(overall reinforcement rate)という観点が重要である.局所強化率とは複数ある選択肢 それぞれの強化率である.対応法則およびメリオレーション理論では各選択肢における局所 強化率が等しくなるように被験体が選択するとしている(Baum, 1981).これは常にその時点 での局所強化率がもっとも高い選択肢を選択することと等しいので,対応法則は局所強化率
19
の最大化の結果と見ることが出来る.一方,全体強化率は実験セッション全体での強化率を さしている.巨視的最大化理論における最大化の対象は全体強化率を最大化することであり,
そのために具体的には各選択肢における限界強化率(marginal rate of reinforcement)を等 しくする(Baum, 1981; Prelec, 1982; Staddon & Motheral, 1978).
人間が被験者の場合には行動の選択において動物と比較して全体強化率が重視されるよ うである. Flora & Pavlik (1992)は人間を被験者にお金に交換できるポイントを強化子と したセルフコントロール実験において,全体強化密度(overall reinforcement density:ポイ ント/試行時間全体)の影響を調べた.この結果,常に全体強化率が高い選択肢が選ばれや すいことが示された.同じようにIto & Nakamura (1998)は人間を被験者に,並立連鎖スケ ジュールを用いて局所強化密度(local reinforcement density:ポイント/遅延時間)と全体強 化密度(overall reinforcement density:ポイント/試行時間全体)のどちらが遅延報酬の選択 に影響を与えるか検討した.この結果,動物では対応法則のように各選択肢の局所強化密度 が重要であるのに,人間を被験者とした場合には全体強化密度のほうが選択比率をうまく説 明することが示された.
このように強化率の異なる側面についての最大化が考えられている一方で,強化率以外 の基準での最大化も考えられる.Sakagami, Hursh, Christensen, & Silberberg (1989)の実 験から,動物はincome flow(強化率)ではなく,income level (一日あたりの強化の総量)を最 大化していると考えられた(Shurtleff & Silberberg, 1990).Silberberg, Bauman, & Hursh (1993)は経済学とのアナロジーから強化率ではなく報酬量の最大化を提案している.巨視的 最大化理論での最大化の対象は全体強化率であるがこれは経済学でいうところのフロー (flow)の最大化とみなせる.一方で,手持ちの財産として反応の回数に制限がある場合に,
そこから得られる報酬量を最大化することも考えられる.これは経済学ではストック(stock) の価値の最大化である.Vaughan & Miller (1984)では反応率が上がるほど強化率が下がる スケジュールにおいても,非常に高い反応率が見られたことから最大化は行われていないと 結論をしているが,ここでの「最大化」はフローの最大化である.Silberbergらの研究では 実際にストックの最大化が行われているかを調べるために,実験セッションでのオペラント 反応による強化以外では餌を獲得できない閉鎖経済(Closed Economy)環境においてサルを 被験体にトークンを使った実験を行った結果,サルは実験条件に合わせて反応率を変化させ てストックの最大化を行うことが示唆された.同様の結果はWidholm, Silberberg, Hursh, Imam, & Warren Boulton (2001)でも確認されている.
これらの結果は巨視的最大化理論の前提が間違っているかもしれないことを示唆してい る.巨視的最大化理論においては全体強化率または同じことであるが単位時間あたりの報酬 量が最大化の目的である.しかし,動物や人間は研究者が仮定した強化率という指標ではな く他の指標を最大化しているかもしれない.上記の結果ではストックやincome levelを最大 化するとみなせば,被験者の行動は最大化をしている行動となっている.最大化理論の理論 的弱点として,最大化する目標を変更することで被験体の行動を「最大化している行動」とみ
20 なせることだとも言えよう.
メリオレーション理論(と同時に対応法則)も最大化の目的を修正することで最大化理論 によって説明することが可能になるかもしれない.Herrnstein, Loewenstein, Prelec, &
Vaughan (1993)はメリオレーション理論と巨視的最大化理論を排他的にとらえるのではな く,どのような外的な要因によって被験者の行動がよりメリオレーション的あるいはより最 大化的なものになる傾向があるのかを検討した.彼らは最大化を「自分自身の行動による結 果の価値の変化も考慮に入れて,全体的な効用を最大化すること」,メリオレーションを「自 分自身の行動による影響を考慮せずに,局所的な効用を最大化すること」と捉えた.被験者 の行動は「自分自身の行動の結果による影響」を考慮する程度によって最大化的・メリオレ ーション的と区別できる.Herrnstein らは人間を被験者に左右の矢印キーへの反応の配分 によって得られる報酬が変化する課題を使った実験を行った.この結果,過去6回分の選択 結果のみが現在の報酬に影響する場合よりも,過去20 回分という非常に昔の選択結果まで が影響する場合のほうが最大化を行うことが困難(つまりメリオレーション的な行動をしが ち)であることが判った.また過去の選択結果が報酬を得られるまでの「遅延」に影響を与 えた場合の方が「報酬の量」に影響を与えるよりも最大化を行うことが困難であることも示 した.
4) 対応法則と最大化をつなぐ遅延
最 大 化 と 対 応 法 則 を 結 び つ け る コ ン セ プ ト と し て 遅 延 が 取 り 上 げ ら れ て い る . Herrnstein et al. (1993)はなぜ動物・人間がしばしば最大化を行えず,メリオレーション的 な行動をとるかについて2つの要因を提唱した.一つは認知的な要因であり,被験者にとっ て過去の自分の行動が将来の行動の結果に影響を与えていることを理解することはしばし ば困難であるという点である.2つ目は動機づけ的な要因であり,これはもっとも適切な行 動をとるよりもすぐに報酬を獲得できる行動をとるという衝動性に関連している.以上の2 つは認知的・動機づけ的の違いはあるがどちらも遅延価値割引に関連している.彼らは報酬 の遅延を実験手続きの中で明示的に取り上げている実験以外の実験場面(例えば並立VI・VR スケジュールでの相対反応率を検討したものなど)でも遅延価値割引の影響を考える必要が あるとしている.さらに IRT を一種の遅延と考えると,巨視的最大化理論で説明ができな いこともうまく解決されるという指摘がある(Kagel et al. 1995; Prelec, 1982; Rachlin, Green, & Tormey, 1988).例えば並列VI・VRスケジュールにおいてVIスケジュールへの 反応率が最大化理論の予測よりも高い理由として,VI スケジュール側で反応することでよ り早く強化子が手に入るからだという指摘である.
またIRTを遅延とする考え方は微視的理論と巨視的理論(対応法則と巨視的最大化)をつ なぐ考え方であるとも言えよう.微視的理論であるShimpの瞬時最大化ではIRTの長さを 遅延として報酬の価値の割引に使用している.Silberberg, Warren Boulton, & Asano (1988) は巨視的と微視的という相対立している理論・行動に対する見方を割引率という観点から見 直すことを提案している.割引率とは遅延の長さによって報酬の価値がどの程度低下するか
21
という比率のことである.割引率が低いと長い遅延があったとしても報酬の価値は下がらな い.割引率が高いと少しの遅延で報酬の価値は低下してしまう.Silberbergらは巨視的最大 化理論とは IRT という一種の遅延に対する割引率が低い場合であり,微視的最大化理論は 割引率が高い場合を意味していると指摘している.
ここまで本論文の3つの研究と関連のある対応法則と最大化について簡単に概観してき た.対応法則と最大化はどちらの行動を選択するのかという基本的な疑問について説明を与 えるものであり,行動分析において非常に多く研究がなされている.このためこのあとに説 明する反応間間隔とその系列依存性,遅延価値割引という本論文での研究に直接関連する過 去の研究と密接なかかわりがある.対応法則と最大化についての諸理論は初期には大きく対 立しているようではあるが,しだいに何を最大化の目標としているのかという観点から統合 されてきているようである.特にどの程度のスパンで強化をとらえるのかという点が重要で あろう.対応法則の見方は局所強化率が目標であり,時間について近視眼的である.巨視的 最大化では実験セッション全体の全体強化率が目標であり,時間については遠大であるとい えよう.両者を結び付ける一つのキーワードは遅延であり,強化スケジュールにおける一種 の遅延とみなせるIRTであるといえるだろう.
2.2 反応間間隔について
「毎日このWebサイトは確認しないと.でもこっちのサイトはたまにで十分」,「犬が急 に吠えた.その後しばらくおとなしく骨をしゃぶっていたのに,また吠え出した」など,人 間も動物も特定の行動を途切れなくし続けるのではなく,ある程度の間隔をもってする.ど うしてある行動は頻繁に行うのに,別の行動はめったに行わないのだろうか?ここでは,強 化可能な行動単位としての反応間間隔(IRT)についての研究を概観する. IRTは微視的な行 動データとしては基本的なものであり,強化スケジュールに特有な反応パターンが生じる過 程を考える際に重要である.
前節においてIRTを一種の遅延とすると対応法則と最大化理論を結び付けることが可能 であるとする見方が示された.そこでここでは IRT についてのこれまでの主な実験結果,
分析方法,理論などを紹介したい.まず実験中の事象系列を IRT と強化・非強化という行 動の結果によって表すことについて説明する.次に IRT に対する強化によって強化スケジ ュール下での反応パターンを説明する IRT 強化理論および強化可能な行動単位としての IRT を紹介する.これらは被験者がどのような長さの IRT で反応をするか,報酬を与える ことでIRTが変化するかについてであるため,研究1・2と関連が深い.最後にIRT系列依 存性とIRT変動性を説明する.これらはIRT系列依存性の有無および変動性を高める方法 について検討している研究2へとつながるだろう.
IRTとはフリーオペラント実験におけるオペラント反応間の時間である.図 2-3は反応
とIRT,および反応の結果(報酬あり/なし)の時間的関係を表している.反応キーが1つの