行動選択における反応間間隔と遅延時間の影響

(1)

行動選択における反応間間隔と遅延時間の影響

期待報酬量が一定の状況での反応間間隔分布と系列依存性および遅延価値割引判断について

川嶋健太郎

(2)

i

第1章序論

1.1 遅延と待ち時間

現代社会で生きる私たちにとって，実際に行動した直後にその報酬を受け取ることはほとんどない．むしろしばらく時間が経ってから報酬を獲得するほうが多いといえる．例えば春に種をまいても収穫をするには秋を待たなければいけない．会社で働いても給料が支払われる給料日まではお金が足りなくても我慢する．大学への受験勉強をしても大学に行けるのは合格してからである．株式に投資しても売却益を得るのは大抵数カ月から数年後である．

銀行に預金して利子を得るには半年から1年はお金を預け続けなければならない．このように報酬を得るための行動や選択をしてから報酬を実際に得るまでの時間のことを遅延という．

多くの人はできることならすぐに報酬がほしいと思うだろう．仕事をしたらそれに合わせて給料が支払われたらすぐに買い物や遊びに行ける．もしも報酬がもらえるまでにあまりに時間がかかる場合には，その時間をかけてまでやらなくなるだろう．例えば今働いた分の給料が10 年後に支払われるとしたら，金額にもよるが多くの人はその仕事をしようとはしないだろう．このように遅延によって報酬の価値が低下してしまう現象を遅延価値割引といい，多くの研究がなされている．一般的な遅延価値割引実験においては，例えば10年後の 100万円と今すぐもらえる80万円のどちらが欲しいか，質問する．今すぐもらえる金額を数種類用意して質問することで，10 年後の100万円と同じ価値を持つ，現在の金額が測定される．遅延価値割引実験は直後の報酬と遅延された報酬の間の選択であり，遅延時間も報酬金額もあらかじめ決められていて遅延中に変化することがない．このような固定された遅延と報酬の例としては，給料日が決まっている仕事の給料や開催日が決まっているイベントのチケットなどが挙げられるであろう．

しかしよく考えてみると日常生活では同じように報酬を獲得するまでに時間がかかるとしても自分でその時間を決めることのできる場合があることに気づくだろう．例えば株式に投資した場合には(配当を別に考えて)購入した株式を売るまでは売却益を獲得することができない．だが株式を購入した後にはいつでも売却できるため報酬を獲得するまでの時間を自分で調整できる．自分で時間を決められるのになぜ早く報酬を獲得しようとしないのだろうか？

すぐに報酬を獲得できるのにしばらく獲得しようとしない理由のひとつは待っている時間に報酬に何らかの変化が起こっているためと思われる．魚を網で取る場面を考えてみよう．

図 1-1は時間経過に伴う網の中の魚の量を仮想的にあらわしたものである．網を仕掛けてからすぐには魚の量は少ない．網を引き上げるまでの時間が長いほどおそらく魚はたくさん網

(5)

2

に入っているだろう．そこで漁師は網の中に魚がある程度たまったと見込めたら網を引き揚げる．網を仕掛けて待っている間に報酬である魚の量が増加するからこそ網を仕掛けたまま待っているのだと考えられる．もしもいくら待っても網を仕掛けた時点での魚の量から変化しないならば網を仕掛けてすぐに引き上げてしまうだろう¹．このような待ち時間中に報酬量の変化を伴う状況は他にもある．例えば銀行に預金をした場合もそうである．銀行に預金をすると一定時間ごとに利子が追加される．いつでも銀行から預金を引き落とすことができるので，銀行に預け続けるか預金を引き落とすのかは常に預金者の判断にかかっているといえよう．

また報酬の量以外にも待ち時間の間に報酬がもらえる確率が上昇する場合なども考えられるだろう．例えば電話で勧誘をする際に，同じ人に何度も何度も繰り返し電話をするよりも，しばらく時間をおいてから電話をかけようとするだろう．電話をしなければ契約という報酬を得ることはできないが，あまりに高頻度で電話をすると敬遠されてしまう．しばらく電話をしないで待っている時間の間に次の電話で契約を獲得できる確率が上昇しているのだと考えられる．またWeb サイトをチェックして新着情報がないかを調べることも一つの例であるといえよう．一度見てからすぐにまたそのサイトを訪れても新しい情報はないだろう．しかし1日や2日待っていると新着情報が見られる確率が高くなる．

図 1-1 時間経過に伴う網の中の魚の量の変化(仮想)

ここで気をつけたいのは，このように報酬を獲得するまでの時間を自由に決められる場合にはどの行動に注目するかによって同じ時間でも意味が少し異なることである．魚を網で取る例で言えば，網を仕掛ける行動に注目すると，網を仕掛けてから引き揚げるまでの時間

1 このような状況に当てはまる漁は投げ網漁であろう．網を投げたらすぐに引き上げている．

網の中の魚の量

網を仕掛ける

網を引き揚げる

網時間を仕掛ける

網

を

引

き

揚

げ

る

(6)

3

は遅延といってよいかもしれない．網を仕掛けるという行動をしてから実際に報酬である魚を獲得するまでに時間がかかっているからである．一方，網を引き揚げる行動に注目すると網を仕掛けてから引き揚げるまでの時間は遅延とはいえない．網を引き揚げるとすぐに報酬である魚が獲得できるからである．むしろ網を引き揚げる行動に注目すると，この時間は網を引き揚げるまでの待ち時間であると考えられる．

一方，遅延価値割引実験の場合のように報酬を獲得するまでの時間と報酬量が固定されていたとしても，時間経過に伴う報酬の変化による影響というものは実際にはありうるだろう．例えば，10年後の100万円と今すぐもらえる50万円のどちらが好ましいか選択する状況を考えてみよう．10年後の100万円は固定されているにしても，今すぐもらえる50万円の使い道については固定されていない．例えば今すぐもらえる50万円をすぐに銀行で年率

10%の定期預金に預けたとしよう．10年後にはその50万円は約130万円になる(図 1-2)．

もしも遅延価値割引実験での選択肢が現実に提供された場合には，今すぐもらえる50万円を今すぐ使うか，10年後の 100万円を選ぶかという通常の選択肢のほかに暗黙的に，しばらくどこかで運用するか，という3つ目の選択肢が提示されていることになる．上記の例では今すぐもらえる50万円を運用したほうが得なので，10年後の100万円が選ばれる可能性は低いだろう．このことは遅延された報酬の現在の価値にも時間経過による直後の報酬の変化は影響を与えることを意味している．今すぐもらえる50万円を運用したほうが10年後の 100万円よりも得ならば，10年後の100万円の現在の価値は今の50万円よりも低くなるからである．年率10％の定期預金に入れれば約38万円が10年後には100万円になる．このため非常に合理的な被験者であれば10年後の100万円の現在の価値を約38万円と判断するだろう．

図 1-2 遅延価値割引実験における時間経過による報酬の変化

0 2 4 6 8 10

50 100 150

時間 ( 年 )

すぐもらえる金額 ( その後預金 ) 遅延された金額

金額 ( 万円 )

(7)

4

1.2 本論文の目的と構成

以上のように報酬を獲得するまでの時間には遅延価値割引実験において一般的に用いられているような固定的で変更することのできない遅延と，自由に変更することのできる一種の待ち時間の 2 種類があると思われる．またこの時間経過に伴う報酬の量や獲得できる確率・報酬の価値の変化は人間の行動の選択や判断に影響を与えるものと思われる．しかし第 2章研究史でも述べるが，これまで時間経過に伴う報酬の様々な変化が行動に与える影響を調べたものはほとんどないといってよいだろう．遅延の間に約束された報酬が減らされてしまうかもしれないとしたら，もしくは額面上は約束された報酬が支払われたとしてもその実質的な価値がほとんどなくなってしまいそうなら，私たちはどう行動し，判断するのだろうか？また待てば待つほど報酬の量が増加するならば，私たちはずっと待っているのだろうか？それとも途中でがまんができなくなって待つのをやめるだろうか？本論文の研究では以上のような問題意識に基づいて実験的な手法を用いて調べていく．

本論文の目的は報酬を獲得するまでの時間によって報酬の量や確率・価値が変化することが人間の行動選択・判断にどう影響を与えるのかを実験的に調べることである．これに付随して反応間間隔(interresponse time: IRT)の系列依存性の有無とIRT変動性を制御できるのかについても検討する．報酬を獲得するまでの時間を被験者が自由に決められる待ち時間についてはフリーオペラント実験により，固定された遅延については遅延価値割引実験により検討する．フリーオペラント実験における IRT を本論文では待ち時間としてとらえている．IRTはオペラント反応についての重要な時間的指標の一つで，反応キーへの反応と反応の間に経過した時間である．フリーオペラント実験では被験者が自由に IRT の長さを決めることができるため，IRTは一種の待ち時間とみなすことができると考える．

図 1-3は本論文の問題意識と3つの研究の相互関係をまとめたものである．報酬獲得までの時間には自由に決めることのできる待ち時間と固定されている遅延の 2 種類があるという本論文での問題意識に基づき，研究1・2では待ち時間としてIRTを，研究3では遅延を取り上げている．また報酬獲得までの時間経過中に起こる報酬の性質の変化が行動・選択に影響を与えるという問題意識に基づき，各研究ではそれぞれ異なる報酬の性質の変化を検討した．研究1ではIRTに応じて報酬の「量」を研究2では「強化確率」を変化させる．

また研究3においては仮想的な経済におけるインフレ率によって報酬の実質的な「価値」を，

また利子率によって報酬の「量」が遅延時間に応じて変化させる．

取り上げた報酬までの時間が異なることにより各研究において得られるデータ・分析方法も異なっている．研究1・2ではIRTを取り上げたことにより，強化スケジュールのもとでの被験者個人の行動データが得られる．これを詳細に分析することで，報酬獲得までの時間経過に伴う報酬の変化が行動にどのような影響を与えるかを基礎的な側面から調べたい．

研究3では遅延時間を取り上げており，遅延報酬の主観的価値・選択に関するデータが得られる．経済学的な観点から報酬の量や実質的な価値を操作していることから，より応用的な

(8)

5

側面から報酬までの時間経過に伴う報酬の変化の影響を検討していく．

また3つの研究で行われる実験では客観的な基準からみるとどの時点も同じ価値となるように設計された実験条件を入れるようにしている．このような実験条件で特定の時点での反応が多かったり，特定の報酬量が選択されるならば，その時点やその報酬量が主観的に見ると最も高い価値を持つであろうと考えられる．本論文における客観的基準とはフリーオペラント実験においては単位時間当たり報酬量(強化率)であり，遅延価値割引実験においては名目利子率による指数関数的な割引である．

第2章では本論文の3つの研究に関する過去の研究について論じる．最初に3つの研究それぞれに関係が深い「2.1対応法則と最大化」についてまとめる．ここではIRTを一種の遅延・待ち時間とみなすことで対応法則と最大化という対立する理論が結びつく可能性について論じる．次に「2.2反応間間隔について」では研究1および研究2において検討されている IRT についての理論とこれまで得られた代表的な実験結果についてまとめる．また研究2で追加的に調べられるIRT 系列依存性・変動性の測定方法や個人差についての研究を紹介する．最後の「2.3 遅延価値割引」では遅延価値割引研究で用いられる各種の割引関数や経済学の分野での時間割引研究との関連，遅延価値割引に影響を与えるさまざまな要因について論じている．

図 1-3 本論文の問題意識と3つの研究の相互関係問題意識

・報酬までの時間には 2 種類ある 1. 自由に決められる「待ち時間」

2. 固定された「遅延」

・時間経過に伴う報酬の性質の変化

行動・選択にどう影響する？

研究 1：IRTに応じて報酬量が増加する

研究 2：IRTに応じて強化確率が増加する報酬までの時間が

自由に決められる待ち時間の場合

基礎的・行動的データから時間が行動に与える影響を検討

研究 3：

・遅延時間に応じてインフレ率により報酬の価値が変化

・遅延時間に応じて利子率により報酬量が増加

報酬までの時間が固定されている遅延の場合

応用的・選択データから時間が価値判断に与える影響を検討

遅延価値割引実験パラダイム選択について検討

フリーオペラント実験パラダイム行動について検討

(9)

6

第3章の研究1「反応間間隔と報酬量についての実験心理学的研究」ではIRTの長さに

よって報酬量が増加する強化スケジュールを用いたフリーオペラント実験を行う．報酬を獲得するまでの時間は IRT であり，時間経過とともに変化するものは報酬量である．魚を網で取る例ではいつでも網を引き揚げることができるのに引き揚げないで待つ理由の一つとして網の中の魚の量が増加することを指摘した．同様に研究1において被験者は自由にIRT という一種の待ち時間の長さを決めることができ，IRTの長さによって獲得できる報酬の量が増加していく．研究1の目的は①被験者が単位時間当たりの報酬量を最大にするような行動(特定の長さのIRTでの反応)を行うのか(実験1)，②どのような長さのIRTであっても単位時間当たり報酬量が一定である状況で被験者がどの長さのIRTでの反応を行うのか(実験

2)，を検討することである．研究1の最後にはIRTを一種の遅延・待ち時間とみなした場合

に各実験の結果を説明するIRT割引モデルを提案する．

第4章の研究2「反応間間隔と強化確率，および系列依存性についての実験心理学的研

究」ではIRTの長さによって報酬を獲得できる確率(強化確率)が変化する強化スケジュールを用いている．報酬を獲得するまでの時間は IRT であり，時間経過とともに変化するものは強化確率である．研究 2の目的は①強化確率が IRT に応じて変化することで，どのような長さの IRT であっても単位時間当たり報酬量が一定である状況で被験者がどの長さの IRTでの反応を行うのか(実験3，4)，②IRTに系列依存性があるか(実験3，4)，③IRT系列依存性により個人差を特徴づけられるか(実験 3，4)，④強化スケジュールにより IRT 変動性を高められるか(実験5)，を検討することである．IRT 系列依存性と変動性については第 2章研究史で紹介する．

以上の研究 1・2 により報酬獲得までの時間を被験者自身が自由に決められる場合についてはある程度検討できるといえよう．報酬の量と強化確率は時間経過に伴う報酬の変化として主たるものであるからである．そこで研究3では報酬獲得までの時間と報酬量が固定されている場合について検討したい．たとえ遅延された報酬が固定されていたとしても，その遅延時間中の直後の報酬の変化などによって遅延された報酬に対する価値判断が変化することを示したい．

第5章の研究3「遅延価値割引における利子率・インフレ率の効果についての実験心理

学的研究」では仮想的な貨幣を使うシミュレーション的実験課題を用いてインフレ率・利子率といった経済的要因が遅延価値割引判断に与える影響を調べている．報酬を獲得するまでの時間は遅延であり，時間経過とともに変化するものは直後の報酬の量および直後・遅延報酬双方の実質的価値である．インフレ率・利子率という要因を遅延価値割引実験に加えることで，時間経過に伴う直後報酬の量の変化などを制御することが可能になる．研究3の目的は①利子率により時間経過に伴って直後報酬の報酬量が増加すると遅延報酬への価値判断が影響を受けるか(実験7，8)，②客観的な基準では同一の判断をするべきであるときに，インフレ率による見た目の変化が遅延報酬への価値判断に影響を与えるか(実験 6)，③購買力という実質的な価値が等しい時に，利子率やインフレ率は遅延報酬への価値判断に影響を与

(10)

7

えるか(実験 9)，検討することである．最後にインフレ率・利子率の遅延価値割引への影響を含めた2つのモデルを提案する．

第6章では3つの研究をまとめて，報酬獲得までの時間と時間計画に伴う報酬の変化が行動選択や価値判断にどのように影響を与えるのかを考察する．

(11)

8

第2章研究史

ここでは本論文の3つの研究と関連するこれまでの研究について論じる．最初に3つの研究それぞれに関係が深い「2.1 対応法則と最大化」についてまとめる．行動分析において対応法則と最大化理論はその理論的な精密さや適応範囲の広さなどから最も重要な理論となっている．ここでは対応法則と最大化という対立する理論をつなぐものとして反応間間隔 (interresponse time: IRT)の長さによる遅延という考えがあることが示される．次に「2.2 反応間間隔について」では研究1および研究2において検討されているIRTについての理論とこれまで得られた代表的な実験結果について簡潔にまとめる．IRTを研究対象とする場合に注意するべきことが示されるだろう．さらに連続した IRT が相互にどのような関係があるのか，その測定方法や個人差についての研究やIRTのばらつきの程度(変動性)についての研究についても簡単に述べたい．最後の「2.3遅延価値割引」では遅延価値割引研究で用いられる各種の割引関数や経済学の分野での時間割引研究との関連，遅延価値割引に影響を与えるさまざまな要因について論じる．

2.1 対応法則と最大化

この節では本論文での議論と深い関係のある実験的行動分析における対応法則と最大化理論について紹介する．2つ以上の反応キーに対する相対反応率¹あるいは単一の反応キーに対する反応率については,それぞれを基本的な反応指標として膨大な数の実験が行われている．特に相対反応率については,それぞれの反応キーに結び付けられた強化スケジュールまたは強化子のどちらを選好するかをラットやハトはもとより人間でも明確に測定が出来ることから実験による知見も非常に多く，それを説明する理論も重要である．

対応法則(matching law)と最大化理論(maximization)は強化スケジュールと反応率・相対反応率の関係を説明する理論である．両者は対立しており，それぞれの理論家の間でどちらの理論が基本的な実験結果をよりよく説明するか多数の議論がある．また大きく分けて対応法則，最大化理論の2つとして述べたが，どちらの理論でも基本的な考えは同じでもいくつかの点で異なる理論が複数あり，多数の実験を生み出す原動力の一つにもなっている．

選択および強化スケジュールのもとでの行動についての理論には大きく分けて巨視的

(molar)理論と微視的(molecular)理論の2種類がある．巨視的理論は主に平均的で集約的な

行動指標，例えば強化スケジュールのもとでの反応率と強化率との間の関数的関係を扱っている．巨視的な理論である対応法則では，被験体の相対反応率と相対強化率は対応すると考

1 相対反応率(relative response rate)とは全体の反応数に対する，ある反応の割合である．例えば，反応A とBがあった場合の反応Aの相対反応率とは，反応Aの反応数／(反応Aの反応数＋反応Bの反応数)となる．

(12)

9

える．例えば，variable-interval(VI)スケジュール¹のもとでの反応率はオペラント反応とそれ以外の測定されていない行動をそれらの相対的な強化量に対応するように配分されると説明される(Herrnstein, 1970)．

一方，微視的理論は一つ一つの行動と強化の結果として，スケジュールのもとでの行動が現れていると考えている．例えば，IRT や強化間隔(inter-reinforcement-interval: IRI)，

強化にいたるまでの残りの反応数といった局所的な指標から，反応率といった集約的な指標を導き出すことが目標となる．特にIRTに対する強化は微視的理論の一種であるIRT強化理論での重要な要因と考えられる．

これから紹介する対応法則と巨視的最大化理論は巨視的な理論であり，強化率または相対強化率から反応率・相対反応率を予測する．しかし両者の立場は異なっており，対応法則では相対強化率が相対反応率と一致するという記述的な立場であるのに対し，巨視的最大化理論では強化率を最大化するという目的のために相対反応率を調整していると考える目的論的な立場にある．またここで紹介するメリオレーション理論，瞬時最大化, 微視的最大化といった理論は微視的な理論であり比較的局所的な強化率を高めるといった過程から巨視的な指標である相対強化率と相対反応率の対応が導かれると考える．ただし微視的理論の中でも互いに立場は異なっている．

この節の最後では対応法則と最大化理論を結びつけるものとして，IRTを遅延とみなすことを提案している研究について紹介する．

2.1.1 対応法則とは

1) 並立VI・VIスケジュールでの相対反応率

Herrnstein (1961)は動物の選択行動の研究から，動物の2つの選択肢にたいする相対反

応率はそれぞれの反応から得られた強化子の比率と一致しているという対応法則を提案した(Herrnstein, 1970; Mazur, 1998)．並立VI・VI(concurrent VI・VI)スケジュール²において平均強化間隔のさまざまな組み合わせで実験を行うと，それぞれのVIスケジュールに対する相対反応率は相対強化率と一致することが知られている．図 2-1は対応法則が成立した場合の相対反応率と相対強化率の関係を模式的に示したものである．

1 VIスケジュール(変時隔スケジュール)では前回の強化から平均して一定時間経過した最初の反応を強化する．例えばVI30sでは前回の強化から平均して30s(ある場合は2s，別の場合は40sのように変動する) 経過した後の最初の反応に強化子を与える．

2 並立スケジュールでは2つの強化スケジュールを同時に提示する．例えば並立VI20s VI40sスケジュールでは2つの反応キーの一方ではVI20sスケジュールに従って強化子を，もう一方の反応キーにはVI40s スケジュールに従って強化子が提示される．

(13)

10

図 2-1 並立 VI・VIスケジュールでの右キーへの相対強化率・相対反応率の模式図

Herrnstein は以下の数式による対応法則を提案した(Herrnstein, 1961; Herrnstein, 1964; Herrnstein, 1970)．

2 1

1 2

1 1

R R

R B

B B

= + +

2-1

ここでBは反応数，Rは強化数であり，添え字は選択肢(反応キー)を表している¹．この数式は，全体の反応数に対する選択肢1への反応の割合は，全体の強化数に対する選択肢1への強化数の割合と一致するということを示している²．

また式2-1は簡単に

2 1 2 1

R R B B =

2-2

と整理できる．この表し方では反応数の比は強化数の比に一致することが強調されている．分子・分母それぞれに選択肢1・2についての項が整理されていること，および以下で見るように強化数以外の要因を追加しやすいため，この表記を以降使用したい．対応法則は強化回数についてだけではなく，強化のそのほかの次元，例えば強化の遅延，強化子の量に

1 Herrnstein (1970)では反応数はP，強化数はRを用いて表記している．Bは単位時間当たりの全体反応率，Rは単位時間当たりの全体強化率とする場合が多い．その場合でも式2-1の関係は成り立つ．

2 反応数だけではなく行動の時間的配分の対応も成立することが知られている(Baum & Rachlin, 1969)

50%

100%

50%

100%

反応キーAでの強化の割合(%)

反応キーAへの反応の割合(%)

0%

(14)

11

ついても成り立っている(Catania, 1963;Chung & Herrnstein, 1967)．

2) 一般対応法則と過大／過小対応

対応法則は多くの実験場面でほぼ成り立つことが確認されているが，その一方でシステマチックに対応法則から逸脱することも示されている．Baum (1974)は対応法則からの逸脱として過小対応(undermatching)・過大対応(overmatching)・バイアス(bias)をあげている．

過小対応とは実際の相対強化率と比較して，相対反応率が一貫して0.5に近くなることである．Baum (1979)では多くの並立VI・VIスケジュールでの実験結果(23の研究から103セットのデータ)を次の一般対応法則に当てはめた．対応法則からの逸脱を再検討し，式 2-2 にバイアスを表すパラメータbと過小(過大)対応を表すパラメータaを追加した．

a

R b R B

B ⎟⎟⎠

⎜⎜ ⎞

⎝

= ⎛

2 1 2

1

2-3

これまで動物を被験体とすると多くの場合対応法則が成立することが報告されている．

しかし，人間を被験者とした場合には必ずしも対応法則は成り立たないことが報告されている(Horne & Lowe, 1993)．

3) 単一強化スケジュールでの対応法則

Herrnstein (1970)は単一強化スケジュール(特に VIスケジュール)においての反応率に

ついても対応法則を応用することで説明できることを示した．一見，単一キー強化スケジュールでは反応キーがひとつしかないため，強化や反応数の比率を計算することは出来ないように思われる．しかし，実験中には被験体・被験者はオペラント反応以外の行動もしばしば行う．例えば，ラットやハトでは周囲を探索するような行動，毛づくろい，体の一部を掻くなど様々な行動を行っている．これらの行動はその行動に伴う自然で生得的な強化子によって維持されていると考えられる．これは例えば背中をかいたりすると気持ちいいことからも分かるだろう．これらの「他行動」をしている最中にはオペラント反応をすることは出来ない場合もある．

Herrnstein (1970)では単一強化スケジュールにおける反応率は，オペラント反応から得られる強化と他行動から得られる強化の比に対応しているとした．

0 1

1

R R

B kR

= +

2-4

(15)

12

図 2-2 Herrnstein (1970)による単一キー強化スケジュールでの対応法則

ここで B1は当該オペラント反応の反応率，k はパラメータ，R0はオペラント反応ではない，測定されない他行動からの強化率，R1はオペラント反応からの強化率である．

図 2-2はHerrnstein(1970)による単一キー強化スケジュールでの対応法則(式2-4)をあらわしている．左のパネルAではkを100に固定したの場合にR0が50の場合(実線)と10 の場合(破線)とで1時間あたりの強化率によって1分あたりの強化率がどのように変化するか表している．同様に右のパネルBではR0を50に固定した場合にkが100の場合(実線) と 50 の場合(破線)を比較している．図からわかるように，どの場合でも強化率が高くなるにしたがって反応率も高くなるが，反応率の上昇は次第に小さくなる．強化率が非常に高くなっても反応率には上限がある．パネルAから他行動から得られる強化率が低いとオペラント反応は低い強化率でも高い反応率になることが分かる.また k は反応率の漸近値(上限)であり，kの値の違いによって反応率に大きな違いがあることがパネルBからもわかる．

Herrnstein (1970)は式2-4をCatania & Reynolds (1968)のVIスケジュールでの結果にあてはめたところ，非常によく当てはまることがわかった(de Villiers & Herrnstein, 1976)．また人間を被験者とした単一強化スケジュールでの結果についても対応法則が多くの場合に成り立っていることが示されている(Beardsley & McDowell, 1992; Bradshaw, Szabadi, & Bevan, 1976; Bradshaw, Szabadi, & Bevan, 1977)．

4) メリオレーション(Melioration)理論

対応法則はさまざまな選択実験の結果と非常によく一致している．しかし，なぜ相対強化率と相対反応率が対応するのか？ということについて説明するものではない．対応法則だけでは実験結果を記述することはできても説明することはできないのである．対応法則その

Reinforcement Rate Per Hour

Response Rate Per Minute

⁰ ⁵⁰ ¹⁰⁰ ¹⁵⁰ ²⁰⁰

20 40 60 80 100

k=100, R =10

0

k=100, R =50

0

0 50 100 150 200

20 40 60 80 100

k=50, R =50 k=100, R =50

0

A B

(16)

13

ままでは説明できない現象として並立variable ratio (VR)¹・VRスケジュールでの実験があげられる(Herrnstein & Loveland, 1976)．そこでVaughan (1981)ではメリオレーション理論を提唱し，上記の対応法則の問題点を解決している．メリオレーション理論では人間や動物は反応率と強化率の比が有利なほうを選択し，それは2つの選択肢で等しくなるまで行うと仮定している．

並立 VR・VRスケジュールの場合に，VRの値が小さく有利な選択肢のみが選択されることをメリオレーションはうまく説明できる．VRスケジュールではその選択肢に対する反応が増えても反応1回あたりの強化確率は一定のため，強化率と反応率の比は一定のままである．このため有利なVRスケジュールの選択肢は反応率が高くなっても有利なままであるため，有利な選択肢を選択し続ける．メリオレーション理論は反応率・強化率といった巨視的な変数についての理論であるが，対応法則が成立していく過程を説明している点で微視的な理論とも言える．

2.1.2 最大化理論

ここでは巨視的最大化理論，微視的最大化理論のそれぞれ代表的なものを取り上げ，簡単に解説する．最大化(maximization)または最適化(optimization)は行動分析だけではなく，

むしろ経済学・ゲーム理論や行動生態学における基本的な考え方である．経済学・ゲーム理論においては合理的な経済人は効用を最大化するような行動をとると仮定されており，行動生態学においては適応度(子孫を出来るだけ多く残すことが出来ること)が高い個体が生存していると考えられることから，ある生物は適応度が最も高い行動を選択しているものとして分析をしている．行動分析において最大化の対象になっているのは研究者によって異なっているがほとんどの場合には強化率であり，ときに強化確率などのほかの指標である．

1) 巨視的最大化理論

巨視的最大化理論は比較的長い時間にわたる行動と強化との関係性を強化率（単位時間当たり報酬量）の最大化という観点から説明するモデルである．巨視的最大化理論にはミクロ経済学における消費者行動理論を選択行動および強化スケジュールのもとでの反応率の分析に当てはめたものがある．経済学においても特に消費者行動理論は個人の意思決定を扱う点から心理学との親和性が高い．例えば経済学において重要な概念である効用を測定する方法は心理学における精神物理学的測定法である(ただし経済学者が効用を測定することはほとんどない)．

異なる強化子への反応の割り振りの変化の仕方は，ちょうど人間が予算10,000円内で2 つの商品にどれだけのお金を配分するかと類似している(Rachlin, Battalio, Kagel, &

Green, 1981)．動物実験における1実験セッションでの反応可能な回数は人間にとっての予

1 VRスケジュール(変率スケジュール)では変動する反応回数ごとに強化する．例えばVR30ではあるときは5回，別のときには40回反応すると強化子が与えられるが，平均して30回反応するごとに強化子が与えられる．

(17)

14

算制約であり，強化子を獲得するための反応回数が変わることは人間にとっては商品の価格が変化したことと同じとみなすことが出来る．このため経済学での消費者行動理論の分析方法(無差別曲線分析)をほぼそのまま動物実験の結果に適用することが出来，2 つの強化子間の代替性の分析，代替効果・所得効果などを求めることが出来る．

Rachlin (1978)，Rachlin & Burkhard (1978)によると強化スケジュールのもとでの行動は，強化子を得るための道具的行動(オペラント反応)，強化子を消費するための完了行動，

他行動(余暇的行動, leisure)からなる．これら3つの行動はちょうどミクロ経済学での品物と同様であり，実験試行での時間をそれぞれの行動に配分することで被験者・被験体は全体的な効用を最大化すると考えた．Rachlin et al. (1981) では対応法則が成立する理論的な説明および対応法則が成立しない現象の説明を提供している (Kagel, Battalio, & Green, 1995; 坂上, 1997) ．

異なる観点による最大化理論も提案されており，Rachlin らと同様に様々な実験結果を説明している．Baum(1981)は環境と被験体はフィードバックシステムを構成しており，被験体は参照基準(reference criterion)からの逸脱を小さくするように行動を配分していると考えた．Baum(1981)では並立 VI・VI スケジュールでの対応法則が導き出せること，および単一VIスケジュールでの反応率を説明できることなどが示された．

巨視的最大化理論では反応率に応じて強化率がどう変化するかを示す，フィードバック関数が重要な要素になっている．例えば一定の反応回数ごとに強化が与えられるFRスケジュールであれば，反応回数に依存して強化子が提示されるため，反応率が高くなるほど強化率が高くなるという直線的な関数が考えられる．しかし強化スケジュールの中でも特に重要なVIスケジュールにおけるフィードバック関数が正確にどのような関数であるのかは定義することは難しく，さまざまな形のフィードバック関数が提案されている(Baum, 1992;

Heyman & Luce, 1979; Nevin & Baum, 1980; Prelec & Herrnstein, 1978; Staddon &

Motheral, 1978) ．フィードバック関数を確定できない理由としては被験者・被験体がどの

ような IRT 分布で反応するかによって同じ反応率であっても強化率は異なってしまうからである．

2) 微視的最大化理論

微視的最大化理論は被験体が行動する毎に強化率(回数など)を最大にするように行動すると仮定したモデルである．巨視的最大化理論では実験セッション全体に関した指標(反応率・強化率など)を扱っていたが，微視的最大化理論ではIRTや強化間間隔といった短い時間に関した指標を扱っている．被験体が瞬間瞬間または行動する機会があるごとに局所的な強化率を最大にするような行動を選択する結果として，実験セッション全体で見た強化率の最大化または相対強化率と相対反応率の対応が観察されると考えられている．

Shimp(1966)はハトを被験体として，視覚的刺激による確率学習課題と並立 VI・VI ス

ケジュールに類似した選択課題を用いて，瞬時最大化(momentary maximization)が行われているか検討した．瞬時最大化では，被験体は選択の瞬間に強化確率の最も高い選択肢を選

(18)

15

択する傾向があると仮定している．このため2つの選択肢A0，A1があったときに，例えば P(A1|A0,A1)つまり A0，A1という順序で被験体が選択した状況で次に被験体が A1を選択する確率を予測できると考えた．実験では交替反応を抑えるために2回連続して一方の反応キーを押した場合にのみ強化を与えるようにすると，ほぼ瞬時最大化の予測と類似した反応系列を示した．また相対強化率と相対反応率の対応も観察された．また瞬時最大化をする被験体をコンピュータシミュレーションしたところ，並立 VI・VIスケジュールにおいて実際のハトと同じように相対強化率と相対反応率の対応を示した．これらのことから，瞬時最大化を被験体がする結果として，相対強化率と相対反応率の対応が起こるのだと主張した．

Shimp (1969)では瞬時最大化を数学的に定式化している．被験体は複数ある行動の選択肢の中から強化確率で重み付けられた結果の価値が最大であるような選択肢をリアルタイムに選択していると仮定している．また強化に遅延がある場合には，結果の価値は単なる報酬量ではなく遅延による影響を受けるとしている．また単一キーでのVIスケジュールについても検討し，単一キーVI スケジュールにおいても並立スケジュールにおける反応の選択と同様の選択が行われていると仮定した．強化が与えられた後に被験体は「いつキーに対して反応をするか？」(またはそれまでに他行動(mediating behavior)をするか)決定すると考えた．このため単一キーVIスケジュールでの選択肢とは異なる長さのIRTクラスであるとし，IRTの長さによって割り引かれた報酬価値をもとに選択をしていると仮定された．この仮定のもとでシミュレーションをした結果，Shimp(1967)において観察されたIRT分布とよく一致していた．

Shimpの瞬時最大化に対して，Hinson & Staddon (1983a, 1983b)では①瞬時最大化のフォーマルな基準を決めること，②瞬時最大化が起こっているのかいないのかを正確に示す行動指標が必要であると指摘した．互いに独立な並立 VI・VIスケジュール(それぞれのVI 時間がもう一方のスケジュールに対する被験者の反応の影響を受けない)においては，VIスケジュールでの強化確率はその反応キーに対する反応からの経過時間のみに依存する．数式では並立 VI・VI スケジュールにおいて，それぞれの反応キー1，2 に対する強化確率は以下のように表すことができる．

( )

²²

1 1

1 | 1

|

2 1

t t

e t

R P

e t

R P

λ λ

−

=

−

=

2-5

ここで t1は反応キー1 での前回の強化からの経過時間，P(R|t1)はt1のときに反応した場合の強化確率を示している¹．λ1はVIスケジュールでの強化率を示している．反応キー2

1 ここではtiは前回の強化からの経過時間であるが，Constant Probability VIスケジュール(または Random Intervalスケジュール)においてはtiをIRTに変更しても式2-5は成立している．また1/λ1がVI

(19)

16

に対しても同様である．このように相互に独立なVIスケジュール同士での並立スケジュールでの強化確率は他のキーへの反応に依存しない．このため並立 VI・VIスケジュールにおいて瞬時最大化をするには，反応をする際に前回の強化からの経過時間を元に式2-5から反応キー1，2 のどちらが強化確率が高いか比較し，強化確率が高い反応キーを選択することとなる．どちらの反応キーへ反応したほうが有利であるか(強化確率が高いか)を示すため，

また実際の被験体の反応が瞬時最大化を行っているかを示すためにclock spaceというグラフを提案した．Hinson & Staddon (1983b)ではハトを被験体として並立 VI・VIスケジュールでの実験を行い，上記の分析方法を用いて瞬時最大化が行われているか分析した．この結果，clock spaceグラフでは学習の初期段階では，clock space上に比較的ランダムに反応が見られたが，学習が進んだ段階では瞬時最大化が予測するように反応キー1 での反応は

clock space上において反応キー1が有利な領域で多く見られた．反応キー2についても同様

であった．

この他にも微視的最大化を支持する研究がいくつか行われている．Silberberg & Ziriax (1985)はメリオレーション理論と微視的最大化を比較検討する実験を行い，被験体が局所的な強化率を最大化(微視的最大化)するように行動するという結果を得ている．さらに微視的最大化の方略を用いるハトのシミュレーションを行って，実験の結果と類似することを示した．また人間を被験者とした場合でも対応法則よりも微視的最大化を支持する結果がある (Silberberg, Thomas, & Berendzen, 1991)．

2.1.3 対応法則か最大化か？

ここでは対応法則・最大化理論に対する批判，理論を支持しない実験結果，理論的な問題点などを取り上げる．最後に対応法則と最大化理論の類似点と統合の可能性について述べたい．

1) 対応法則の問題点

はじめに対応法則に対する批判について説明する．対応法則は並立スケジュールのような2つの反応の選択実験，また単一キー強化スケジュールでの実験結果を幅広く説明できる点から多くの研究者が支持している．また一般対応法則では厳密な対応法則からの逸脱現象もパラメータを一部修正することによって記述することができるという点で柔軟性のある理論になっている．しかし対応法則では説明することのできない逆対応(anti-matching)という現象も報告されている(Hursh, 1978)¹．

また対応法則では相対強化率が等しければ，相対反応率も等しくなることを予測するが，

並立 VI・VR スケジュールを用いた実験では，相対強化率が等しいときでも多くの場合，

VRスケジュールに対して高い反応率を示す．またメリオレーション理論によって克服でき時間となる．

1逆対応とは相対強化率が増加すると相対反応率が反対に減少する現象である．これは巨視的最大化理論では説明することが可能である(Rachlin, Kagel, & Battalio, 1980)．

(20)

17

たが，並立 VR・VRスケジュールにおいて強化に必要な反応回数の少ない選択肢のみが選択されることを対応法則では説明できなかった．これは対応法則がなぜ反応が配分されるかを説明する理論というよりも，単に相対反応率を記述する理論であったことを示している．

また時間配分の対応についても，他行動に費やしている時間の方が実際にその選択肢での反応キーに対してオペラント反応している時間よりも長いことが示されており，対応法則の想定と異なっていることに問題がある(Davison, 2004)．

理論的な面での問題点も指摘しておこう．Baum (1974)が提案した一般対応法則(式2-3) は厳密な対応法則から逸脱した多くの実験結果をうまく記述することに成功している．しかし，多くの実験結果によい当てはまりがあることが正しい理論とはいえない．厳密な対応法則が自由パラメータを含まないものであったのに対して，一般対応法則では少なくとも2つのパラメータを持っている．一般に自由パラメータの数が多くなればなるほど，モデルのデータへの当てはめは容易になる．

また一般対応法則では報酬量・遅延時間・強化率といった各変数は独立なものとして取り扱っているが，この仮定にも問題がある． Davison (1988)は一般対応法則でうまく説明できない，報酬量と強化率の交互作用についての実験をハトを被験体に並立 VI・VIを用いて調べたところ，全体強化率¹(overall reinforcement ratio)が高くなるにつれて，強化量 (reinforcement duration)への感応度が低下することを示した．この結果は，2つ以上の独立変数の交互作用を説明できないという一般対応法則の問題点を示している．

2) 巨視的最大化理論の問題点

ここまで対応法則への批判について簡単に見てきたが，最大化理論に対しても多くの批判が寄せられている．並立 VI・VR スケジュールでは対応法則と最大化理論は異なる予測をする．対応法則では相対強化率と相対反応率が対応することを予測する．一方，巨視的最大化理論では対応しないことを予測する．VRスケジュールでは反応数に依存して強化子が用意されるが，VI スケジュールでは強化子呈示の準備がされるまでにはある程度の時間が必要であるので，並立 VI・VRスケジュールで全体強化率を最大化するためには，VRスケジュールに反応を多く振り分け，VIスケジュールにはときどき(強化子が準備されるほど時間が過ぎたあとに)反応をするという方略がよい．このため巨視的最大化理論では相対強化率よりも VR スケジュール側に多く反応するようなバイアスがあることを予測する．

Herrnstein & Heyman (1979)はFindley型の並立 VI・VRスケジュールでの選択行動を調べたところ，ほぼ対応法則が予測するような相対強化率と相対反応率の対応が見られた．この結果は最大化理論の予測と一致しない．

これに対し最大化理論では他行動から得られる効用を含めての最大化を提案している．

人間も会社で働くことにのみ時間を振り分けるのではなく，遊びに行く，買い物をするなどの余暇を楽しむ．同じように反応キーへの反応を労働，それ以外の活動を余暇と考えると，

1 全体強化率とは実験セッション全体での強化率である．

(21)

18

VRスケジュールでは反応数に依存し強化子が与えられるためたくさんの労働をする必要がある．一方，VI スケジュールでは以前の強化からの時間に依存しているため，他行動という余暇に時間を費やしていても強化子を得ることが可能になる．単なる強化率最大化では VRスケジュールへのバイアスを予測してしまうが，他行動を含めて最大化をすると仮定すると実験データと同様の予測をすることが可能であるとした(Kagel et al., 1995; Rachlin et al., 1981)．

巨視的最大化を支持しない実験結果は多数ある．巨視的最大化では全体強化率の最大化がなされると考えられるが，全体強化率が選択の重要な要因とは認められない(Davison &

Kerr, 1989; Vaughan & Miller, 1984)．また全体強化率よりも局所強化率のほうが重要とする結果もある(DeCarlo, 1985)．ハトやラットなどはセルフコントロール実験においてすぐに獲得できる小さな報酬を選ぶことで，全体強化率の最大化を行えない(Ainslie, 1974; Logue

& Pena Correal, 1984; Rachlin & Green, 1972)．人間を被験者とした場合でもセルフコントロール実験において選好逆転が起こり，全体強化率を最大化しない場合があることが報告されている(Kirby & Herrnstein, 1995)．このほかにも最大化が見られないという結果は多く報告されている(Vyse & Belke, 1992; Williams, 1985)．Heyman & Herrnstein (1986)はハトの並立VI・VRスケジュールでの実験結果をレビューし，再実験を行った．彼らの結果を最大化理論では説明できず，対応法則とそこから導かれることを追求したほうがよいと結論付けた．

理論的な分析からも巨視的最大化理論に対する批判がある．Heyman & Luce (1979)は並立 VI・VI スケジュールにおいて，対応法則は強化率の最大化の結果だとする Rachlin, Green, Kagel, & Battalio (1976)のモデルを数学的に再検討し，巨視的最大化は正しくないと主張している．Prelec (1982)も同様の分析結果を出して巨視的最大化を批判している．これに対して Rachlin (1979)は実験者が設定した相対強化率で見た場合には最大化が対応法則と一致しないが，実験で得られた実際の相対強化率で見た場合には一致すると反論している．ここまで巨視的最大化理論の問題点について述べてきたが，微視的最大化理論にも問題点がある．これについては「2.2反応間間隔について」で述べたいと思う．

3) 何を最大化するのか?

Baum (1981)は巨視的な理論である一般対応法則と巨視的最大化理論の比較をして，どちらの理論でも複数または単一の行動についてうまく説明できているが，どちらかというと対応法則は並立スケジュールでの行動を，最大化理論では単一強化スケジュールでの行動をうまく説明しているとした．

最大化理論と対応法則を比較する際に，局所強化率(local reinforcement rate)と全体強化率(overall reinforcement rate)という観点が重要である．局所強化率とは複数ある選択肢それぞれの強化率である．対応法則およびメリオレーション理論では各選択肢における局所強化率が等しくなるように被験体が選択するとしている(Baum, 1981)．これは常にその時点での局所強化率がもっとも高い選択肢を選択することと等しいので，対応法則は局所強化率

(22)

19

の最大化の結果と見ることが出来る．一方，全体強化率は実験セッション全体での強化率をさしている．巨視的最大化理論における最大化の対象は全体強化率を最大化することであり，

そのために具体的には各選択肢における限界強化率(marginal rate of reinforcement)を等しくする(Baum, 1981; Prelec, 1982; Staddon & Motheral, 1978)．

人間が被験者の場合には行動の選択において動物と比較して全体強化率が重視されるようである． Flora & Pavlik (1992)は人間を被験者にお金に交換できるポイントを強化子としたセルフコントロール実験において，全体強化密度(overall reinforcement density：ポイント／試行時間全体)の影響を調べた．この結果，常に全体強化率が高い選択肢が選ばれやすいことが示された．同じようにIto & Nakamura (1998)は人間を被験者に，並立連鎖スケジュールを用いて局所強化密度(local reinforcement density：ポイント／遅延時間)と全体強化密度(overall reinforcement density：ポイント／試行時間全体)のどちらが遅延報酬の選択に影響を与えるか検討した．この結果，動物では対応法則のように各選択肢の局所強化密度が重要であるのに，人間を被験者とした場合には全体強化密度のほうが選択比率をうまく説明することが示された．

このように強化率の異なる側面についての最大化が考えられている一方で，強化率以外の基準での最大化も考えられる．Sakagami, Hursh, Christensen, & Silberberg (1989)の実験から，動物はincome flow(強化率)ではなく，income level (一日あたりの強化の総量)を最大化していると考えられた(Shurtleff & Silberberg, 1990)．Silberberg, Bauman, & Hursh (1993)は経済学とのアナロジーから強化率ではなく報酬量の最大化を提案している．巨視的最大化理論での最大化の対象は全体強化率であるがこれは経済学でいうところのフロー (flow)の最大化とみなせる．一方で，手持ちの財産として反応の回数に制限がある場合に，

そこから得られる報酬量を最大化することも考えられる．これは経済学ではストック(stock) の価値の最大化である．Vaughan & Miller (1984)では反応率が上がるほど強化率が下がるスケジュールにおいても，非常に高い反応率が見られたことから最大化は行われていないと結論をしているが，ここでの「最大化」はフローの最大化である．Silberbergらの研究では実際にストックの最大化が行われているかを調べるために，実験セッションでのオペラント反応による強化以外では餌を獲得できない閉鎖経済(Closed Economy)環境においてサルを被験体にトークンを使った実験を行った結果，サルは実験条件に合わせて反応率を変化させてストックの最大化を行うことが示唆された．同様の結果はWidholm, Silberberg, Hursh, Imam, & Warren Boulton (2001)でも確認されている．

これらの結果は巨視的最大化理論の前提が間違っているかもしれないことを示唆している．巨視的最大化理論においては全体強化率または同じことであるが単位時間あたりの報酬量が最大化の目的である．しかし，動物や人間は研究者が仮定した強化率という指標ではなく他の指標を最大化しているかもしれない．上記の結果ではストックやincome levelを最大化するとみなせば，被験者の行動は最大化をしている行動となっている．最大化理論の理論的弱点として，最大化する目標を変更することで被験体の行動を｢最大化している行動｣とみ

(23)

20 なせることだとも言えよう．

メリオレーション理論(と同時に対応法則)も最大化の目的を修正することで最大化理論によって説明することが可能になるかもしれない．Herrnstein, Loewenstein, Prelec, &

Vaughan (1993)はメリオレーション理論と巨視的最大化理論を排他的にとらえるのではなく，どのような外的な要因によって被験者の行動がよりメリオレーション的あるいはより最大化的なものになる傾向があるのかを検討した．彼らは最大化を「自分自身の行動による結果の価値の変化も考慮に入れて，全体的な効用を最大化すること」，メリオレーションを「自分自身の行動による影響を考慮せずに，局所的な効用を最大化すること」と捉えた．被験者の行動は「自分自身の行動の結果による影響」を考慮する程度によって最大化的・メリオレーション的と区別できる．Herrnstein らは人間を被験者に左右の矢印キーへの反応の配分によって得られる報酬が変化する課題を使った実験を行った．この結果，過去6回分の選択結果のみが現在の報酬に影響する場合よりも，過去20 回分という非常に昔の選択結果までが影響する場合のほうが最大化を行うことが困難(つまりメリオレーション的な行動をしがち)であることが判った．また過去の選択結果が報酬を得られるまでの「遅延」に影響を与えた場合の方が｢報酬の量｣に影響を与えるよりも最大化を行うことが困難であることも示した．

4) 対応法則と最大化をつなぐ遅延

最大化と対応法則を結びつけるコンセプトとして遅延が取り上げられている． Herrnstein et al. (1993)はなぜ動物・人間がしばしば最大化を行えず，メリオレーション的な行動をとるかについて2つの要因を提唱した．一つは認知的な要因であり，被験者にとって過去の自分の行動が将来の行動の結果に影響を与えていることを理解することはしばしば困難であるという点である．2つ目は動機づけ的な要因であり，これはもっとも適切な行動をとるよりもすぐに報酬を獲得できる行動をとるという衝動性に関連している．以上の2 つは認知的・動機づけ的の違いはあるがどちらも遅延価値割引に関連している．彼らは報酬の遅延を実験手続きの中で明示的に取り上げている実験以外の実験場面(例えば並立VI・VR スケジュールでの相対反応率を検討したものなど)でも遅延価値割引の影響を考える必要があるとしている．さらに IRT を一種の遅延と考えると，巨視的最大化理論で説明ができないこともうまく解決されるという指摘がある(Kagel et al. 1995; Prelec, 1982; Rachlin, Green, & Tormey, 1988)．例えば並列VI・VRスケジュールにおいてVIスケジュールへの反応率が最大化理論の予測よりも高い理由として，VI スケジュール側で反応することでより早く強化子が手に入るからだという指摘である．

またIRTを遅延とする考え方は微視的理論と巨視的理論(対応法則と巨視的最大化)をつなぐ考え方であるとも言えよう．微視的理論であるShimpの瞬時最大化ではIRTの長さを遅延として報酬の価値の割引に使用している．Silberberg, Warren Boulton, & Asano (1988) は巨視的と微視的という相対立している理論・行動に対する見方を割引率という観点から見直すことを提案している．割引率とは遅延の長さによって報酬の価値がどの程度低下するか

(24)

21

という比率のことである．割引率が低いと長い遅延があったとしても報酬の価値は下がらない．割引率が高いと少しの遅延で報酬の価値は低下してしまう．Silberbergらは巨視的最大化理論とは IRT という一種の遅延に対する割引率が低い場合であり，微視的最大化理論は割引率が高い場合を意味していると指摘している．

ここまで本論文の3つの研究と関連のある対応法則と最大化について簡単に概観してきた．対応法則と最大化はどちらの行動を選択するのかという基本的な疑問について説明を与えるものであり，行動分析において非常に多く研究がなされている．このためこのあとに説明する反応間間隔とその系列依存性，遅延価値割引という本論文での研究に直接関連する過去の研究と密接なかかわりがある．対応法則と最大化についての諸理論は初期には大きく対立しているようではあるが，しだいに何を最大化の目標としているのかという観点から統合されてきているようである．特にどの程度のスパンで強化をとらえるのかという点が重要であろう．対応法則の見方は局所強化率が目標であり，時間について近視眼的である．巨視的最大化では実験セッション全体の全体強化率が目標であり，時間については遠大であるといえよう．両者を結び付ける一つのキーワードは遅延であり，強化スケジュールにおける一種の遅延とみなせるIRTであるといえるだろう．

2.2 反応間間隔について

「毎日このWebサイトは確認しないと．でもこっちのサイトはたまにで十分」，「犬が急に吠えた．その後しばらくおとなしく骨をしゃぶっていたのに，また吠え出した」など，人間も動物も特定の行動を途切れなくし続けるのではなく，ある程度の間隔をもってする．どうしてある行動は頻繁に行うのに，別の行動はめったに行わないのだろうか？ここでは，強化可能な行動単位としての反応間間隔(IRT)についての研究を概観する． IRTは微視的な行動データとしては基本的なものであり，強化スケジュールに特有な反応パターンが生じる過程を考える際に重要である．

前節においてIRTを一種の遅延とすると対応法則と最大化理論を結び付けることが可能であるとする見方が示された．そこでここでは IRT についてのこれまでの主な実験結果，

分析方法，理論などを紹介したい．まず実験中の事象系列を IRT と強化・非強化という行動の結果によって表すことについて説明する．次に IRT に対する強化によって強化スケジュール下での反応パターンを説明する IRT 強化理論および強化可能な行動単位としての IRT を紹介する．これらは被験者がどのような長さの IRT で反応をするか，報酬を与えることでIRTが変化するかについてであるため，研究1･2と関連が深い．最後にIRT系列依存性とIRT変動性を説明する．これらはIRT系列依存性の有無および変動性を高める方法について検討している研究2へとつながるだろう．

IRTとはフリーオペラント実験におけるオペラント反応間の時間である．図 2-3は反応

とIRT，および反応の結果(報酬あり／なし)の時間的関係を表している．反応キーが1つの

行動選択における反応間間隔と 遅延時間の影響