長走行時間分化強化と付随行動

(1)

τ 加 _∫ψα 麗 se　

J

ρ ”rnal げ Psッ‘加nomic 　sσ廟 ce 1982

_，

Vo1

．

1

_，

　No

．

2_，91

−

100

長走行時間分化

強

化

と

付

随

行動

山

本

豊

東京　大学

Co1

正ateral　

Behavior

　under 　

the

Di

_｛

ferential

Reinforcement

　of

Long

Running

−

time

Schedule

Yutaka

YAMAMoTo

University

げ Tokyo

　　Three　 experiments 　 explored 　 the　 collateral 　

behaviors

　of　rats　under 　the　

differentia

正 reinforce 皿 ent 　of　long　running

−

time　 schedule _（DRLR _）in　a　6

−

segmented 　straight 　alley

．

　 In Experiment 　l　and 　2

，　three 　groups　were 　used

．

　 DRLR 　was 　applied 　to　parts　of　the　alley ，　i

．

　e

．

first　4 （

，

　middle 　4 （Middle ）

，

　or　last　4 （Posterior）segments 　of　the　alley　for　the

respective 　_groups

、

developed

　the　

highest

degree

　of　collateral 　

behaviors，

followed

by

　 tllose　of　

Posterior

　group

，

　while 　 the　collateral 　

behaviors

　olt

’

the　

Middle

　group

progressivety　decreased　with 　training

．

　 In　Experiment 　3

，

　three 　groups　o ［ rats　were 　given

continuously 　reinforced 　trials_（

0，

200r 　80　trials_）fol】Qwed 　

by

　DRLR 　training

．

　 Result　showed that　the　region 　 a王ong 　the　alley　where 　collateral　

behaviors

　were 　seen　was 　related 　to　the amount 　of　continuously 　reinforced 　trials　received

．

Taken

_together

，

findings

of_thisstudy are 　incoInpatible　with 　the

“

adventitious 　reinforcement

”

or

“

　interim　

behavior”

interpreta

．

tion

，

　and 　suggest 　that　rats 　did　not 　learned　a　collateral 　

behavior

　per　se　

but

　rather 　a　response chain 　_as　_a　_whole

．

Key 　words ：differential　reinforcement 　of　long　running

−

tirne　schedule

，

　straight 　alley

，

　collateral

behavior，

　rat

，

　近年の_{動物}による時間評価の研究の興隆に伴なって

，

時間分化強化手続きによる動物行動の変容の研究も盛んになってきた（Richelle ＆ Lejeune

，

1980）

．

これらの研究の大部分はフリ

ー

ナペラント事態においてラットのレバ

ー

押し

，

ハトのキ

ー

つつぎ等の反応を用い

，

反応間間隔（IRT ）等を計測して_実験者の設定した基準に従い_{分化} 強化をするものである

．

低頻度分化強化スケジ

ュー

ル（

DRL

）等の長時間方向への分化強化手続きでは

，

IRT

の最中に， collateral　

behavior

（

Wilson

＆

Keller

1953，

以下「付随行動」と呼ぶ）と呼ぽれるステレオタイプ的な行動がしばしば観察される

，

付随行動が形成される機序はどのようなものなのか，また動物が「時間どり」（timing ）をするにあたって必須な媒介行動なのか

，

単なる副産物的行動なのかという問題につ _き，多くの議論がなされている（

Laties

　et　al

．

，1965

；

Laties

　et　al

．

，

1969

；

Kramer

＆

Rilling

，1970

；

RichelIe

＆

Lejeune，

1980

）

，

　これとは別に，

Skinner

（

1948

）は，スキナ

ー

箱に入れたハ _{トに}20_秒_お _き_に_{反応}と_は _{無関係な給餌}を_{行なう}_と，定型化した行動パ _タ

ー

ン _が_{それぞれ}の

ハ

トに出現するのを観察し

，

「迷信行軌と呼んだ

．

Skinner

はこれらの _{行動} は

「偶発強イ匕」

（adventitious

reinforcement _）

_Pこより形成されると考えたが

，Staddon

＆

Simmelhag

_（

1971

_）は，給餌間隔内での様々の行動の時間経過に伴なう推移を調べて，

ハ

トの行動レパ

ー

トリ

ー

内の特定の反応群が，周期的給餌の経験をへるにつ _れ

，

_{強化}までの時間が隔たっているがゆえにステレオタイプ的に出現するという事実を明らかにした

，

これらの行動は「_{中間行動」}＊（

inter

・

ium

behavior

）と呼ばれる

．

これに対して

，

強化直前に生起頻度が増加する

，

報酬に対する完了行動に類似した反応群が別に_存在し，これらは「終結行動」（terminal behavior_）と呼ばれる

．

　Skinner が_{迷信行動と呼}_ん_{だも} のの大部分はこの中間行動であると考えられ

，

偶発強＊ _{中間行動}_{とは}

，

_{強化}_の_後

，

_{終結行動}_が_{生起す}_{るま} での　問に生ずる行動といった意味であり，強化と強化の問　の真ん中の時点で生ずる行動という意味ではない

，

(2)

92 基礎心理学研究第 1巻第 2号化により形成されたものではないことが示唆された

．

Staddon

はこの_後

，

強化と反応の変動性の関係についての理論を展開しているが（Staddon

，

1976）

，

それにょると，周期的に強化刺激が呈示される状況では

，

次の強化刺激に時間的に近い時点も

，

遠い時点も反応の変動性は小さく

，

中間時点で_{変動性が大きく}なるとしている

．

そして強化刺激に遠い時点ででる中間行動は，強化刺激に対する完了行動に拮抗する別の完了行動に類似したものになるとされた

，

DRL

等にみられる付随行動と，　

Staddon

の中間行動の概念には多くの_共通性があり，何らかの関係が推測される

，

付随行動は「時間かせぎ」の為の行動の如き効果をもち，強化に遠く先立つ時点でも出現しうる

．

またこの反応が偶発強化により形成されていくとする説明も可能である

．

形成の_過程，その機能について

，

2

者間の比較検討が必要となる

．

　本研究で用いるスケジ

ュー

ルは

，

ラヅトの直線走路走行反応に適用されるもので

，

長走行時間分化強化（Dif

−

ferential

　Reinforcement 　of　Long 　Running

−

time _；_以

下

DRLR

と略記する

．

）手続きと呼ぶことにする

．

手続ぎの考案者

Logan

（

1960

）によりいくつかの基礎的デ

ー

タの報告がなされた

．

ラットを用い，餌を報酬として直線走路を走らせる際，計測された走路全体の走行時間が

，

予め_{実験者}により設定された基準時間（この時間は連続強化あるいは部分強化の際に期待される走行時間より相当大きい

．

_）より長かった場合にのみ

，

走路終端のラットが走りついた地点に餌を落す

．

訓練が進むに従い _，ラットの走行時間は基準時間近辺に最頻値を持つ単峰性の分布を示すようになることが知られている

．

直線走路事態は，

一

定距離の直線上に連続継起する反応連鎖を最終地点で強化することにより系列化する事態とみなせるが

，DRLR

訓練下のラヅトが形成する反応系列の様相は，連続強化あるいは部分強化での

“

連続的な走行反応系列” とは当然異なってくる

．

Rashotte ら（Rashotte

＆

Amsel ，1967，1968

；

Amsel

＆

Rashotte，1969

）により

，

DRLR においても，ラヅトは走行中に付随行動と呼ぴうるステレオタイプ_{的な} 「時間どり行動」を示すことが報告され，個別儀式行動（

idiosyncratic

　rituals）と名付けられた

．

既に述べたフリ

ー

オペ _ラントの DRL 等の研究では

，IRT

の間，ラットの行動の変化は数値的に把握することはできない

．

これに対し走路の DRLR ではフォトセンサ

ー

を多数用いることにより走路を細分化して各々の区画の走行時間を計測しうるので，引き延ばされた走行時間内のラヅトの付随行動に関する情報を

．

区画走行時間系列として数値的に捉えることが可能となる

．

　本報告では_， 6区画直線走路を用いて_{滞留}区画（そのラヅトが他の区画に比べて大きな走行時間を示す区画を指し，従って付随行動が多発している区画と考えられる

．

）の分析を可能にし

，

走路上の付随行動と強化との _関係を明らかにしようとする

．

実験の出発点として

，

本来時間的に設定された状況で提出された中間行動の概念を走路の_{空間}_{布置}に拡大適用し，走路での付随行動が

，

中間行動の_{諸特徴}を備えているか否かを検討していく

．

偶発強化と走路の付随行動の関係についても検討が加えられる

．

実験 1

　Logan （

1960

），　

Rashotte

＆

Amse1

（

1967，1968

）に

よると

，

DRLR でみられる付随行動は

，

出発箱のドアをかむ

，

途中で逆戻りし再度方向転換して目標箱まで

一

気に走る

，

目標箱のドアの直前でうずくまる，等々で，その反応のトポグラフィ

ー

や生起する位置は様々のようである

，

実験

1

では

，

報酬を得る走路の最終地点と付随行動の生ずる地点との距離関係について_調べてみる

．

走路での付随行動は報酬地点に近付く走行反応と拮抗する反応群であり，

Staddon

の中間行動の概念を走路の空間上に適用するならば

，

それは報酬地点から遠い出発箱よりの部位で最も生じやすいはずである

．

3群を設け， 6 区画走路の出発箱に近い

4

区画，両端の区画をぬいた

4

区画，日標箱側の

4

区画の走行時間で各々 DRLR 訓練を行ない，各群に設定した強化基準により付随行動の生ずる地点をどの程度に規定しうるかを検討する

．

方法　被験体　実験開始時生後約85日の実験歴のない

Wistar

系雄ラット18匹を使用した

．

自由摂食時の 85 ％の体重（平均

2459

）で維持した

．

　装　置

い

O

Start Runway Gool　box

boxGDM にro　5w随ch慶 GD PI

_層

　　　　　P2

_層

　　　　　P3

，

　　　　　P4P5

」

1　　　　　　

唱

’

．

　引

l　　　　　　l　　　　　　

、

　　　　　_：

iF

l　　　　 l … 1

−

　30

甲

：　　　　　　　　　　　　　　　　　　　　　　：　　　

，

　　　　：　　　　

．

　　　　： …₁₅

_．

_L35

_＿

…

＿

，5

＿

i

＿

35

−

…

一

、，　　　　　　：　：　　　　：」

＿

3D 」

　．

egment

噛

゜

冒

　　　　　　1

’

₁

1 唱

_幽

1i 　2　

i

　 3　

i

　 ₄　： 5

・

1　　　　

卜

：　　　　

」

　　6　　

・

’

”

巨 3FoOd　tray

　　　　 GO 斈Guilloti飢e　door P；Pho吐06el匚

(3)

山本：_{長走行時間分化強化}_と_{付随行動} 93 　全長215cm の木製廊下式直線走路（Fig

・

1

）を使用した

．

30cm ×30　cm の出発箱

，

140cm ×10　cm の走路本体，

45cm

×

10

　cm の目標箱から構成され，各部分はギロチンドアで区切られる

，

側壁の高さは約

45cm

で天井は開放されており，内面は目標箱が黒色

，

その他はすべて灰色に塗装されている

．

走行時間計測用に 6個の赤外線フォトセ γ サ

ー

（出発箱に近い方から順番にPl から P6 まで番号をつ _けて呼ぶ）を用いた

，

出発箱ドアより

P1

までの距離は，

15

　cm ，　

P

5

より最終端餌皿上を透過する P6 までの距離は 30　cn1 _，その _他の隣接するフォトセンサ

ー

_間の距離は 35cm である

，

出発箱ドアには引き上げ検知用のマイク卩 _スイッチを装着した

．

目標箱終端の_壁の_{裏側}にはペレットフィ

ー

ダ

ー

があり

，

内部に突出した金属性漏斗をとおして，作動音と共にペレヅトを餌皿に_落す

．

_{走行時間}の_計測，報酬の有無の決定は

，

10ms の時間精度でマイクロコンピ

ュー

タにより自動的になされた

．

　手続き　予備訓練；

15

日間で_，給餌時刻

，

給餌量の操作によりハンガ

ー

リズム_{を形成}し，これに併行して予備訓練を行なった

．

最初の

7

日間では

1

日

5

分の

ハ

ンドリングを行なった

．

続く4 日間ではギロチンドアを開放した装置内に

2

匹ずつ 5_{分間放置し}_， _その後

3

目間は 1匹ずつ 5 分間放置して馴致訓練を行なった

．

この馴致訓練の最終口には走路馴致とは別に

，

目標箱の餌皿にペレット（45　mg ）を5個おぎ，直接ラットを入れて閉じ込め摂食するまで放置した

．

予備訓練最終日には

，

ギロチンドアの上げ下げに馴れさせるために

，

報酬がでない以外は本訓練とまったく同じ手順で各個体2試行走行させ

，

走行時間もベ

ー

スラインデ

ー

タとして計測した

，

本訓練：すべてのラヅトに

，

第

1

，

2

日目は各

2

試行

，

3

，

4 目目は各

4

試行，

5

日目は

8

試行

，6

日目は

10

試行の_{計 30}試行，ペレット3個を試行実施前に予め餌皿に置いて

，

連続強化により走行訓練をした

，

　 7目目以降は 18匹のラットを 6日目

10

試行の走行時間によりカウンタ

ー

一

・

9ランスして

，Anterior

（A）群

，

　Mid

−

lle

_（

M

_）群，　

Posterior

（P ）群の 3群に

6

匹ずつわけ，

1

日

10

試行で26日間の

DRLR

訓練を行なった

．

A

群では出発箱ドァを上げてからラットが P4 を切るまで，　

M

群では P1 から

P5

まで

，

　 P_群では P2 から

P6

までの前進に要した時間が4 秒を越えていた場合にのみ

，

直ちにフ _ィ

ー

_ダ

ー

_を

1

_{秒間隔}で 3回動かし，ペレット3 粒を餌皿に落した

．

従って

，

A

，

　 M 群ではラットの餌皿地点到達を待たず

，

それぞれP4

，

　P5 点_到達時に，　

P

群では餌皿の地点に到達した時に

，

フ _ィ

ー

ダ

ー

の作動が開始される

．

　試行間間隔は

20

秒とし，

1

個体に連続して

10

試行を行なう

．

金網の_小型ケ

ー

ジを走路のそばにおぎ，試行間はラットをここで待機させた

．

　試行手順としては，実験者はまずラヅトを出発箱に入れ

，

5秒後に出発箱ドアを上げる

．

この_際出発箱上方にとりつ_けたミラ

ー

でラットの頭部の方向を確認し

，

ドアの方を向いていない場合は向くまでドアを上げるのを待った

．

ラットが目標箱にはいったら目標箱ドアを下げ

，

報酬試行の場合はペレヅトを摂食し終るまで

，

無報酬試行の場合は

P6

を切って後10秒間閉じこめ

，

待機ケ

ー

ジに昃した

．

結果　 3 群の報酬獲得率の変化を Fig　2に示す

．

　DRLR 開始時の 3群間の報酬獲得率を揃えるために

，

区画

1

と区画 6の長さを他区画より縮めた走路を使用しており，

3

群間の差は初期の試行では認められていない

．

しかし訓練に伴い報酬獲得率の高い方からP群

，A

群

，

M

_群の順で_差異が確定した

．

最終ブロ _ック

40

試行での

3

群の報

_酬

獲得率には Kruskal

−Wallis

検定により有意差（Z2

＝

13

．

5

，

df

＝

2

，

　Pく

．

05

）が認められた

．

Ryan

_法により名義水準を求めて多重比較をすると

，

P 群とA 群（

U

＝

0

， nin2

＝

6

_，

　P

・

〈

．

D5）

，

A

群と

M

群（

U

＝ 4

・

5

，

　nln2 ＝ 6

，

　Pく

．

05）のい_ずれの_対にも有意差が認められた

．

％ 0 　 6 契

憎

_」

ド

　　　 0 　　　 4 「 O 唱

」

鳳

3 り＝ 02

甲

_O

の

り

匚 OO

】

O

匹

oA 123455789101 で 1213 　　 3LOCKS 　OF 　20 　マ臼IALS

Fig

．

2Percent　of　rewarded 　trials　for　Groups

　　　 A

，

M

，

　and 　

P

　in　Exp

．

1

．

　各群内で

DRLR

訓練最初の

20

_試行と最終

20

試行での報酬獲得率をサインランク検定で比較すると，

P

群では成績が向上しているという仮説が支持され（T 二〇

，

P_＜

・

05_）

_，

M 群では下降しているという仮説が支持された（

T

＝

O，

P〈

．

05）が

，

　 A _群では変化が生じたとは言えない

．

Fig．3

には最終40試行での全試行及び報酬試行での反応プ P フ _{ィル} _（_{走行所要時間}を各区画毎に順次プP ット

(4)

94

_{基礎} _心 _理 _学 _{研究} _第

₁

_巻第

2

号　 6 　　 5 　 0

一

〇

、

ド

_｝ご σ Q

一

4 　 β 　 2 　」　場 Σ 厂賜 ≡ 盈 Z コ

匡

At

．

L　TRdALS 　　

ム

厂

＼　るヨ

．

ψ

゜

丶

REWARDED

TRIALS A　

：

ゆ

123456SEG

．

123456

Fig．3　Response

　profiles　

in

　Exp

．

　II

．

Running 　　　　time　of　each 　segment 　

for

Groups

　A

，

M ，

　　　 and 　P　

in

last

　40　DRLR 　trials

．

したもの_）を各群毎の _{平均値}_で_{示す}

，A

_群_で_は _P4 ，　

M

群では

P5

を切っても

，

それぞれに該当する区間の走行時間が4 秒以下でフ _ィ

ー

_ダ

ー

_{作動音}_が_な_い_{場合}

，

_ラットが目標箱にはいらず

，

試行が終了しないことが

，DRLR

訓練後期では頻発したが

，

この場合には60秒待ってラヅトを走路から取り出し

，

以降の区画の_{走行時間}には60秒をあてることとした

．

Fig

・

3でプロット不可能な大きな値がみられるのはこのためである

．

A 群では区画

1

が滞留区画となり

，

観察された付随行動は，

一

担走路上に出てから戻ったか，出ないかの別はあるが

，

ほとんど出発箱内での移動（

locomotion

）であった

．

　M 群ではステレオタイプ的な行動が観察されるラヅトはいなかったが，反応プロフィルから，報酬試行では目標箱直前で止まっていたか

，

_後退していたと推測される

．

P群では目標箱直前での _待ち，立ち上り，目標箱ドア付近をかむ行動，目標箱にはいった後餌皿に近よらないまましばらく動ぎまわる行動などが観察された

．

考察　走路中央4区画の走行時間で分化強化した

M

群は， 3 群中もっとも成績が低いぼかりか

，

訓練に伴って成績が下降していった

，

走路という空間的布置では走行反応系列の_{始点と終点}_は_{必ず速度}ゼロ _{となるから} ，

A

群，　

P

群の方が相対的に成績が上になるのはある程度予測しえたことだが

，

M

群においても当初は他の群と同程度（30 ％程）生起していた強化をもたらす反応系列が

，

安定した付随行動を産み出しえず

，

逆に成績が低下していく事実は，偶発強化により付随行動が形成されるとする_説に不利な結果といえる

．

たまたま生じた後退

，

立ち上り等の反応が

，Skinner

が迷信行動を説明したのと同じように直接に強化されているならば，この反応の生起頻度は上昇するはずであり

，

偶発強化の機序のみでは成績の低下は説明できない

．

当初の予測とは反対に

，

強化刺激に近い部位で_分化強化をうけた

P

群の方が

，

遠い部分で分化強化をうけた A群より成績がよかった

．

中間行動は動機づ_{けられ}た行動が抑制されたコンフ _リクト状況で生ずる転移活動（displacement　activity ）との共通性が指摘されており（

Staddon，

1976；McFarIand

、1966

_）

，

_{抑制}_{が必}_要_と_される状況で_生じやすいとされている

．

DRLR はラットに直接抑制を求めている状況と考えられるから

，

申間行動は生じやすいはずである

．

完了行動と拮抗するような反応が強化刺激に遠い時点で生ずるという

Staddon

の説によれば

，A

群の_方がP群よりも容易に中間行動に由来する付随行動を形成していいはずである

。

実験

1

での結果は否定的であるので，この点について以下に検討していこう

．

P群は P6 を切った時点でフ _ィ

ー

ダ

ー

_音とペレットを同時に得る

．

これに_対しA群は P4 と切った時点でフ _ィ

ー

ダ

ー

音を得る

．

フ _ィ

ー

ダ

ー

音は強力な二次強化子となっていると考えられ

，

結果のフ _ィ

ー

ドバ _ックはこの時点で与えられてしまうので

，A

群に対しては P4 の位置に_餌

1

凰を設置しても同じ結果がでるかもしれない

．

_実験 1の実験計画では

DRLR

をかける走路部位を変化させたばかりでなく

，

強化刺激が与えられる地点も実質的には群間で変化させてしまった可能性があ_る

，

この_点についての_吟味がまず必要であろう

．

実験　 II

実験

1

の考察で述べ _た

，

_{強化}_刺_{激あ}るいは二次強化刺激の呈示位置と付随行動の反応系列内位置の閧係について検討を続ける

．

実験

ll

では，走路出発箱に近い

4

区画でDRLR を行なうが P6 を切る時点までフィ

ー

ダ

冖

作動を遅らせる群（AE 群）を新たに設け

，

実験

1

の

A

_群

，

P群にあたる群と再度比較する

．

方法　被験体

実験開始時生後約 85日の_{実験歴}のない Wistar _{系雄} ラット24匹

，

平均体重は約3409

，

維持等の方法は実験

1

と同じ

．

　装　置　実験1と同じ

，

　手続き　実験1と同じ手順で

，

飢餓リズムの形成，ハンドリング

，

走路への馴致を行なった後

，

すべてのラットに 6 日間で計30試行の連続強化走行訓練を行なった

．

連続強化走行訓練に関する手続きも実験1 と同様である

．

連続強化最終日のデ

ー

タをもとに_{走行時}_間においてほぼ等質な

(5)

山本：長走行時間分化強化と付随行動

95

3

群（各

8

匹）を構成し

，

以降

26

日間計

260

試行の DRLR 訓練を行なった

．

（AM ）群は実験工のA 群に相当し，出発箱ドアを上げてからP4 を切るまでの走行時間が

4

秒以上だった場合

，

P4を切った時点でフィ

ー

ダ

ー

が動作し

，

ペ _レ _ッ _ト_が_落_さ_れ_る

．

Endpoint

_（

AE

）群では，　AM 群と同じく第4区画までの走行時間に

DRLR

が適用されるが

，

実際にフィ

ー

ダ

ー

が動ぎ始めるのはラヅトが餌皿上の P6 を切った時点と

なる

、

Posterior

−

Endpoint （PE ）群は，実験

1

の

P

群に

相当し

，P2

から P6 までの 4区画の走行時間が

4

秒以上の時

，

直ちにフ _ィ

ー

ダ

ー

が_動_ぎ_，ラットが待機している餌皿にペレットが落される

．

　報酬は 45mg ペレット

3

個で，実験

1

と同じである

．

試行間間隔は約

15

秒で

，

5秒程短かくした

．

その他の試行手順はすべて実験

1

と同様であった

、

結果

　 3

群の報酬

獲

得率の推移を Fig

・

4に示す

，

最終

40

試行での 3群間の報酬獲得率の差は

，

Kruskal

−Wallis

検定によれば統計的に有意であった（X2＝ 11

．

64

，

　 df； 2

，

P

〈

．

05

）

．

実験

1

の結果で述べたと同様の方法で群間の差をみると

，AE

群と

PE

群の差は統計的に_有意（

U

＝ 8，nin2 ；

8

、　

P

く

．

05）であったが，　

P

E

群と

AM

群の差は認められなかった

．

AE 群は AM

，

　 PE 両群より成績が良いと言える

．

％　 0 　　 6 04 02 3 思芦冨ヨ邸 30 【も 2 話 9

」

£ 」　 2　 3　 4　 5　 6 　 7 　 8 　 9 　 10 　11 　 12 　13 　　 BLOC κS　OF 　20 　TRIALS

Fig．4

Percent

　of　rewarded 　trials　

for

Groups

A −

M

，

A −

E

，

　and　P

・

E　

in

　Exp

．

II．

　次に各群の反応プロフ _{ィル} （Fig

．

5_）を検_{討す}る

．

　AE 群とAM 群ではそもそも成績の差があるが

，

報酬試行のみの反応プロフィルでみても

，

両群の付随行動には差異があるように思われる

．AE

群では付随行動の出現位置は区画1

，

2に集中しているが

，AM

群ではあまりはっきりせず

，

出現位置に個体問のばらつ _きが_{大き}かった

．

観察された行動型においても

，

AM

群では

AE

群に比べ _て様々のものがみられ

，

トポグラフィ

ー

における個体間の

三

き

国

匪

一

ト σ Z

一

ZZ コ 04 　　　　6S 骨9

，

Fig．5

Changes

　of　response 　_profiles　

in

Exp ．

II．

　　　 Running

−

ti皿 eof　 each segment for

Groups

　A

−

M

，

　A

−

E

，

　and 　P

−

E　in 丘rst　20

　　　 DRLR 　trials_（top　row _）

．

81

・

100　

th

　trials 　　　（middle 　row _）

，

　and 　last　

40

　trials_（

botto

皿　　　 row _）

．

変動嫉も大であったと思われる

．

考察　

AE

群はPE 群よりも良い成績を示した

，

強化刺激を与える地点を揃えた場合には _， _{付随行動}の_出現を強化刺激から遠くの地点に要求するほうが

，

その形成

・

維持が容易であったわけで

，

この事実は中間行動の概念が予測するところと

一

致する

．

　また

，

報酬を得るために要求される反応基準は区画

1

から4までで同じでありながら

，

2次強化刺激（フィ

ー

ダ

ー

音）の呈示を遅らせて 1次強化刺激と共に与えた AE 群は，　P4 の地点でフィ

ー

ダ

ー

音を得るAM 群より明確に成績がよかった

，AE

群が

6

区画を 4 秒十α以上で走る方が

，

AM

群が前部

4

区画を

4

秒以上で走るより容易なのだとの議論も考えられるが，

AE

群が全走路を 4秒＋α_以_上で_走ったとしても前部 4区画を 4秒以下で走っては強化されない手続きであり

，

付随行動の出現位置と

，

強化刺激あるいは 2次強化刺激の与えられる位置との関係を考えるべ _きであろう

，

付随行動が出現する位置から遠い地点で強化刺激を与えた方がこの _{付随行動}が維持されやすいという事実は，再び中間行動の概念が予測するところに_有利であり，偶発強化により付随行動自

(6)

96 _{基礎} _心 _{理学研究} _第

₁

_巻 _第

₂

_号体が強化され

，

維持されているという考え方には不利である

．

強化の遅延の法則に従えば

，

遅延の短い方が強化の効力は大きいはずだからである

．

　しかし問題点も残る

，

部位別の DRLR がある程度有効なのはそもそも何故であろうか

．

実験

1

の PE 群では訓練に伴なう成績の向上は明確ではなかったが，反応プ卩フィルが条件へ適応す_る傾向_は_認_め _られ_る

，

_{また}_{走行} 時間も平均値でわずかに大きくなっていぎ

，4

秒をほぼ中央にした正規分布に近づいてい _く

，

_{前実験}では同じ実験条件の P_群で成績の向上も認められた

．

区画3から区画

6

までの走行時間の長大化という与えられた条件にある程度対応しうることは明らかであり，この走行時間を単

一

の反応のアナロ _ジ

ー

_{としてみる}_こ_と_{も十分可能}_で_ある

，

従って

，

Staddon のように反応系列内の個々の反応要素に着目し

，

その生成要因を考える molecular _なアブ卩

一

チのみで走路の

DRLR

_{を説明}_{しよ}_う_{として}_も

_，

中間行動と終結行動という概念のみの現状では無理がある

．

　ここで若干の作業仮_説を提出し

，

検討してみよう

．

　 1）長時間方向への_{分化強}_化に_際して「時間かせぎ」　をするようにみえる付随行動の発生機序は複数存在す　る

，

Staddon の言う中間行動はその主なひとつだが

，

他にも，走行により生ずる刺激布置の急激な変化がひぎおこす探索反応等

，

行動の変動性を高める諸要因はすべてこれに_{該当}する

．

PE 群での_{付随行動}は_強化刺激との位置関係からみて

，

中間行動に由来するものとは考えにくい

．

また実験1の

M

群の_{結果}が示唆するところによれば

，

ある付随行動が生じ

，

その_結_果_{走行時}_間が延びて報酬が得られたとしても

，

その発生機序自体が安定したものでなければ，その付随行動は反応系列内に安定して維持されないであろう

．

　 2）動物は複数の_反応の _連鎖からなる反応系列をその　ままのかたちで学習しうる（DeCasper ＆

Zeiler

，

　 1977）

．

この過程は道具的条件づけVこよると考えられ　る

，

付随行動が単独で強化されていると考えにくい以上，このような molar _{な考え方}が必要となる

．

ただ，付随行動が発生しにくい状況では結果として走行時間の長大化も起りにくいから

，

そこでの反応系列は強化されず不安定なものとなろう

．

また

，

この仮説は動物が「時間どり行動」を学習すること，ならびに内部に抑制過程を想定することを排除するものではないt 　

3

）強化刺激はそれに対する接近反応を誘発させる

．

　従って反応系列の強化と，走行時間短縮の効果の，二　つの_{相反す}る効果を持つことになる

．

このようなコン　フリクト事態のなかで

，

維持可能な反応系列と報酬の　頻度は互いに影響しあいながらバランスをとってお　り

，

各個体の反応プロフィルはこの均衡点上の所産で　ある

．

実験

1

のM 群で訓練していく程成績が下がるのは

，

走路の中央部位で_{付随行動}を生じさせる要因が少なく

，

強化をもたらすような適当な反応系列が形成できないまま非強化に対する耐性が上昇し

，

無報酬による反応系列の変動性増大の_{効果}が次第に減衰していったからであろう

，

即ち均衡点が変化していったと考えられる

．

実験　III 　実験皿の_考察で述べた作業仮説について検討を加える

．

実験皿では走路全体の_{走行時間}に関して

DRLR

訓練を行なうが

，

これに先行する連続強化走行訓練の試行数を群間で変化させ

，

後の反応プロフィルの異同をみるこ_とに _する

．

それぞれの _群_は DRLR _{移行時}_に_異_なった反応系列を持っているはずである

．

十分走行訓練を行なった群は

，

走行時間が短かく走行反応のみの_連鎖となっていようし

，

連続強化の走行訓練をうけていない群には反応の系列化は生じていないはずである

．

また DRLR 移行時に_各_群に期待できる報酬獲得率も大きく異なっている

．

それぞれに異なった反応系列と報酬獲得率で分化強化にさらされるならば

，

維持可能でかつある程度の報酬をもたらす反応系列への各群の到達過程も当然異なっていると推測される

，

同じ手続きで訓練を続けた後

，

各群に反応プ卩フィルの差異が認められるならば

，

これは過去に形成した反応系列の差異

，

およびそれに_{対す}る強化の差異によるものであり

，

異なる反応系列が道具的条件づ _けによりそれぞれに学習可能であることを示唆する

，

付随行動が何らかの機序により

一

律に特定の部位に生じ，変化の余地のないものとは考えにくくなるから

，

複数の生成要因を持つという作業仮説に対する支持ともなろう

，

　また，走路全体で

DRLR

を行なった時

，

どの位置で

，

どのくらいの比率のラットが付随行動を示すか

，

というデ

ー

タは末だ報告されていないので

，

実験皿では個々のラットの反応プロフィルの検討も行なうことにする

．

方法　被験体　実験開始時生後約 100 日の実験歴のない Wistar 系雄ラヅト24匹を使用した

．

平均体重は約 3509

．

維持等の方法は実験1

，

」と同じである

．

(7)

　装　置　実験1

，

ffと同じ

．

　手続き予備訓練：_実験

1

，皿と同じ

，

山本：_{長走行時間分化強化}_と_{付随}_行動本訓練：予備訓練最終日の無報酬馴致試行でのベ

ー

スラインデ

ー

タをもとに

24

匹のラットをほぼ等質な

3

群（各群

8

匹）にわけ

，

0

−

CRF 群

，

20

−CRF

群

，80−CRF

群とする

．0−CRF

群は第

1

試行より

DRLR

で走行させたが，

20・

CRF

群では

20

試行目まで， 80

・

CRF 群では

80

試行目までは連続強化で走行させ

，

その後 DRLR に移行させた

．

DRLR の総試行数は全群200試行とした。連続強化か DRLR かに関わらず

，

すべてのラヅトを第

1，2

日目は各試行

，

3

，

4 日目は各

4

試行

，

5

日目は

8

試行， 6 日目以降は 1口10試行ずつ，試行間間隔約15秒で走行させた

，

　連続強化試行では

45mg

ペレット3個を試行実施前に目標箱内餌皿においてから走行させた

，

DRLR 試行では実験者が出発箱ドアを上げてから

，

目標箱内餌皿上の

P6

をラットが切るまでの時間，すなわち走路全体の走 DEDRAW 旺酷喞 15 　　ロム O 　　＼

、

ン　　

／

幽

終

3 丶

丶

袙

β

巳

4 ・ α ρ 口 A ししコ　o

−

CRF ●20

−

；RE4 邑ひ

一

CRF

た

／

心

　　＼渓 U

韃

。

●

　 β

｛

E ＼ d 囂二 OO 」 o

，

o 97 行時間が

4

秒以上であった場合

，

ペレヅトを 3個放出させた

．

その他の手順はすぺ _て_実験

1

，

ll

と同様である

，

．

4 3「ti口Ioclt 結果

　DRLR

訓練開始後最初の20試行で得られた報酬獲得率は O

−

CRF 群が68％，　

20・

CRF

群が

，

39

％，

80−CRF

群が30％であったが

，

この差は60試行付近で消失し

，

訓練最終

20

試行では 0

−CRF

群が58％

，

20

−

CRF 群は

，

60 ％， 80

・

_CRF

_群_は

₅₉

_％_で_あ_っ _た

_．

　Fig

．

6に各訓練期における各群の反応プロフ _{ィル} _{を示す}

．

_なお長さの異なる各区画を直接比較する必要上，メ

ー

トルあたりの所要時間に換算しなおして図示した

．

訓練最終ブロックの各群の反応プP フィルの差異を調ぺるために

，

報醐試行での個体平均値を用いて_群（3｝×_{区画} の_{分散分析を行な} ったところ

，

区画の主効果（F

＝

・

13．

21

，df＝

5

，105，

　P＜

．

05_）の他に，群と区画の交互作用（F

＝

2

・

01

．

df

・

．

10

，

105

，

　Pく

・

05）が統計的な有意差を示した

．

報酬試行での反応ブ P フ _ィルは群により異なっていると言える

，

なお最終プロヅク全試行の平均値ではこの_交互作用は認められなかった

．

20

・

CRF 群は他の群と比べ，区画

2

での走行時間が長いラットが多かったが，この群の個体毎の最終40試行での a4 oo qG

一

_q2 　sre

じ

L 1Z3 唖 56SFG

．

23456

Fig，6

Changes

　of　response 　profiles　

in

Exp ．

III．

Running ・

time　_per 皿 eter 　of　 each

　　　　segment 　

for

Groups

O−CRF ．

20−CRF ，

　and 　　　　80

・

CRF

　in　first　20　DRLR 　trials_（toprow _）

，

4

レ

60trials

_（middle 　row _）

，

　and 　

last

　20

　　　 trials（

bottom

　row _）

．

0

．

4

宀

匠　QC こ

．

a2 器

一

｝

　OAoo

■

」　oo

一

〇2 OA qD 0　　　　　　　6

＞

_丶

ノ

8 O 　　 O ● 　　　

／

　　　　 r

＼

潟

一

Ql 　　　 2 　3 　　　1 ₂ 3 ₄ 5 6SO9

．

Fjg．7

Response

　profiles　of　individual　rats　

in

Group

20・

CRF ．

Open

　circle ：

first

20

DRLR

　trials

，

　solid 　circle ：

1ast

40

DRLR

(8)

98

基礎心理学研究第 1巻第2号叫＝

響

レ　 O ＝

一

72 ， ’ （ト O ト S匚6 瓢匚 ” τ　　 RU 髄撹1閥G　T聖隈E 3　　　　　　　　　　　　　6　　　　　　　　　　　　　9 Sfe SEC 　 lbS12GsG ユ｝ 9 　 5　efi 　

ll

．

‘ 　，： e 　 Sb−s 　i65

“

　 5se砧t5　ユB 　 bet

ら

，；li6

，

も

3 　

11

° 　乙eS 　　 1 設 i　　　　　　　　　t 　心　　　　2 　　　 1 1

⊃

　　　　ヱ3 　　　 z l3　　　 2 1°’Zz コ運 ’

fxllll

　と 1 　 i1 2 1

Fig．8Multi −

scattergra 皿 of　total　running 　time

　　　 and 　segment 　running

．

time　

for

Rat

l

in

　　　 Group 　

20−CRF ．

_Coordinates　 of　a　_plotted 　　　

digit

　which 　indicates　the　nu 皿 ber　of　seg

−

　　　 ment 　show 　the　segment 　running 　time　on 　　　 the　abscissa

，

　and 　the　total　running _ti皿 e

　　　 of　the　same 　trial　on 　the　ordinate

．

反応プロフ _ィル _（_{黒丸}_）_を Fig

．

7

_｝こ示す

．

Rat

　3

，4

のように区画5

，

6で走行時間が長い例も存在している

．

図には DRLR _{訓練移行最初}の

20

試行の反応プロフィル（白丸）もあわせて示したが，これと，その20試行の報酬獲得率から，個々の最終

的

な反応プロフィルを予測することは困難のように思える

．

他の群でも群平均値による反応ブロフ _{ィル} _と_は_{異な}_る_{反応}プ卩フ _ィルを示した個体は若十

数存在していた

．

Fig．

8には

，

Fig．7

で

Rat

1 「

として反応プP

’

フ _{ィル} _を_示_{した}_{個体}_の

DRLR

_{最終}40_{試行}_{につ} いて

，

縦軸（基底変数）に分化強化の対象となった総走行時間

，

横軸（クロ _ス_{変数）}に各区画の走行時間をとり

，

各区画の番号をプ P ットして

，

多重散布図としたものを示す

．

総走行時間の長短に関わっているのは区画2および区画

1

の_{走行時}_間であり

，

他の区画の沌行時間はほぼ

…

_{定である}_こ_{とが}_読_み_取_{れる}

_．

_{各試行毎}_に_細_か _く_{みて}_も付随行動が生ずる位置は動いていないことになる

．

他個体のほとんどでも特定の区画の走行時間のみが変化する同様の散布図が得られたが

，

報酬獲得率の低いものには例外もみられた

，

考察　報酬試行のみをぬきだすと群間の反応プロフ _{ィル}の差異が確認された

．

有意差のでなかった全試行をまとめての検定には，走路をかけぬけ明確な付随行動を示さなかった無報酬試行のデ

ー

タが含まれている

，

ここでは付随行動の出現位置の群間の差異を問題にしており，この差異は存在していたとみなしてよい

．

各々の群あるいは個体がなんらかの _{要因}により違う反応系列を構成した場合，同じ分化強化手続きにさらされても，強化によってそれぞれの反応系列

・

反応パ _タ

ー

ンはそれ自体として学習されうるものであると考えられる

，

20

・

CRF _群では，

DRLR

移行時には強化刺激に近い地点での走行反応連鎖は既にかなり強固に形成されており

，

出発箱よりの部位の _{反応連鎖}の変動性が比較的大きかったために，区画 2，1の地点に付随行動を持つ反応系列が形成され，ある程度の報酬をもたらすこともでき，かつ維持可能であったと考えられる

．

なぜ区画 1ではなく区画2が滞留区画となりやすかったのかは

，

出発箱のギPtチンドアを上げる際の _試行手_{順とも}_関係_すると思われるが，まだ明確な説明はできない

．

80

・

CRF 群は，最初に完全な走行反応連鎖を形成しており

，

DRLR 移行の手統きは消去手続きと短期間等価であったはずである

，

直線走路では

一

般に消去を行なうと目標箱よりの部位の走行速度が他の部位より早く減少しだすことが知られており（

Wagner ，

1961

_）

，

本実験でもまず最初に強化刺激に近い地点から反応系列の変動性が大となったと思われる

．

そしてここに長時間を要する反応が挿入されることにより，ある程度の報酬が得られるようになり

，

均衡点を上下しながらも維持可能な反応系列として安定したと考えられる

．

実際に

80−

CRF 群では他の群に比べて_， _滞留区画が区画 5，

6

であった個体の数が多かった

．

O

−CRF

群は反応系列の形成に自由度が大きかったはずで，デ

ー

タにおいても滞留区画のバラツキが個体間で大きかった

，

　付随行動の発生機序には多くのものが考えられること，どのような要因によって形成されたにせよ反応系列自体が強化によって学習されうること，報酬獲得率と維持可能な反応系列には均衡点があり

，

報酬獲得率が高すぎても低すぎても反応系列には _変容が_起ること，以上の作業仮説は実験

1H

の結果を比較的うまく説明できると思われる

．

　これまで，付随行動自体ではなく，それを含む反応系列が強化されると考えてきた

，

手続ぎそのものは，まさに反応系列の時間的特性に対して分化強化をかけているわけであるし，反応系列内の付随行動が直接に偶発強化されているという説に対しては，実験工， ∬ をとおして否定的な事実が得られてきた

，

実験皿の Fig

．

8 に示された結果から

，

総走行時間を左右するものはその個体にとっての滞留区画での走行時間のみであり

，

従って分化強化における強化

・

非強化のフィ

ー

ドバックに感受性を有しているのも多分付随行動のみであろうという議論が

(9)

山本；_{長走}行_{時間}_{分化強化}_{と付随行動} 再び生ずるかもしれない

．

しかし

，

付随行動はどの区画にも出現しうるものではなく

，

その個体毎に定まった特定の _{位置}にのみ出現するという事実は

，

生起しうる位置が反応系列内位置として定まっており

，

反応系列をぬきにしては考えられないものであることを意味している

．

実験皿では，立ち上り

，

側壁に向っての跳躍等の際立った付随行動も観察されたが，これらの反応が直接強化されているなら走路の他の _部位でもこれらの_{反応}の生起頻度は上昇するはずである

．

しかしそのような事実はなかった

．

どのような反応をするかではなくどの部位でどのような反応をするかが学習されていたことになる

．

学習された反応系列内の各要素を繋ぐ刺激は_{内受容的}_{な刺激} のみとは限らず

，

空間上に配置され走行に伴って変化する_{外部刺激}の役割も大きかったと思われる

．

Staddon の_{言う中間行}_動_は DRLR の付随行動をある程度説明しうるものの

，

多少のずれも存在していると思われる

．

中間行動は

一

群の行動型に対してつ _{けられた}_名称であり説明のための概念ではないし

，

DR し

R

での事実に _{もあわな}_{いとす}_れ_ば

_，

_{時間上}_の_反_{応系列}_と_空_{間上} の反応系列の相似｛生の _{仮定}はとりあえず取り下げるべ _き_で_あろう

・

しかし， DRLR での問題は強化と空間上の反応系列内の変動性の問題として捉えることができ，

Staddon

（

1976

）の試論と同じ観点から

，

今度は空間的布置内の反応系列のための試論が必要となろう

．

DRLR では空間的要因と時間的要國が交絡しているが

，

これを分離して検討する実験も可能と思われる

．

今後の課題としたい

．

要約

時間分化強化手続きを動物に_適用すると

，

定型的な付随行動がしばしば観察される

，

本研究はこの付随行動の発生機序と機能の_検討を目的とし

，

反応系列の_分析に好適な直線走路の長走行時冏分化強化（DRLR ）手続きを用いた

．

付随行動の説明にあたっては，

Skinner

の迷信行動の解釈と同様に

，

偶発強化により形成されるとする説明がまず可能である

．

また

，

Staddon の指摘する中間行動と類似の_， _定まった刺激布置の中で定型的に誘発される副産物的行動だとする説明も11∫能である

，

上記2仮説の検討のため

，

実験1

，

1 では

DRLR

を走路上の異なる部位に適用し

，

強化刺激呈示地点との位置関係を比較検討した

．

結果は

L

　走路の_中央部位に長時間走行を要求してもラヅトの　成績は下る

一

方であった

．

2．

強化刺激呈示地点と長時間走行を要求する部位との　距離が離れている程成績がよい

．

99 3

．

_{強化刺激呈示地点}に近い部位でも付随行動はある程　度生じうる

．

　 L

記の事実の

1

と

2

は，偶発強化説を否定し中間行動説を支持するが

，

3は中間行動説のみでは説明できない

．

そこで

，

付随行動の発生機序は複数存葎すること

，

反応系列自体が学習されること

，

報酬獲得率と維持可能な系列には均衡点があること

，

以上 3つの _作業仮_{説を}_{たて}

，

実験皿で_検_討した

．

実験亅

1

［では

DRLR

に先行する連続強化走行の試行数を群間で変化させ，

DRLR

は走路全体の走行時間を用いて全群同

一

手続きで行なった

．

結果は 4

．

_各群_は_異_なった反応系列を形成した

．

3

つの作業仮説により

，

各々の群の反応系歹旺の形成過程は説明可能である

．

　　　　　　　　　引　用　文　献

Amsel ，

A ．

＆ Rashotte

，

M ．

E

　l969　Transfer　 of 　experi 皿 enter

・

impQsed 　siow

−

response 　_patterns　to

extinction

of　a　continnuousiy 　rewarded 　response

．

　fozarnat

　cゾ

ComParative

　andPhysioJogicalPs _｝

’

chOlagy

，

　69

，185−189．

DeCasper，

　A

，

J

．

＆

Zeiler

_，

　M

，

　D

．

1977 　

Ti

_皿_e　

Iimits

for

　completing 　fixed　ratios

．

　IV

．

　Components 　of

the　ratio

・

fournal

　of　tlte　Experimental／

AnaLvsis

（_ゾ

　丿3ehavior

．

27

_，

235

−

244

．

Kramer

，

　T

．

」

，

＆ Rilling

，

G ．

M ，1970

　 Differentlal

reinforcement 　of　

low

　rates ：Aselective　critique

．

　PSI，cltoloArical 　

BPtlJetin

．

74，225−

254

．

Laties

，

V ．

　G

．

，

Weiss，

　B

．

，

　Clark_，　R

．

　L

．

＆

Reynolds，

M

．

D

．

19650vert

」

‘

mediating

”

behavior　

during

　 temporally　spaced 　responding

．

fournal

Of

彦

he

Ex −

perimental

Anal

_夕si

’

s

Of

　Beh αvior

．

8，107−116，

Laties

，

　 V

．

　G

．

，

Weiss，

B ．

_＆

Weiss，

　 A

．

　 B

．

1969 　 Further　observation 　of　overt

“

mediating ”

be−

　 havior 　and _the

discrimination

_of　tirne

．

_∫ourn αg 　 Qプthe　

k

；xPerimental 　Ana _｛｝

・

sis　

Of

　Behavior

，

12，43−

57

．

Logan ，

F．

A ．1960

　1ncentive：

H

∂w 　the　conditions

　げ reinforcement 　affect　

tlte

Performance

_げ rats

．

　Yale　University　Press

．

McFarland ，

D ．

_エ

19660n

　the　c＆usal 　and　function

−

　al　significance 　of　

displacement

　activities

．

　Zeit

−

　schrift　

ftir

TierpsNc

加 logie

，

23

，

217−235．

Rashotte

，

　M

．

　E

．

＆ Amsell

，

　 A　

1968

Transfer

　_of 　slow

−

respOnSe 　ritUalS 　to　eXt 圭nCtiOn 　Of　a　COnti

．

　nuously 　rewarded 　response

．

∫ourua9 げ Compar

−

　ativeand Physiological　Psptcholo

．

_gy

，

66

，

432

−

443

．

Rashotte

，

　M

．

　E

．

＆ Amsel

，

　A

，

1967 　Acquisition 　and 　extinction

，

　within 　subjects

，

　of　a　continuously

　rewarded 　response 　and 　a　response 　learned　un

−

　der　discontinuous　negatively 　correlated 　reward

．

Psychonomic

Science

，7，257−258．

Richelle

_，

M ，

＆

Lejeune，

H 、1980

Time　

in

　_ani_〃_忽　

b

θ

havior．

　Perga皿 on 　Press

．

(10)

100

g

_en

,b

pa

*

bl

zaac1ts

ag2e

Skinner, B. F. 1948 Superstition in the pigeon.

Jburnal

of

Erperimental

RsycholQgy,

38,

i68-172.

Staddoh,

J.

E.

R. &

Simmelhag,

V.

L. 1971 The

`'superstition" _experiment: _a _{reexamination} _of

itsimplications

for

the principles of adaptive

.behavior.

PSycholqgn'cal

Review,

78,3-43.

Staddon,

_J.

E.R. 1976 Learning as adaptation. in

Estes

(Ed.),

H2xndboole

of

laarni,rg

and cognitive

Processes.

Vol

II. Conditioning

and

behavior

theo-ry.

Erlbaum

associates, _pp.

37-98.

Wagner,

A.

R. 1961

Effects

of amount and per-centage of reinforcernent and number of acquisi-tion trialson conditioning and extinction.

長走行時間分化強化と付随行動

J

，

．

，

．

−