組織学習とエージェントベースアプローチ(<特集>ビジネスが創発する人工知能と人工社会)

(1)

1．は　じ　め　に

組織は一定の目標を達成するためにそのメンバが協働するシステムである．組織目標を達成するには，組織メンバの個人的な能力だけでなく，協働する“仕組み”に関わるさまざまな要因が関係している．組織学習は，組織の目標を達成するためのパフォーマンスの向上に関わる組織の適応“能力”を高めることであり，そのためのメカニズムである．例えば組織環境に適応して製品を開発する能力そのものを向上させることなどが組織学習として考えられる．組織学習はシステムの観点からは環境変動に対する組織の長期適応として捉えられる．長期適応では組織構造自体の変更を伴うことがある．組織の適応能力は組織が日々こなしている仕事のやり方である組織ルーチンの体系によって決定される．すなわち，組織学習では組織ルーチンの体系をいかに変更して環境変動に適応するかが主題となる．組織学習のプロセスは，一般的には組織が新たな知識や価値観を習得していく過程であり [安藤 01]，基本的に（あるいは素朴に）組織があたかも人間のように経験から学ぶ学習であるといえるが，これを人間の知能からの自然な類推である組織知能の一部として考察することもできる [松田 90]．本稿で扱う組織学習は，組織論の中での一領域として行われている研究を基本的に参照して，特に組織論の中でも組織行動論の主要な研究課題である組織のメンバの行動（組織行動という）による組織メンバ個人の学習と組織全体の関係に焦点を当てる [安藤 01, Cyert 63]．現代の組織論における組織学習の多くのモデルは適応の失敗から来る問題を静的な組織構造の側面から捉えている．組織学習の本質は，動的に変化する組織環境に適応する [Lant 94] ための組織ルーチンの体系の変化であるが，その変化の単位は組織の各メンバではなく，組織のメンバから成る集団やチームである．そして組織メンバ同士が達成すべき将来のイメージを共有することで組織全体の組織学習が進む．そのためには，後述するように，組織システムの構成要素である組織メンバが行動をするときに参照する認知や，準拠する意思決定のルールの枠組みそのものが動的に変化することが組織学習の重要な側面の一つである．しかし，組織論ではこれまで理論的フレームワークや実証的分析が研究の主流であり，その動的なメカニズムの説明は発展途上である．組織学習の動的な側面を表現するためのモデルもいまだ十分とはいえない．それに対してエージェントの概念を取り入れたアプローチが 1990 年代から研究されている．ただしそれらはほとんどが理論的な含意を得るためのアブストラクトモデル [Gilbert 08, 高橋 13] であり，具体的なビジネスへの応用のためのミドルレンジやファクシミリモデルの構築は容易ではない．本稿では，まず March に始まる組織学習論の主要な系譜や情報処理アプローチによるモデルを概観し，組織学習にエージェントアプローチを適用するための枠組みをサイバネティクスの観点から述べる．組織学習のモデルとして，組織学習論における Argyris 学派の学習モデルを紹介し，特にシングル，ダブルループ学習の考え方について説明する．最後に，ハイパーゲームの形式を使ってダブルループ学習をモデル化し，そのメカニズムをエージェントの内部モデルの学習過程を通して紹介する．

2．組織学習論の系譜

組織を複数のメンバが共通の目標を達成するための協働システムとして最初に定義したのは実務家の Barnard である [Barnard 68]．Barnard はサイバネティシャンの Ashbyの著書である“Design of a Brain”[Ashby 60] を好んで読んでいたということなので，彼のシステム的発想はサイバネティクスの考え方に影響された部分が少なからずあるといわれている．現代の組織行動論もサイバネティクスの考え方に大きく依拠している．動的な組織の発展プロセスとして組織学習を捉えた研究は 1960 年代に遡るといわれる [安藤 01]．代表的なものは Cyert と March である [Cyert 63]．その後 1980 年代後半から 90 年代にかけて組織学習は

組織学習とエージェントベースアプローチ

Organizational Learning and Agent-Based Approach

高橋　真吾

早稲田大学理工学術院

Shingo Takahashi Faculty of Science and Engineering, Waseda University. [email protected]

Keywords:

organizational learning, agent-based approach, double-loop learning, internal model. 「ビジネスが創発する人工知能と人工社会」

(2)

盛んに研究されるようになった．アプローチや主題の違いによって主として March 系，Hedberg 系，Argyris 系の三つの系統がある [安藤 01]．これらは明確な集団を形成しているわけではないが，研究論文における引用に違いがあり，組織学習への考え方の違いを表している． March系では，組織学習は環境変化に反応して経験に適応する組織と捉えられ [Kieser 01]，主に組織ルーチンの変化やその定着が主題となっている．March らのゴミ箱モデル [Cohen 72] を始め，早くからシミュレーションモデルによって組織行動の問題にアプローチしている．後述する計算組織論では March 系の研究が多く，それらは価値前提や認知モデルの変更を伴わない低次学習に関するアブストラクトモデル [Gilbert 08, 高橋 13] である． Hedberg系の特徴は，組織学習をアンラーニングとして捉えることである．アンラーニングは，これまで組織がもっていた知識，あるいは知識を生み出す価値前提や認知モデルが環境に適応しておらず妥当性がないものを棄却し，新しいものに置き換えることである．ただし，広義のアンラーニングでは妥当でない知識と価値前提の棄却のみを指し，新しいものを獲得し置き換わったかは問われない．アンラーニングでは単なる知識の修正だけではなく，組織の認知モデルの棄却として組織学習が行われるとする．認知モデルの変更は組織学習のうち高次学習ともいわれ [安藤 01]，その点については本稿で主に依拠する Argyris 系の組織学習の概念と通ずるものがある． Argyris系は組織変革に関わる高次学習に特徴がある．

Argyrisら [Argyris 96] の組織学習は，Ashby のサイバネティクスの考え方 [Ashby 56, Ashby 60] に深く影響されており，そのモデルはシングルループ学習（single-loop learning）とダブルループ学習（double-loop learnin）として知られている．シングルループ学習は既存の価値前提と評価枠組みの範囲内でエラーを修正する学習プロセスである．ダブルループ学習は，価値前提と認知モデル自体の妥当性を問い，新たなものに置き換えていく学習プロセスである．ダブルループ学習は特に組織メンバの認知モデルを変更し，組織として共有していく高次学習である．これについては次章で改めて説明をする． Argyrisの組織学習の概念がサイバネティクスからの発想であることからもわかるように，組織学習の問題はサイバネティクスにおいてシステムの適応行動として組織学習と密接な関連をもって研究されてきた．サイバネティクスの観点からの組織モデルとしては Beer の Viable System Model（VSM）を発展させた組織サイバネティクスのモデルが代表的である [Beer 72]．VSM では組織は機能階層構造をもち，各機能階層で環境と相互作用を行うモデルとして定式化される．最上位の階層は適応レベルにあり，組織目標を実現するための政策立案をする政策策定機能と，環境を認知・解釈する情報判断機能から成っている．適応レベルの下には組織目標を各組織部門で実行するための制御レベルがあり，管理機能をもっている．管理機能の下には実際に実行するいくつもの実施機能が続き，それらを統合する統合機能がある． VSMは最適解を求めるための操作的なモデルではなく，問題を抱えた組織のどこが改善すべきかをシステム思考によって診断するための規範的な記述モデルである． VSMの考え方に組織学習のシングル，ダブルループ学習の考え方を組織成員のメンタルモデルの学習として明示的に取り入れたのが Beer の弟子の Espejo らである [Espejo 96]．ループ学習のモデルを用いて，実際の組織の状況で起こり得る組織学習のタイプを七つに分類している．

3．Argyris の組織学習モデル

本章では Argyris の学習モデルについて，Argyris のオリジナルな考えになるべく沿って以下に説明する． Argyrisの組織学習の概念の特徴はシングルループ学習，ダブルループ学習というループ学習と呼ばれるものである．この二つのループ学習による「組織学習」はよく誤解される概念でもあるので，Argyris [Argyris 96] の定義を引用しよう．シングルループ学習は以下のように述べられている． “By single-loop learning we mean instrumental

learning that changes strategies of action or assumptions underlying strategies in ways that leave the values of a theory of action unchanged.”（[Argyris 96] p. 20）この文の中の instrumental learning は組織におけるタスク処理のパフォーマンスを改善するために，各組織メンバが行為の戦略を変更することを指す．ただしシングルループ学習では，何をもって改善というのかに関する価値前提や規範については変更しない．すなわちシングルループ学習では組織の目標を達成するための方策のみを変更してパフォーマンスの向上を目指す．これはエラーを検知して組織行動を修正する負のフィードバック図 1 組織サイバネティクスの観点からの組織学習のモデル [Espejo 96]

(3)

ループに相当する．

一方ダブルループ学習は次のように定義される． “By double-loop learning, we mean learning

that results in a change in the values of theory-in-use, as well as in its strategies and assumptions.”（[Argyris 96] p. 21）ダブルループ学習では改善の価値体系自体を変更することを含む．すなわち，ダブルループ学習は行為の方策だけでなく行為を意味付けている体系に対するものとの二つのフィードバックループを含んでいる．Argyris がはっきり述べているように [Argyris 96]（p. 21），シングルループ，ダブルループという概念は Ashby [Ashby 60]の適応システムに関する概念から借りてきたアナロジーである． Argyrisのループ学習の概念はより一般的にシステムの適応行動の概念から考えることができる．システムの適応行動は，first-order adaptive system と second-order adaptive systemとに区別できる [高橋 07b]． first-order adaptive systemはシステムの行動がそれを記述する状態の一定の位相空間内にあり，システム変数のパラメータを調節することで目的の行動を達成しようとする．一方 second-order adaptive system は行動の位相空間そのものを変化させるようなシステム変数の変更により環境適応を行う．フィードバックを考えたとき， first-order adaptive systemは，例えば一定の温度目標に調節するサーモスタットのような働きで，負のフィードバックに相当し，シングルループ学習はこれに該当する．一方 second-order adaptive system は，例えば設定する温度の決定に関わるものであり，正のフィードバックに相当し，温度の決定を人の意思決定における認知モデルの変更まで考えたときダブルループ学習に該当する．ただし，組織のダブルループ学習では各組織メンバの認知モデルの変更のためには組織内でのメンバ間の認知モデルの共有が不可欠となる．

4．組織学習へのエージェントアプローチ

組織学習においては，単に組織メンバ個人が組織ルーチンを組織目標に向かって修正する行為だけではなく，いかに認知モデルを修正し組織全体で共有するかが鍵である．すなわち組織学習では組織メンバという個と組織全体との関係をいかに構築するかが課題となる．エージェントアプローチのもつミクロ─マクロリンクという特性により，この課題に自然にアプローチできると期待できる．本章では，組織論に数理的・計算論的アプローチを早くからしてきた計算組織論における情報処理アプローチと，組織システムの適応に対するモデルを提供している組織サイバネティクスの観点からのエージェントアプローチ，およびダブルループ学習のプロセスの原理的なモデルとなるハイパーゲームによる定式化を紹介する． 4･1　情報処理アプローチ組織学習の問題にエージェントの概念でまず取り組み始めたのは計算組織論 [Carley 95] である．計算組織論では，組織のさまざまな課題に対して情報処理アプローチによるモデルをつくり，計算機シミュレーションなどにより知見を得る領域で，1990 年代から活発になっている．情報処理アプローチでは，エージェントの合理性は限定されていること（限定合理性），エージェントが利用できる情報は組織内に分散していること（情報の組織内偏在性），情報がエージェントのメンタルモデルを通じて共有されること（メンタルモデルによる情報の共有），不確実性は組織外部だけでなく組織内部にも存在すること（組織内外の不確実性），経験から学ぶ組織学習があること（組織知能），学習プロセスは不可逆的で経路依存性があること（学習プロセスの経路依存性），そして明示的および非明示的コミュニケーションといった観点からスキルをもったエージェントがタスクを処理するという枠組みで組織をモデル化する．

代表的なモデルとして Carley らの OrgAHead [Lee 04]や Levitt らの Virtual Design Team（VDT）[Levitt

03]がある．OrgAHead は上位と下位の 2 層の組織構造からなり，下位層のエージェントがタスク処理し，上位層のマネージャが環境に応じた組織設計を行う．また組織構造の適応についてシミュレーテッドアニーリングの手法を用いて考察されている．しかし組織学習に関してはシングルループ学習にとどまっており，エージェントの学習自体にも深みは見られない．VDT は組織のタスクをチームでこなす組織設計を支援してくれる包括的なモデリングの枠組みを提供しているが，エージェントの学習モデルはあまり考慮されていない． OrgAHeadに代表されるモデルはアブストラクトモデル [Gilbert 08, 高橋 13] であり，現実の特定の組織構造というのではなく，単純化抽象化した組織構造について議論している． 4･2 組織サイバネティクスへのエージェントアプローチ情報処理アプローチによる組織モデルは基本的に March系の組織ルーチン体系の変化や組織構造の変化に焦点を当てたアブストラクトモデルが多く，Argyris らの組織学習モデルの要であるダブルループ学習を表現しているモデルは多くない．ダブルループ学習を表現するための有力な概念は，エージェントの状況認知を表す内部モデルである．すなわちサイバネティクスの観点からの組織学習のモデルをエージェントアプローチに融合させるためには内部モデルの概念が重要となる． Espejoらのモデルでは，メンタルモデルが組織学習にとって重要な役割を果たしている．エージェントモデル

(4)

においては，このメンタルモデルは内部モデルとして定式化される．内部モデルの考え方は制御理論において内部モデル原理として知られている [Francis 76]．エージェントの内部モデルは，基本的にはエージェントの置かれた状況や環境の認知モデルを意味する．エージェントの内部モデルはもちろん，サイバネティクスの観点から制御理論における内部モデルの考え方を借りている．状況の認知といってもさまざまな内容をもっている．出口 [出口 00] はエージェントの内部モデルについて次のような 4 類型にまとめている．（1）状態の内部モデル環境および自己の特性状態を表現したモデルである．（2）行為の内部モデルエージェントの行為を規定したルールやエージェントが取り得る代替案を表したモデルである．（3）因果関係の内部モデル状態間の因果関係を表現したモデルである．（4）評価の内部モデルエージェントの行為のルールに関するエージェント自身の評価を表現したモデルである．いずれの場合でも，エージェントは内部モデルを参照して環境の認識を行い，それに基づいて意思決定し行動する．エージェントの行動が改善されるためには意思決定が改善されなければならないが，そのためには内部モデルを適切に利用することや内部モデル自体を修正することが鍵となる．エージェントの内部モデルに関わる構成要件を状況依存型意思決定モデルとして模式的に表したのが図 2 である [高橋 07a]．エージェントは状況認知の内部モデルを参照して，環境からの入力を認知・解釈し，自身の意思決定の目的を達成する行動（行為）を行う．組織システムの機能階層をエージェントの概念が加味された組織サイバネティクスの観点から整理すると図 3 のようになる [高橋 07a]．そこでは，PolicyからImplement 機能までの機能階層を実施する自律的意思決定主体としてエージェントは位置付けられる．また，エージェントの自律的意思決定が適応的になされるために，内部モデルの利用・修正による組織学習が行われる． 4･5 サイバネティクスの観点からの組織学習の類型サイバネティクスの観点からの組織学習では Argyris らのシングルループ，ダブルループ学習が重要で，それぞれ負と正のフィードバックループに対応している．特にダブルループ学習はエージェントの内部モデルの修正による適応として考えられる． Argyrisらの組織学習モデルでは，ループ学習はさらに個人と組織のレベルで行われる．上述のように， Argyrisの組織学習の概念自体がサイバネティクスの考え方に基礎を置いているが，それらをサイバネティクスの観点からの言葉で解釈すると以下のようになる（表 1）．（1）個人のシングルループ学習各エージェントは個別に自身の置かれている環境や状況の内部モデルをもっており，それを参照して最適な意思決定変数を選択する．最適性は実際に実行する個人によって設定された目標値との差から定義され，それを縮める負のフィードバックを用いる．個人の目標は組織の達成目標から階層的にブレークダウンされる．この個人のシングルループ学習の結果組織の意思決定能力が増大することは通常ない．（2）組織のシングルループ学習組織目標を達成するために，下位の階層に目標がブレークダウンされ，各機能階層に所属しているエージェ図 2　状況依存的エージェントモデル [高橋 07] 図 3 エージェントベースの組織サイバネティクスの基本階層モデル [高橋 07] 表 1　組織学習のタイプ個人組織シングルループ学習負のフィードバック意思決定変数のみの変更個人のシングルループ学習の統合ダブルループ学習環境変数の変更内部モデルの修正内部モデルの組織内での共有化

(5)

ントに対し達成すべきサブゴールが設定される．個人のシングルループ学習の結果，各エージェントが得る最適な意思決定変数の値が組織全体で統合される．統合された意思決定変数の値に基づいて組織の決定が行われる．（3）個人のダブルループ学習エージェントは各自の目標を達成するために自己の内部モデルを参照して意思決定し，それを実行する．実行結果は意思決定前に想定し評価したものと同じであるとは限らない．もし結果が想定と異なっている場合，参照している内部モデルの修正が必要である．各エージェントは実行結果を受け取った後に，各自の内部モデルを事後的に評価する．評価に従って内部モデルを修正する．内部モデルを修正することは自己の置かれている環境や状況の認知を改善することを意味する．（4）組織のダブルループ学習個人のダブルループ学習では，各エージェントの内部モデルの修正に留まっている．組織のダブルループ学習では，各自が修正した内部モデルが組織の中のエージェント間で共有される．内部モデルが共有されると，他の内部モデルも参照できることになり，自身の内部モデルを修正するなど意思決定能力が向上する．個人と組織のダブルループ学習は内部モデルの修正と共有のプロセスである．それは組織が変化する環境状況に適応して生存する（viable）ことを可能にしてくれる． 4･6 ダブルループ学習モデル組織学習にはシングルとダブルの二つのループ学習がある．これまでの組織シミュレーションでは，主としてシングルループ学習についての研究が多い．原因の一端は，実際の組織構造に近いようにモデル化をするとダブルループ学習のためのモデル化が容易でなくなるためである．一方で，組織学習の深いレベルでの理解を目的としたモデルを構築しようとした場合，必ずしも個別具体的な組織との対応はしない抽象的なモデル化が必要となる．例えば，遺伝的アルゴリズムを応用したクラシファイアシステムによる組織学習モデルがある [高玉 03]．本章では，内部モデルの学習と組織学習の特にダブルループ学習との関係について，ハイパーゲームと呼ばれるゲーム形式によるモデルを紹介する [Takahashi 01]．このモデルでは，組織学習における内部モデルの修正と共有を進化的プロセスとして表現している．その基本的な枠組みは次のようになっている．（1）各エージェントは自身の内部モデルを参照して自律的に意思決定して行動を選択する．（2）状況（環境）からの反応として得られた行動の結果に関する情報を同一組織内の他のエージェントと交換する．（3）各エージェントは進化的な方法により状況認知である内部モデルを改善する．（4）各エージェントは改善された内部モデルに基づき新しい意思決定と行動を選択する．（3）にある進化的方法というのは，遺伝的アルゴリズムにおける適応度関数，交叉，突然変異などの遺伝的操作を用いることを意味している．このプロセスの中で内部モデルの改善の方法を探るために，ゲーム形式によりエージェントの意思決定を表現する．ゲーム形式は合理的意思決定の表現として必要な要素を含み，かつ最も小さい表現の一つであり，内部モデルの修正と共有のための必要条件を分析するのに適している．ここでは，エージェントとその意思決定状況をゲーム形式として次のように定式化する．状況には複数の組織が含まれていて互いに競合してい る．簡単のために，仮にここでは二つの組織 P と Q が 競合しているとしよう．これはいわゆるゲーム理論でいうプレーヤが二人いるゲーム状況を想定している．各組 織は n 人のエージェントから成り立っている．各エー ジェントは行動の代替案の集合 S をもっている．組織 P の各エージェントは競合組織である組織 Q からランダ ムに選択されたエージェントとゲームのプレイを 1 対 1 で行う．プレイをすると自身の選択した代替案とゲーム相手のエージェントの選択した代替案により利得が定まる．この利得は自身の代替案と相手の代替案の組合せの 関数で，各エージェントはそれを利得関数 G としてもっ ている．同一組織内のエージェントは同一の行動代替案をもっ ている．組織 P と組織 Q の代替案集合をそれぞれ SPと SQと書こう．通常のゲーム理論では，戦略集合や利得関数は対戦相手も含め全プレーヤの共通知識となっており，誤認知はないと仮定されている．しかし，今モデル化している状況では，環境認知を各エージェントが自律的に内部モデルとして表現している．ゲーム形式による状況表現では，各エージェントの環境は自身の対戦相手のゲーム形式である．すなわち，対戦相手の行動代替案の集合と利得関数が未知である．このようなゲーム状況 はハイパーゲームという枠組みで記述できる．組織 P の エージェントは組織 Q のエージェントの行動代替案とし て何をもっているかを各自が自律的に認知する．組織 P のエージェント piが認知した組織 Q のエージェントの 行動代替案の集合を SQpiと書こう．同様に組織 Q のエー ジェント qjが認知した組織 P のエージェントの行動代 替案の集合を SPqjと書く．利得関数の表記も同様であるが，利得関数は同一組織でもエージェントごとに異なっ ている．エージェント piの利得関数を Gpiと書く．これ は SPと Qpiの積集合を定義域とする実数値関数である． 一方，競合組織 Q のエージェントがどのような利得関 数をもっているかに関するエージェント piの認知は誤っ ている可能性がある．これを GQpiと書こう．同様に，エー ジェント qjの利得関数は SPqjと SQの積集合から実数へ

(6)

の関数であり，それを GPqjと書こう．

以上をまとめると次のように表現できる． ＜ {P, Q}, {SP, SQpi, Gpi, GQpi}piP,

{SQ, SPqj, Gqj, GPqj}qjQ＞このモデルはネットワーク型二人ハイパーゲームと呼 ばれている [Takahashi 01]．SPqjと GPqjが具体的なエー ジェント piの内部モデルを表現している．ゲーム理論の言葉では，エージェントはプレーヤである．しかし，ゲーム状況は二つの組織間でのゲームとなっており，「組織」が通常のゲーム理論の二人ゲームの形式におけるプレーヤを意味しており，上の定式化でのエージェントは「組織」内でエージェント同士が協力して，各自の利得を最大化することを目指す．その結果として，組織全体の利得を最大化する．この部分は個人のシングルループ学習と組織のシングルループ学習に相当している．そのうえで，競合相手のエージェントに対する認知である自身の内部モデルを改善するプロセスが含まれている．これが個人のダブルループ学習に相当する．個人のダブルループ学習の結果，各エージェントが内部モデルを改善し，組織として収束していくことにより組織内で内部モデルが共有化される．これは組織のダブルループ学習に相当する．具体的なループ学習のプロセスは，ネットワーク型動的ハイパーゲームとして以下のように定式化できる．（1）プレイ．各エージェントは他のエージェント集団の中のエージェントとプレイを行い，結果と利得を得る．（2）結果の交換．同一組織内のエージェントは，プレイした相手が取った行動と自身が得た利得に関する情報を交換し，共有する．（3）共有した情報を基礎にして，自身のもつ内部モデルを評価する．評価は適応度関数により与えられる．適応度関数により計算された適応度を用いて，同一組織内のエージェントに対して遺伝的操作（交叉と突然変異）を行うことにより内部モデルを修正する．（4）修正された内部モデルを用いて新しいプレイを行う．この過程を所与の条件に従った回数分繰り返す．図 4 は上記の過程を模式的に表したものである．簡単な数値例を紹介しよう．図 5 はあるハイパーゲー ム状況を表している．行動代替案は a, b, c の三つあり， 認知の誤りはない．しかし，利得関数（行列）の認知に誤りがある．両者を合わせると客観的な利得行列となる． この例の場合，組織 P のエージェントの内部モデルは一 つのベクトルとして次のように表現できる．xiのところが認知の誤りをしている部分である．（x1, x2, x3, x4, x5, x6, x7, x8, x9），x ∈ {0, 1, 2} 組織 Q のエージェントの内部モデルも同様に表現さ れる．認知されている利得行列のもとでの意思決定では，その利得行列におけるナッシュ均衡解を選択する．これは限られた知識の中では合理的意思決定といえる．エージェントが全員正しい認知をしている場合はナッシュ均衡解を全員が取る．ところが，認知が正しくないと各エージェントの取られる意思決定が異なり，ナッシュ均衡解が達成できない．例えば図 5 においては，客観的な利得 行列ではナッシュ均衡解は（a, a）であり，このとき双 方が利得 2 を得る．ところが，もし組織 Q のエージェ ントの組織 P のエージェントに対する認知を誤認知して いて，行動代替案 a について利得 y1が 2 でなく，y6が 2である場合は，エージェント qjにとって（a, a）がナッシュ均衡解とはならず，（b, c）がナッシュ均衡解となる． そこで組織 Q のエージェントは c を合理的意思決定とし て選択し，相手が b を取ることを期待する．もし組織の エージェントが（a, a）をナッシュ均衡解と認知してい た場合には a を取るので，実際にプレイをすると組織 Q のエージェントは期待と異なる結果を得る．これから双方のエージェントは自分か相手の認知が正しくないとわかる．誤認知をしているエージェントは現在の内部モデルのままナッシュ均衡解を計算するシングルループ学習をしていたのでは，これ以上の利得の向上を望めない．そこで内部モデルの修正によるダブルループ学習を行う．各エージェントが 1 回のプレイで得られる情報は，自分の出した手，相手が出した手，そして自分が得た利得だけである．相手が得た利得はわからない．この三つの情報は同じ組織内のネットワークによって全エージェントに共有される（動的ハイパーゲームのプロセス（2））．次に三つの情報を使って内部モデルを評価する（動的ハイパーゲームのプロセス（3））．評価は遺伝的アルゴ図 4　ネットワーク型動的ハイパーゲーム [Takahashi 01] SQpi SQ a b c a b c a 2,x1 1,x2 1,x3 y1,2 y2,0 y3,1 SP b 1,x4 2,x5 0,x6 SPqj y4,0 y5,1 y6,2 c 0,x7 0,x8 2,x9 y7,1 y8,2 y9,0 Gpi Gqj 図 5　利得行列

(7)

リズムの適応度関数によって行う．ポイントは適応度関数の設計である．通常最適化問題に遺伝的アルゴリズムを応用するときは，目的関数を適応度関数として利用することができる．しかし今回のモデルでは，学習するターゲットをエージェントが知らないという条件があり，これを適応度関数に反映させ，適応度関数はエージェントが内部モデルを評価するときに参照するという前提である．これにより，適応度関数で利用される「情報」はエージェントが実際に使える限定的な情報となり，どのような情報を利用すれば組織学習特にダブルループ学習が促進されるかが検討できる．図 4 の利得行列のときの実験結果として，組織は組織を正しく認知していて，組織のみが誤認知をしている場合と両組織が誤認知をしている場合とでは組織学習に必要な情報が異なっていることがわかっている．この場合，基本的に機会損失と交換コストと呼ばれる二つの評価が重要である．機会損失は，認知が正しければ得られるはずのナッシュ均衡解のときの利得（図 5 では 2）と，誤認知のために得た異なる利得との差による評価である．交換コストは，内部モデルを修正するためにかかる費用である．図 5 のケースでは内部モデルの修正の方法を定めてあり，修正までのステップ数により評価している． 実験では組織と Q がともに誤認知をしている場合は， 機会損失と交換コストという二つの評価だけではランダムな修正の場合と有意差が得られない．他の評価情報が必要である．そこで機会損失と交換コストのどちらにも他のエージェントの情報が使われていないことに注目し，他のエージェントとの情報交換により得た情報を利用することを考える．利得構造などのゲーム状況によって有効な情報は異なり，どのような情報を利用すればよいかは現在も研究課題となっている．これまで状況に応じて 10 数種類もの評価指標が提案されている．典型的な指標としては，相手が最も多く出してきた代替案の比率がある．この値が大きいほど相手の自分への理解度が高いことを表していて，全員が同じ代替案を出すときが最大で最大値 1 となる．あるいは組織内のエージェントで情報交換をすると相手が取った代替案の分布がわかる．各代替案の機会損失と交換コストを計算して，代替案の分布に応じた重みを付けて積和をすることで一種の場の情報として利用できる．図 5 の利得構造の場合には，これらの情報を適応度関数として利用すると，双方の組織の誤認知の場合でもランダムな修正の場合と比べて統計的に有意差のある学習結果が得られる．ただし，すべての利得の位置を正しく認識することは困難で，ナッシュ均衡解の正しい位置を認識することを学習の目標としている．遺伝的アルゴリズムの特徴から，全エージェントが同一の学習結果を得る．これは内部モデルの共有化が行われたと解釈できる．

5．お　わ　り　に

組織学習の本質は，単に目標を達成するための政策の学習だけでなく，サイバネティクスの観点からはダブルループ学習においてエージェントの内部モデルの学習とエージェント間での内部モデルの共有の過程を含むことにある．しかし，その操作的モデル化は今なお課題である．本稿では，抽象的なハイパーゲーム形式におけるモデル化の一端を紹介したが，個別組織への具体的な適用はまだない．例えば，組織シミュレーションを実務へ適用する試みは存在する [Ohori 12] が，そこでのエージェントの学習は簡単な模倣戦略であり，個々のエージェントの学習過程は学習曲線により定式化しており，内部モデルの修正過程まで取り込んだモデルとはなっていない．モデル化が難しい最大の原因は，現実の実務的組織自体が複雑で，実証できるデータもなく，モデルの妥当性はおろかモデル要素の構築さえままならないということである．組織学習におけるアブストラクトモデルの価値は，現実的な制約を捨象している分適用範囲が広く，実際の設計への深い示唆を与えることが期待できることである．一方で今後実際のビジネス状況への適用を考える際には，具体的な学習過程のモデル化や現実への接地が可能なファクシミリなモデル [Gilbert 08, 高橋 13] の発展も不可欠である．

◇　参　考　文　献　◇

[安藤 01] 安藤史江：組織学習と認知地図，白桃書房（2001） [Argyris 96] Argyris, C. and Schön, D. A.: Organizational

LearningⅡ, Addison-Wesley（1996）

[Ashby 56] Ashby, W. R.: Introduction to Cybernetics, Chapman & Hall（1956）

[Ashby 60] Ashby, W. R.: Design for a Brain, John Wiley and Sons （1960）

[Barnard 68] Barnard, C. I.: The Functions of the Executive, Harvard University Press（1938）；山本安次郎ほか訳：新訳経営者の役割，ダイヤモンド社（1968）

[Beer 72] Beer, S.: Brain of the Firm, McGraw-Hill（1972） [Carley 95] Carley, K. M.: Computational and mathematical

organization theory: Perspective and directions, Computational

and Mathematical Organization Theory, Vol. 1, No. 1, pp. 39-56

（1995）

[Cohen 72] Cohen, M. D., March, J. G. and Olsen, J. P.: A gabage can model of organizational choice, Administrative Science

Quarterly, Vol. 17, No. 1, pp. 1-25（1972）

[Cyert 63] Cyert, R. M. and March, J. G.: A Behavioral Theory of

the Firm, Prentice-Hall（1963）

[出口 00] 出口弘：複雑系としての経済学，日科技連出版（2000） [Dierkes 01] Dierkes, M. Antal, A. B., Child, J. and Nonaka, I.:

Handbook of Organizational Learning and Knowledge, Oxford

University Press（2001）

[Espejo 96] Espejo, R., Schuhmann, W., Schwaninger, M. and Bilello, U.: Organizational Transformation and Learning─ A

Cybernetic Approach to Management─ , Wiley（1996） [Fransis 76] Francis, B. A. and Wonham, W. M.: The internal

(8)

457-465（1976）

[Gilbert 08] Gilbert, N.: Agent-Based Models, SAGE Publications （2008）

[Kieser 01] Kieser, A., Beck, N. and Tainio, R.: Rules and organizational learning: The behavioral theory approach,

Handbook of Organizational Learning & Knowledge, pp.

598-623, Oxford（2001）

[桑田 98] 桑田耕太郎，田尾雅夫：組織論，有斐閣アルマ（1998） [Lant 94] Lant, T. K.: Computer simulations of organizations as

experimential learning systems: Implicatons for organization theory, Computational Organization Theory, edited by Carley, K. M. and Prietula, M. J., pp. 195-215, Lawrence Eribaum Associates（1994）

[Lee 04] Lee, J. and Carley, K. M.: OrgAhead: A computational model of organizational learning and decision making, CASOS

Technical Report, CMU-ISRI-04-117（2004）

[Levitt 03] Levitt, R. E.: The Virtual Design Team（VDT）： A Multi-Agent Analysis Framework for Designing Project Organizations, KIMAS 2003, pp. 115-120（2003）

[松田 90] 松田武彦：情報技術同化のための組織知能パラダイム，組織科学，Vol. 23, No. 4, pp. 16-33（1990）

[Ohori 12] Ohori, K., Kobayashi, N., Obata, A., Takahashi, A. and Takahashi, S.: Decision support for management of agents’ knowledge and skills with job rotation in service-oriented organization, Hawaii Int. Conf. on System Sciences（HICSS） （2012）

[Pugh 00] Pugh, D. S. and Hickson, D. J.: Great Writhers on

Organizations, Gower（2000）；北野利信訳：現代組織学説の偉人たち，有斐閣（2003）

[Robins 05] Robbins, S. P.: Essentials of Organizational

Beheviour, Prentice-Hall（2005）；高木晴夫訳：組織行動のマネジメント，ダイヤモンド社（2009）

[Rouse 05] Rouse, W. B. and Boff, K. R.: Organizational

Simulation, Wiley（2005）

[Senge 90] Senge, P. M.: The Fifth Discipline: The Art & Practice

of The Learning Organization, Doubleday Business（1990） [Takahashi 01] Takahashi, S.: Evolutionary learning in

agent-based modeling, Discrete Event Modeling and Simulation

Technologies, edited by Sarjoughian, H. S. and Celler, R. E.， pp. 297-314（2001） [高橋 07a] 高橋真吾：エージェントベース組織サイバネティクスによる組織学習問題への接近，社会経済システム学会，No. 28, pp. 9-15（2007） [高橋 07b] 高橋真吾：システム学の基礎 , 培風館（2007） [高橋 13] 高橋真吾：モデルの解像度と妥当性評価，計測と制御， Vol. 52, No. 7, pp. 582-587（2013） [高玉 03] 高玉圭樹：マルチエージェント学習─相互作用の謎に迫る，コロナ社（2003） [上田 03] 上田泰：組織行動研究の展開，白桃書房（2003） 2015年 5 月 1 日受理

著　者　紹　介

高橋　真吾 1989年東京工業大学大学院総合理工学研究科システム科学専攻博士後期課程修了．2001 年 4 月早稲田大学助教授となり現在に至る．理学博士．システム論，システム科学，ソフトシステムアプローチ，社会シミュレーションなどの研究に従事．経営情報学会，計測自動制御学会など各会員．