1.は じ め に
組織は一定の目標を達成するためにそのメンバが協働 するシステムである.組織目標を達成するには,組織メ ンバの個人的な能力だけでなく,協働する“仕組み”に 関わるさまざまな要因が関係している.組織学習は,組 織の目標を達成するためのパフォーマンスの向上に関わ る組織の適応“能力”を高めることであり,そのための メカニズムである.例えば組織環境に適応して製品を開 発する能力そのものを向上させることなどが組織学習と して考えられる.組織学習はシステムの観点からは環境 変動に対する組織の長期適応として捉えられる.長期適 応では組織構造自体の変更を伴うことがある.組織の適 応能力は組織が日々こなしている仕事のやり方である組 織ルーチンの体系によって決定される.すなわち,組織 学習では組織ルーチンの体系をいかに変更して環境変動 に適応するかが主題となる. 組織学習のプロセスは,一般的には組織が新たな知 識や価値観を習得していく過程であり [安藤 01],基本 的に(あるいは素朴に)組織があたかも人間のように経 験から学ぶ学習であるといえるが,これを人間の知能か らの自然な類推である組織知能の一部として考察するこ ともできる [松田 90].本稿で扱う組織学習は,組織論 の中での一領域として行われている研究を基本的に参照 して,特に組織論の中でも組織行動論の主要な研究課題 である組織のメンバの行動(組織行動という)による組 織メンバ個人の学習と組織全体の関係に焦点を当てる [安藤 01, Cyert 63]. 現代の組織論における組織学習の多くのモデルは適応 の失敗から来る問題を静的な組織構造の側面から捉えて いる.組織学習の本質は,動的に変化する組織環境に適 応する [Lant 94] ための組織ルーチンの体系の変化であ るが,その変化の単位は組織の各メンバではなく,組織 のメンバから成る集団やチームである.そして組織メン バ同士が達成すべき将来のイメージを共有することで組 織全体の組織学習が進む.そのためには,後述するよう に,組織システムの構成要素である組織メンバが行動を するときに参照する認知や,準拠する意思決定のルール の枠組みそのものが動的に変化することが組織学習の重 要な側面の一つである.しかし,組織論ではこれまで理 論的フレームワークや実証的分析が研究の主流であり, その動的なメカニズムの説明は発展途上である.組織学 習の動的な側面を表現するためのモデルもいまだ十分と はいえない.それに対してエージェントの概念を取り入 れたアプローチが 1990 年代から研究されている.ただ しそれらはほとんどが理論的な含意を得るためのアブス トラクトモデル [Gilbert 08, 高橋 13] であり,具体的な ビジネスへの応用のためのミドルレンジやファクシミリ モデルの構築は容易ではない. 本稿では,まず March に始まる組織学習論の主要な 系譜や情報処理アプローチによるモデルを概観し,組織 学習にエージェントアプローチを適用するための枠組み をサイバネティクスの観点から述べる.組織学習のモデ ルとして,組織学習論における Argyris 学派の学習モデ ルを紹介し,特にシングル,ダブルループ学習の考え方 について説明する.最後に,ハイパーゲームの形式を使っ てダブルループ学習をモデル化し,そのメカニズムをエー ジェントの内部モデルの学習過程を通して紹介する.2.組織学習論の系譜
組織を複数のメンバが共通の目標を達成するための協 働システムとして最初に定義したのは実務家の Barnard である [Barnard 68].Barnard はサイバネティシャンの Ashbyの著書である“Design of a Brain”[Ashby 60] を 好んで読んでいたということなので,彼のシステム的発 想はサイバネティクスの考え方に影響された部分が少な からずあるといわれている. 現代の組織行動論もサイバネティクスの考え方に大き く依拠している.動的な組織の発展プロセスとして組織 学習を捉えた研究は 1960 年代に遡るといわれる [安藤 01].代表的なものは Cyert と March である [Cyert 63]. その後 1980 年代後半から 90 年代にかけて組織学習は組織学習とエージェントベースアプローチ
Organizational Learning and Agent-Based Approach
高橋 真吾
早稲田大学理工学術院Shingo Takahashi Faculty of Science and Engineering, Waseda University. [email protected]
Keywords:
organizational learning, agent-based approach, double-loop learning, internal model. 「ビジネスが創発する人工知能と人工社会」盛んに研究されるようになった.アプローチや主題の違 いによって主として March 系,Hedberg 系,Argyris 系の三つの系統がある [安藤 01].これらは明確な集団 を形成しているわけではないが,研究論文における引用 に違いがあり,組織学習への考え方の違いを表している. March系では,組織学習は環境変化に反応して経験 に適応する組織と捉えられ [Kieser 01],主に組織ルー チンの変化やその定着が主題となっている.March らの ゴミ箱モデル [Cohen 72] を始め,早くからシミュレー ションモデルによって組織行動の問題にアプローチして いる.後述する計算組織論では March 系の研究が多く, それらは価値前提や認知モデルの変更を伴わない低次学 習に関するアブストラクトモデル [Gilbert 08, 高橋 13] である. Hedberg系の特徴は,組織学習をアンラーニングとし て捉えることである.アンラーニングは,これまで組織 がもっていた知識,あるいは知識を生み出す価値前提や 認知モデルが環境に適応しておらず妥当性がないものを 棄却し,新しいものに置き換えることである.ただし, 広義のアンラーニングでは妥当でない知識と価値前提の 棄却のみを指し,新しいものを獲得し置き換わったかは 問われない.アンラーニングでは単なる知識の修正だけでは なく,組織の認知モデルの棄却として組織学習が行われる とする.認知モデルの変更は組織学習のうち高次学習とも いわれ [安藤 01],その点については本稿で主に依拠す る Argyris 系の組織学習の概念と通ずるものがある. Argyris系は組織変革に関わる高次学習に特徴がある.
Argyrisら [Argyris 96] の組織学習は,Ashby のサイバ ネティクスの考え方 [Ashby 56, Ashby 60] に深く影響さ れており,そのモデルはシングルループ学習(single-loop learning)とダブルループ学習(double-loop learnin)と して知られている.シングルループ学習は既存の価値前 提と評価枠組みの範囲内でエラーを修正する学習プロセ スである.ダブルループ学習は,価値前提と認知モデル 自体の妥当性を問い,新たなものに置き換えていく学習 プロセスである.ダブルループ学習は特に組織メンバの 認知モデルを変更し,組織として共有していく高次学習 である.これについては次章で改めて説明をする. Argyrisの組織学習の概念がサイバネティクスからの 発想であることからもわかるように,組織学習の問題は サイバネティクスにおいてシステムの適応行動として 組織学習と密接な関連をもって研究されてきた.サイ バネティクスの観点からの組織モデルとしては Beer の Viable System Model(VSM)を発展させた組織サイバ ネティクスのモデルが代表的である [Beer 72].VSM で は組織は機能階層構造をもち,各機能階層で環境と相互 作用を行うモデルとして定式化される.最上位の階層は 適応レベルにあり,組織目標を実現するための政策立案 をする政策策定機能と,環境を認知・解釈する情報判断 機能から成っている.適応レベルの下には組織目標を各 組織部門で実行するための制御レベルがあり,管理機能 をもっている.管理機能の下には実際に実行するいくつ もの実施機能が続き,それらを統合する統合機能がある. VSMは最適解を求めるための操作的なモデルではなく, 問題を抱えた組織のどこが改善すべきかをシステム思考 によって診断するための規範的な記述モデルである. VSMの考え方に組織学習のシングル,ダブルループ 学習の考え方を組織成員のメンタルモデルの学習として 明示的に取り入れたのが Beer の弟子の Espejo らである [Espejo 96].ループ学習のモデルを用いて,実際の組織 の状況で起こり得る組織学習のタイプを七つに分類して いる.
3.Argyris の組織学習モデル
本章では Argyris の学習モデルについて,Argyris の オリジナルな考えになるべく沿って以下に説明する. Argyrisの組織学習の概念の特徴はシングルループ学 習,ダブルループ学習というループ学習と呼ばれるもの である.この二つのループ学習による「組織学習」はよ く誤解される概念でもあるので,Argyris [Argyris 96] の定義を引用しよう. シングルループ学習は以下のように述べられている. “By single-loop learning we mean instrumentallearning that changes strategies of action or assumptions underlying strategies in ways that leave the values of a theory of action unchanged.”([Argyris 96] p. 20) この文の中の instrumental learning は組織における タスク処理のパフォーマンスを改善するために,各組織 メンバが行為の戦略を変更することを指す.ただしシン グルループ学習では,何をもって改善というのかに関す る価値前提や規範については変更しない.すなわちシン グルループ学習では組織の目標を達成するための方策の みを変更してパフォーマンスの向上を目指す.これはエ ラーを検知して組織行動を修正する負のフィードバック 図 1 組織サイバネティクスの観点からの組織学習のモデル [Espejo 96]
ループに相当する.
一方ダブルループ学習は次のように定義される. “By double-loop learning, we mean learning
that results in a change in the values of theory-in-use, as well as in its strategies and assumptions.”([Argyris 96] p. 21) ダブルループ学習では改善の価値体系自体を変更する ことを含む.すなわち,ダブルループ学習は行為の方策 だけでなく行為を意味付けている体系に対するものとの 二つのフィードバックループを含んでいる.Argyris が はっきり述べているように [Argyris 96](p. 21),シン グルループ,ダブルループという概念は Ashby [Ashby 60]の適応システムに関する概念から借りてきたアナロ ジーである. Argyrisのループ学習の概念はより一般的にシステム の適応行動の概念から考えることができる.システム の適応行動は,first-order adaptive system と second-order adaptive systemと に 区 別 で き る [高 橋 07b]. first-order adaptive systemはシステムの行動がそれを 記述する状態の一定の位相空間内にあり,システム変数 のパラメータを調節することで目的の行動を達成しよう とする.一方 second-order adaptive system は行動の位 相空間そのものを変化させるようなシステム変数の変更 により環境適応を行う.フィードバックを考えたとき, first-order adaptive systemは,例えば一定の温度目標 に調節するサーモスタットのような働きで,負のフィー ドバックに相当し,シングルループ学習はこれに該当す る.一方 second-order adaptive system は,例えば設定 する温度の決定に関わるものであり,正のフィードバッ クに相当し,温度の決定を人の意思決定における認知モ デルの変更まで考えたときダブルループ学習に該当す る.ただし,組織のダブルループ学習では各組織メンバ の認知モデルの変更のためには組織内でのメンバ間の認 知モデルの共有が不可欠となる.
4.組織学習へのエージェントアプローチ
組織学習においては,単に組織メンバ個人が組織ルー チンを組織目標に向かって修正する行為だけではなく, いかに認知モデルを修正し組織全体で共有するかが鍵で ある.すなわち組織学習では組織メンバという個と組織 全体との関係をいかに構築するかが課題となる.エー ジェントアプローチのもつミクロ─マクロリンクという 特性により,この課題に自然にアプローチできると期待 できる. 本章では,組織論に数理的・計算論的アプローチを 早くからしてきた計算組織論における情報処理アプロー チと,組織システムの適応に対するモデルを提供してい る組織サイバネティクスの観点からのエージェントアプ ローチ,およびダブルループ学習のプロセスの原理的な モデルとなるハイパーゲームによる定式化を紹介する. 4・1 情報処理アプローチ 組織学習の問題にエージェントの概念でまず取り組み 始めたのは計算組織論 [Carley 95] である.計算組織論 では,組織のさまざまな課題に対して情報処理アプロー チによるモデルをつくり,計算機シミュレーションなど により知見を得る領域で,1990 年代から活発になって いる. 情報処理アプローチでは,エージェントの合理性は限 定されていること(限定合理性),エージェントが利用 できる情報は組織内に分散していること(情報の組織内 偏在性),情報がエージェントのメンタルモデルを通じ て共有されること(メンタルモデルによる情報の共有), 不確実性は組織外部だけでなく組織内部にも存在するこ と(組織内外の不確実性),経験から学ぶ組織学習があ ること(組織知能),学習プロセスは不可逆的で経路依 存性があること(学習プロセスの経路依存性),そして 明示的および非明示的コミュニケーションといった観点 からスキルをもったエージェントがタスクを処理すると いう枠組みで組織をモデル化する.代表的なモデルとして Carley らの OrgAHead [Lee 04]や Levitt らの Virtual Design Team(VDT)[Levitt
03]がある.OrgAHead は上位と下位の 2 層の組織構造 からなり,下位層のエージェントがタスク処理し,上位 層のマネージャが環境に応じた組織設計を行う.また組 織構造の適応についてシミュレーテッドアニーリングの 手法を用いて考察されている.しかし組織学習に関して はシングルループ学習にとどまっており,エージェント の学習自体にも深みは見られない.VDT は組織のタス クをチームでこなす組織設計を支援してくれる包括的な モデリングの枠組みを提供しているが,エージェントの 学習モデルはあまり考慮されていない. OrgAHeadに代表されるモデルはアブストラクトモデ ル [Gilbert 08, 高橋 13] であり,現実の特定の組織構造 というのではなく,単純化抽象化した組織構造について 議論している. 4・2 組織サイバネティクスへのエージェントアプローチ 情報処理アプローチによる組織モデルは基本的に March系の組織ルーチン体系の変化や組織構造の変化に 焦点を当てたアブストラクトモデルが多く,Argyris ら の組織学習モデルの要であるダブルループ学習を表現し ているモデルは多くない.ダブルループ学習を表現する ための有力な概念は,エージェントの状況認知を表す内 部モデルである.すなわちサイバネティクスの観点から の組織学習のモデルをエージェントアプローチに融合さ せるためには内部モデルの概念が重要となる. Espejoらのモデルでは,メンタルモデルが組織学習に とって重要な役割を果たしている.エージェントモデル
においては,このメンタルモデルは内部モデルとして定 式化される. 内部モデルの考え方は制御理論において内部モデル原 理として知られている [Francis 76].エージェントの内 部モデルは,基本的にはエージェントの置かれた状況や 環境の認知モデルを意味する.エージェントの内部モデ ルはもちろん,サイバネティクスの観点から制御理論に おける内部モデルの考え方を借りている. 状況の認知といってもさまざまな内容をもっている. 出口 [出口 00] はエージェントの内部モデルについて次 のような 4 類型にまとめている. (1)状態の内部モデル 環境および自己の特性状態を表現したモデルである. (2)行為の内部モデル エージェントの行為を規定したルールやエージェント が取り得る代替案を表したモデルである. (3)因果関係の内部モデル 状態間の因果関係を表現したモデルである. (4)評価の内部モデル エージェントの行為のルールに関するエージェント自 身の評価を表現したモデルである. いずれの場合でも,エージェントは内部モデルを参照 して環境の認識を行い,それに基づいて意思決定し行動 する.エージェントの行動が改善されるためには意思決 定が改善されなければならないが,そのためには内部モ デルを適切に利用することや内部モデル自体を修正する ことが鍵となる. エージェントの内部モデルに関わる構成要件を状況依 存型意思決定モデルとして模式的に表したのが図 2 であ る [高橋 07a].エージェントは状況認知の内部モデルを 参照して,環境からの入力を認知・解釈し,自身の意思 決定の目的を達成する行動(行為)を行う. 組織システムの機能階層をエージェントの概念が加味 された組織サイバネティクスの観点から整理すると図 3 のようになる [高橋 07a].そこでは,PolicyからImplement 機能までの機能階層を実施する自律的意思決定主体とし てエージェントは位置付けられる.また,エージェント の自律的意思決定が適応的になされるために,内部モデ ルの利用・修正による組織学習が行われる. 4・5 サイバネティクスの観点からの組織学習の類型 サイバネティクスの観点からの組織学習では Argyris らのシングルループ,ダブルループ学習が重要で,それ ぞれ負と正のフィードバックループに対応している.特 にダブルループ学習はエージェントの内部モデルの修正 による適応として考えられる. Argyrisらの組織学習モデルでは,ループ学習はさ らに個人と組織のレベルで行われる.上述のように, Argyrisの組織学習の概念自体がサイバネティクスの考 え方に基礎を置いているが,それらをサイバネティクス の観点からの言葉で解釈すると以下のようになる(表 1). (1)個人のシングルループ学習 各エージェントは個別に自身の置かれている環境や状 況の内部モデルをもっており,それを参照して最適な意 思決定変数を選択する.最適性は実際に実行する個人に よって設定された目標値との差から定義され,それを縮 める負のフィードバックを用いる.個人の目標は組織の 達成目標から階層的にブレークダウンされる.この個人 のシングルループ学習の結果組織の意思決定能力が増大 することは通常ない. (2)組織のシングルループ学習 組織目標を達成するために,下位の階層に目標がブ レークダウンされ,各機能階層に所属しているエージェ 図 2 状況依存的エージェントモデル [高橋 07] 図 3 エージェントベースの組織サイバネティクスの基本階層 モデル [高橋 07] 表 1 組織学習のタイプ 個人 組織 シングルループ 学習 負のフィードバック 意思決定変数のみの 変更 個人のシングル ループ学習の統合 ダブルループ 学習 環境変数の変更内部モデルの修正 内部モデルの組織内での共有化
ントに対し達成すべきサブゴールが設定される.個人の シングルループ学習の結果,各エージェントが得る最適 な意思決定変数の値が組織全体で統合される.統合され た意思決定変数の値に基づいて組織の決定が行われる. (3)個人のダブルループ学習 エージェントは各自の目標を達成するために自己の内 部モデルを参照して意思決定し,それを実行する.実行 結果は意思決定前に想定し評価したものと同じであると は限らない.もし結果が想定と異なっている場合,参照 している内部モデルの修正が必要である.各エージェン トは実行結果を受け取った後に,各自の内部モデルを事 後的に評価する.評価に従って内部モデルを修正する. 内部モデルを修正することは自己の置かれている環境や 状況の認知を改善することを意味する. (4)組織のダブルループ学習 個人のダブルループ学習では,各エージェントの内部 モデルの修正に留まっている.組織のダブルループ学習 では,各自が修正した内部モデルが組織の中のエージェ ント間で共有される.内部モデルが共有されると,他の 内部モデルも参照できることになり,自身の内部モデル を修正するなど意思決定能力が向上する. 個人と組織のダブルループ学習は内部モデルの修正と 共有のプロセスである.それは組織が変化する環境状況 に適応して生存する(viable)ことを可能にしてくれる. 4・6 ダブルループ学習モデル 組織学習にはシングルとダブルの二つのループ学習が ある.これまでの組織シミュレーションでは,主として シングルループ学習についての研究が多い.原因の一端 は,実際の組織構造に近いようにモデル化をするとダブ ルループ学習のためのモデル化が容易でなくなるためで ある. 一方で,組織学習の深いレベルでの理解を目的とした モデルを構築しようとした場合,必ずしも個別具体的な 組織との対応はしない抽象的なモデル化が必要となる. 例えば,遺伝的アルゴリズムを応用したクラシファイア システムによる組織学習モデルがある [高玉 03]. 本章では,内部モデルの学習と組織学習の特にダブル ループ学習との関係について,ハイパーゲームと呼ばれ るゲーム形式によるモデルを紹介する [Takahashi 01]. このモデルでは,組織学習における内部モデルの修正 と共有を進化的プロセスとして表現している.その基本 的な枠組みは次のようになっている. (1)各エージェントは自身の内部モデルを参照して 自律的に意思決定して行動を選択する. (2)状況(環境)からの反応として得られた行動の 結果に関する情報を同一組織内の他のエージェント と交換する. (3)各エージェントは進化的な方法により状況認知 である内部モデルを改善する. (4)各エージェントは改善された内部モデルに基づ き新しい意思決定と行動を選択する. (3)にある進化的方法というのは,遺伝的アルゴリズ ムにおける適応度関数,交叉,突然変異などの遺伝的操 作を用いることを意味している. このプロセスの中で内部モデルの改善の方法を探るた めに,ゲーム形式によりエージェントの意思決定を表現 する.ゲーム形式は合理的意思決定の表現として必要な 要素を含み,かつ最も小さい表現の一つであり,内部モ デルの修正と共有のための必要条件を分析するのに適し ている. ここでは,エージェントとその意思決定状況をゲーム 形式として次のように定式化する. 状況には複数の組織が含まれていて互いに競合してい る.簡単のために,仮にここでは二つの組織 P と Q が 競合しているとしよう.これはいわゆるゲーム理論でい うプレーヤが二人いるゲーム状況を想定している.各組 織は n 人のエージェントから成り立っている.各エー ジェントは行動の代替案の集合 S をもっている.組織 P の各エージェントは競合組織である組織 Q からランダ ムに選択されたエージェントとゲームのプレイを 1 対 1 で行う.プレイをすると自身の選択した代替案とゲーム 相手のエージェントの選択した代替案により利得が定ま る.この利得は自身の代替案と相手の代替案の組合せの 関数で,各エージェントはそれを利得関数 G としてもっ ている. 同一組織内のエージェントは同一の行動代替案をもっ ている.組織 P と組織 Q の代替案集合をそれぞれ SPと SQと書こう.通常のゲーム理論では,戦略集合や利得 関数は対戦相手も含め全プレーヤの共通知識となってお り,誤認知はないと仮定されている.しかし,今モデル 化している状況では,環境認知を各エージェントが自律 的に内部モデルとして表現している.ゲーム形式による 状況表現では,各エージェントの環境は自身の対戦相手 のゲーム形式である.すなわち,対戦相手の行動代替案 の集合と利得関数が未知である.このようなゲーム状況 はハイパーゲームという枠組みで記述できる.組織 P の エージェントは組織 Q のエージェントの行動代替案とし て何をもっているかを各自が自律的に認知する.組織 P のエージェント piが認知した組織 Q のエージェントの 行動代替案の集合を SQpiと書こう.同様に組織 Q のエー ジェント qjが認知した組織 P のエージェントの行動代 替案の集合を SPqjと書く.利得関数の表記も同様である が,利得関数は同一組織でもエージェントごとに異なっ ている.エージェント piの利得関数を Gpiと書く.これ は SPと Qpiの積集合を定義域とする実数値関数である. 一方,競合組織 Q のエージェントがどのような利得関 数をもっているかに関するエージェント piの認知は誤っ ている可能性がある.これを GQpiと書こう.同様に,エー ジェント qjの利得関数は SPqjと SQの積集合から実数へ
の関数であり,それを GPqjと書こう.
以上をまとめると次のように表現できる. < {P, Q}, {SP, SQpi, Gpi, GQpi}piP,
{SQ, SPqj, Gqj, GPqj}qjQ> このモデルはネットワーク型二人ハイパーゲームと呼 ばれている [Takahashi 01].SPqjと GPqjが具体的なエー ジェント piの内部モデルを表現している. ゲーム理論の言葉では,エージェントはプレーヤであ る.しかし,ゲーム状況は二つの組織間でのゲームとなっ ており,「組織」が通常のゲーム理論の二人ゲームの形 式におけるプレーヤを意味しており,上の定式化での エージェントは「組織」内でエージェント同士が協力し て,各自の利得を最大化することを目指す.その結果と して,組織全体の利得を最大化する.この部分は個人の シングルループ学習と組織のシングルループ学習に相当 している. そのうえで,競合相手のエージェントに対する認知で ある自身の内部モデルを改善するプロセスが含まれてい る.これが個人のダブルループ学習に相当する.個人の ダブルループ学習の結果,各エージェントが内部モデル を改善し,組織として収束していくことにより組織内で 内部モデルが共有化される.これは組織のダブルループ 学習に相当する. 具体的なループ学習のプロセスは,ネットワーク型動 的ハイパーゲームとして以下のように定式化できる. (1)プレイ.各エージェントは他のエージェント集 団の中のエージェントとプレイを行い,結果と利得 を得る. (2)結果の交換.同一組織内のエージェントは,プ レイした相手が取った行動と自身が得た利得に関す る情報を交換し,共有する. (3)共有した情報を基礎にして,自身のもつ内部モデ ルを評価する.評価は適応度関数により与えられる. 適応度関数により計算された適応度を用いて,同一 組織内のエージェントに対して遺伝的操作(交叉と 突然変異)を行うことにより内部モデルを修正する. (4)修正された内部モデルを用いて新しいプレイを行 う.この過程を所与の条件に従った回数分繰り返す. 図 4 は上記の過程を模式的に表したものである. 簡単な数値例を紹介しよう.図 5 はあるハイパーゲー ム状況を表している.行動代替案は a, b, c の三つあり, 認知の誤りはない.しかし,利得関数(行列)の認知に 誤りがある.両者を合わせると客観的な利得行列となる. この例の場合,組織 P のエージェントの内部モデルは一 つのベクトルとして次のように表現できる.xiのところ が認知の誤りをしている部分である. (x1, x2, x3, x4, x5, x6, x7, x8, x9),x ∈ {0, 1, 2} 組織 Q のエージェントの内部モデルも同様に表現さ れる. 認知されている利得行列のもとでの意思決定では,そ の利得行列におけるナッシュ均衡解を選択する.これ は限られた知識の中では合理的意思決定といえる.エー ジェントが全員正しい認知をしている場合はナッシュ均 衡解を全員が取る.ところが,認知が正しくないと各エー ジェントの取られる意思決定が異なり,ナッシュ均衡解 が達成できない.例えば図 5 においては,客観的な利得 行列ではナッシュ均衡解は(a, a)であり,このとき双 方が利得 2 を得る.ところが,もし組織 Q のエージェ ントの組織 P のエージェントに対する認知を誤認知して いて,行動代替案 a について利得 y1が 2 でなく,y6が 2である場合は,エージェント qjにとって(a, a)がナッ シュ均衡解とはならず,(b, c)がナッシュ均衡解となる. そこで組織 Q のエージェントは c を合理的意思決定とし て選択し,相手が b を取ることを期待する.もし組織の エージェントが(a, a)をナッシュ均衡解と認知してい た場合には a を取るので,実際にプレイをすると組織 Q のエージェントは期待と異なる結果を得る.これから双 方のエージェントは自分か相手の認知が正しくないとわ かる. 誤認知をしているエージェントは現在の内部モデルの ままナッシュ均衡解を計算するシングルループ学習をし ていたのでは,これ以上の利得の向上を望めない.そこ で内部モデルの修正によるダブルループ学習を行う. 各エージェントが 1 回のプレイで得られる情報は,自 分の出した手,相手が出した手,そして自分が得た利得 だけである.相手が得た利得はわからない.この三つの 情報は同じ組織内のネットワークによって全エージェン トに共有される(動的ハイパーゲームのプロセス(2)). 次に三つの情報を使って内部モデルを評価する(動的 ハイパーゲームのプロセス(3)).評価は遺伝的アルゴ 図 4 ネットワーク型動的ハイパーゲーム [Takahashi 01] SQpi SQ a b c a b c a 2,x1 1,x2 1,x3 y1,2 y2,0 y3,1 SP b 1,x4 2,x5 0,x6 SPqj y4,0 y5,1 y6,2 c 0,x7 0,x8 2,x9 y7,1 y8,2 y9,0 Gpi Gqj 図 5 利得行列
リズムの適応度関数によって行う.ポイントは適応度関 数の設計である.通常最適化問題に遺伝的アルゴリズム を応用するときは,目的関数を適応度関数として利用す ることができる.しかし今回のモデルでは,学習するター ゲットをエージェントが知らないという条件があり,こ れを適応度関数に反映させ,適応度関数はエージェント が内部モデルを評価するときに参照するという前提であ る.これにより,適応度関数で利用される「情報」はエー ジェントが実際に使える限定的な情報となり,どのよう な情報を利用すれば組織学習特にダブルループ学習が促 進されるかが検討できる. 図 4 の利得行列のときの実験結果として,組織は組織 を正しく認知していて,組織のみが誤認知をしている場 合と両組織が誤認知をしている場合とでは組織学習に必 要な情報が異なっていることがわかっている.この場合, 基本的に機会損失と交換コストと呼ばれる二つの評価が 重要である.機会損失は,認知が正しければ得られるは ずのナッシュ均衡解のときの利得(図 5 では 2)と,誤 認知のために得た異なる利得との差による評価である. 交換コストは,内部モデルを修正するためにかかる費用 である.図 5 のケースでは内部モデルの修正の方法を定 めてあり,修正までのステップ数により評価している. 実験では組織と Q がともに誤認知をしている場合は, 機会損失と交換コストという二つの評価だけではランダ ムな修正の場合と有意差が得られない.他の評価情報が 必要である.そこで機会損失と交換コストのどちらにも 他のエージェントの情報が使われていないことに注目 し,他のエージェントとの情報交換により得た情報を利 用することを考える.利得構造などのゲーム状況によっ て有効な情報は異なり,どのような情報を利用すればよ いかは現在も研究課題となっている.これまで状況に応 じて 10 数種類もの評価指標が提案されている.典型的 な指標としては,相手が最も多く出してきた代替案の比 率がある.この値が大きいほど相手の自分への理解度が 高いことを表していて,全員が同じ代替案を出すときが 最大で最大値 1 となる.あるいは組織内のエージェン トで情報交換をすると相手が取った代替案の分布がわか る.各代替案の機会損失と交換コストを計算して,代替 案の分布に応じた重みを付けて積和をすることで一種の 場の情報として利用できる.図 5 の利得構造の場合には, これらの情報を適応度関数として利用すると,双方の組 織の誤認知の場合でもランダムな修正の場合と比べて統 計的に有意差のある学習結果が得られる.ただし,す べての利得の位置を正しく認識することは困難で,ナッ シュ均衡解の正しい位置を認識することを学習の目標と している.遺伝的アルゴリズムの特徴から,全エージェ ントが同一の学習結果を得る.これは内部モデルの共有 化が行われたと解釈できる.
5.お わ り に
組織学習の本質は,単に目標を達成するための政策の 学習だけでなく,サイバネティクスの観点からはダブル ループ学習においてエージェントの内部モデルの学習と エージェント間での内部モデルの共有の過程を含むこと にある.しかし,その操作的モデル化は今なお課題であ る.本稿では,抽象的なハイパーゲーム形式におけるモ デル化の一端を紹介したが,個別組織への具体的な適用 はまだない. 例えば,組織シミュレーションを実務へ適用する試み は存在する [Ohori 12] が,そこでのエージェントの学習 は簡単な模倣戦略であり,個々のエージェントの学習過 程は学習曲線により定式化しており,内部モデルの修正 過程まで取り込んだモデルとはなっていない.モデル化 が難しい最大の原因は,現実の実務的組織自体が複雑で, 実証できるデータもなく,モデルの妥当性はおろかモデル 要素の構築さえままならないということである. 組織学習におけるアブストラクトモデルの価値は,現 実的な制約を捨象している分適用範囲が広く,実際の設 計への深い示唆を与えることが期待できることである. 一方で今後実際のビジネス状況への適用を考える際に は,具体的な学習過程のモデル化や現実への接地が可能 なファクシミリなモデル [Gilbert 08, 高橋 13] の発展も 不可欠である.◇ 参 考 文 献 ◇
[安藤 01] 安藤史江:組織学習と認知地図,白桃書房(2001) [Argyris 96] Argyris, C. and Schön, D. A.: OrganizationalLearningⅡ, Addison-Wesley(1996)
[Ashby 56] Ashby, W. R.: Introduction to Cybernetics, Chapman & Hall(1956)
[Ashby 60] Ashby, W. R.: Design for a Brain, John Wiley and Sons (1960)
[Barnard 68] Barnard, C. I.: The Functions of the Executive, Harvard University Press(1938);山本安次郎 ほか 訳:新訳 経営者の役割,ダイヤモンド社(1968)
[Beer 72] Beer, S.: Brain of the Firm, McGraw-Hill(1972) [Carley 95] Carley, K. M.: Computational and mathematical
organization theory: Perspective and directions, Computational
and Mathematical Organization Theory, Vol. 1, No. 1, pp. 39-56
(1995)
[Cohen 72] Cohen, M. D., March, J. G. and Olsen, J. P.: A gabage can model of organizational choice, Administrative Science
Quarterly, Vol. 17, No. 1, pp. 1-25(1972)
[Cyert 63] Cyert, R. M. and March, J. G.: A Behavioral Theory of
the Firm, Prentice-Hall(1963)
[出口 00] 出口 弘:複雑系としての経済学,日科技連出版(2000) [Dierkes 01] Dierkes, M. Antal, A. B., Child, J. and Nonaka, I.:
Handbook of Organizational Learning and Knowledge, Oxford
University Press(2001)
[Espejo 96] Espejo, R., Schuhmann, W., Schwaninger, M. and Bilello, U.: Organizational Transformation and Learning─ A
Cybernetic Approach to Management─ , Wiley(1996) [Fransis 76] Francis, B. A. and Wonham, W. M.: The internal
457-465(1976)
[Gilbert 08] Gilbert, N.: Agent-Based Models, SAGE Publications (2008)
[Kieser 01] Kieser, A., Beck, N. and Tainio, R.: Rules and organizational learning: The behavioral theory approach,
Handbook of Organizational Learning & Knowledge, pp.
598-623, Oxford(2001)
[桑田 98] 桑田耕太郎,田尾雅夫:組織論,有斐閣アルマ(1998) [Lant 94] Lant, T. K.: Computer simulations of organizations as
experimential learning systems: Implicatons for organization theory, Computational Organization Theory, edited by Carley, K. M. and Prietula, M. J., pp. 195-215, Lawrence Eribaum Associates(1994)
[Lee 04] Lee, J. and Carley, K. M.: OrgAhead: A computational model of organizational learning and decision making, CASOS
Technical Report, CMU-ISRI-04-117(2004)
[Levitt 03] Levitt, R. E.: The Virtual Design Team(VDT): A Multi-Agent Analysis Framework for Designing Project Organizations, KIMAS 2003, pp. 115-120(2003)
[松田 90] 松田武彦:情報技術同化のための組織知能パラダイム, 組織科学,Vol. 23, No. 4, pp. 16-33(1990)
[Ohori 12] Ohori, K., Kobayashi, N., Obata, A., Takahashi, A. and Takahashi, S.: Decision support for management of agents’ knowledge and skills with job rotation in service-oriented organization, Hawaii Int. Conf. on System Sciences(HICSS) (2012)
[Pugh 00] Pugh, D. S. and Hickson, D. J.: Great Writhers on
Organizations, Gower(2000);北野利信 訳:現代組織学説の 偉人たち,有斐閣(2003)
[Robins 05] Robbins, S. P.: Essentials of Organizational
Beheviour, Prentice-Hall(2005);高木晴夫 訳:組織行動のマ ネジメント,ダイヤモンド社(2009)
[Rouse 05] Rouse, W. B. and Boff, K. R.: Organizational
Simulation, Wiley(2005)
[Senge 90] Senge, P. M.: The Fifth Discipline: The Art & Practice
of The Learning Organization, Doubleday Business(1990) [Takahashi 01] Takahashi, S.: Evolutionary learning in
agent-based modeling, Discrete Event Modeling and Simulation
Technologies, edited by Sarjoughian, H. S. and Celler, R. E., pp. 297-314(2001) [高橋 07a] 高橋真吾:エージェントベース組織サイバネティクス による組織学習問題への接近,社会経済システム学会,No. 28, pp. 9-15(2007) [高橋 07b] 高橋真吾:システム学の基礎 , 培風館(2007) [高橋 13] 高橋真吾:モデルの解像度と妥当性評価,計測と制御, Vol. 52, No. 7, pp. 582-587(2013) [高玉 03] 高玉圭樹:マルチエージェント学習─相互作用の謎に迫 る,コロナ社(2003) [上田 03] 上田 泰:組織行動研究の展開,白桃書房(2003) 2015年 5 月 1 日 受理