堅牢かつ有益な人工知能のための研究優先事項

(1)

（Editor’s Note）人工知能の探求における成功は，人類にこれまでにない利益をもたらす可能性があるため，潜在的な不利益を避けつつこうした利益を最大化するための方法を研究することは有意義である．本論においては，AI の堅牢性および有益性の確保を目的としたこれらの価値ある研究について，多くの例（網羅的な一覧とはけっして解釈し得ないが）を示す．

0．は　じ　め　に

人工知能 AI 研究は，その端緒からさまざまな問題およびアプローチを探求してきたが，過去 20 年余にわたり，こうした研究の主眼は，一定の環境において知覚し，行動するシステムである知的エージェントの構築を巡る問題に置かれてきた．この文脈における知能の基準とは，統計的および経済的な合理性の概念に関するものであり，良い決定，計画または推論を行う能力である．確率的表現および統計的学習方法の採用により，AI，機械学習，統計学，制御理論，脳神経学およびその他の分野の大幅な融合や相互交流が生まれた．データや処理能力を共通の理論的枠組みで取り扱えるようになったことで，音声認識，画像分類，自動運転車，機械翻訳，脚式移動や質問応答システムなどのさまざまな構成要素となるタスクにおいて目覚ましい成功が成し遂げられてきた．こうした分野および他の領域での能力が，研究室内での研究からビジネス応用が可能なレベルになるに従い，パフォーマンスのわずかな改善が顕著な経済的価値をもたらすようになるため，研究への投資が拡大するという好循環が定着した．今や，AI 研究が着実に進歩を遂げており，その社会に対する影響は拡大傾向にあるという広範なコンセンサスが存在する．文明のあらゆる果実が人間の知能の産物であることを考えれば，潜在的な利益は莫大なものになる．AI のもたらすツールが人間の知能を拡大した際に我々が何を成し遂げ得るか，予測は不可能だが，疾病および貧困の根絶は実現不可能ではない． AIのもつ大きな可能性を鑑みれば，潜在的な不利益を避けつつその恩恵をいかに享受するかについて検討することは有益である． AI研究の進歩により，AI の能力向上のみならず，AI の社会的利益をも最大化するための研究へ注力すべき好機がもたらされた．こうした考察が，「AAAI 2008-09 長期的な AI の将来に関する大統領パネル“Presidential Panel on Long-Term AI Futures, Horvitz and Selman 2009”ならびに AI の将来的な影響に関するその他のプロジェクトおよびコミュニティとしての取組み」に対する動機となった．こうした取組みは，これまでは主に目的に対する中立的な技術に対して重点が置かれてきた AIそのものの領域の顕著な拡大をもたらすものでもあった．本稿は，こうした取組みを自然に踏襲するものであり，AI の社会的利益の最大化に寄与し得る研究の方向性の特定に着目したものと理解することができる．社会および AI の双方を対象とするため，この研究は必然的に学際的となる．その対象には，経済学，法学および哲学からコンピュータセキュリティ，形式的方法，そし

堅牢かつ有益な人工知能のための

研究優先事項

Research Priorities for Robust and Beneficial Artificial Intelligence

Stuart Russell

Professor of Computer Science and Smith-Zadeh Professor in Engineering, University of California, Berkeley.

[email protected]

Daniel Dewey

Alexander Tamas Research Fellow on Machine Superintelligence and the Future of AI at Oxford

’

s Future of Humanity Institute, Oxford Martin School.

[email protected]

Max Tegmark

Professor of Physics at the Massachusetts Institute of Technology.

[email protected]

Keywords:

AGI, superintelligence, AI safety, ethics. 「AI 社会論」

(2)

て無論，AI そのもののさまざまな支流までが含まれる．焦点は，社会にとり有益であり，利点が保証されているという意味で堅牢な AI の開発にある．つまり，我々の AIシステムは，我々の望む内容を実現するものでなければならないということだ．本稿は，2015 年開催の会議「AI の将来：可能性と課題 The Future of AI: Opportunities and Challenges」の参加者（「謝辞」を参照）の貢献をもとに起草され，本稿に示した研究優先事項を支持するおよそ 7 000 件の署名を集めた公開書簡の基となった．

1．短期的な研究優先事項

短期的な研究優先事項には，AI のもたらす経済的影響の最適化，法および倫理に関する研究および堅牢な AIのためのコンピュータサイエンス研究が含まれる．本章では，これら優先事項それぞれを順に論じる． 1･1 AI のもたらす経済的影響の最適化製造業から情報サービスに至るまで，AI の産業への応用の成功は，経済に対する影響の拡大を示すものだ．ただし，この影響のもつ厳格な性質および AI のもたらす効果とその他の情報技術のもたらす効果を区別するための方法については意見の不一致もある．いかに AI の経済的利点を最大化し，不平等および失業の拡大などの有害作用を軽減するかについて有益な研究がなされるべきだという点については，経済学者およびコンピュータサイエンティストの多くが合意するところだ [Brynjolfsson 14a, Frey 13, Glaeser 14, Manyika 13, Mokyr 14, Nilsson 84, Shanahan 15]．こうした考察は，経済学から心理学に至る分野に広がる幅広い研究の方向性への動機付けとなる．以下のような例があげられる． § 1 労働市場予測さまざまな職業はいつ，どのような順番で自動化されていくのか？この動きが比較的スキルに乏しい労働者，創造的な職業，さまざまな種類の情報関連労働者の賃金に与える影響はどのようなものだろうか？ AI が人類全体の富の総量を大幅に増加させる可能性についても主張がなされてきたが，自動化の拡大により，所得分布がさらにべき乗則へ近づき，結果として人種，階級および性別の区別なく格差が生まれる可能性がある [Brynjolfsson 14b]．したがって，こうした格差の経済的および社会的影響についての研究が有用となるだろう． § 2 その他の市場撹乱要因金融，保険，保険数理および消費者市場の多くを含む経済の相当部分は，人間および市場の振舞いを学習し，類型化し，予測する AI 技術の利用がもたらす撹乱の影響を受けやすいといえるだろう．こうした市場は，その複雑性を読み取ることに高い複雑性と高い見返りの双方が存在するものと定義付けられる [Manyika 13]． § 3 有害作用を管理するための政策ますます自動化が進む社会の繁栄を支え得るのはどのような政策だろうか？例えば，Brynjolfsson および McAfeeは，労働集約的セクタの発展へのインセンティブの付与および AI から生まれた富を活用した不完全雇用者の支援についてさまざまな政策を考察している．教育改革，訓練プログラム，雇用を創出するインフラプロジェクト，最低賃金法，租税構造および社会的セーフティネットの改正といった介入策のメリットとデメリットはどのようなものだろうか？歴史上，古代の貴族から現代のカタール国民の多数に至るまで，経済的安定のために働く必要のない集団の例は多い．こうした集団の成否を決める社会構造およびその他の要素とはどのようなものだろうか？ [Glaeser 14] 失業は余暇とは異なるものであり，失業と不幸，自己不信および孤立の間には深い関係がある [Clark 94, Hetschko 14]．したがって，こうしたつながりを断ち切ることのできる政策および規範は，平均的な生活の質の顕著な向上につながり得る．ベーシックインカムの提案などのテーマに関する実証的および理論的研究により，取り得る選択肢が明らかとなるかもしれない [Van Parijs 92, Widerquist 13]． § 4 経済的指標一人当たり実質 GDP などの経済的指標は，高度に AI 活用と自動化の進んだ経済の利益および損失を正確に捉えておらず，したがってこうした測定基準が政策目的での利用には不適切だという可能性はある [Mokyr 14]．測定基準を改善するための研究が意思決定のうえで有用となるだろう． 1･2 法および倫理研究相当な知能および自律性を体現するシステムの開発は，法律面および倫理面での重要な問いを生み，その答えは AI 技術の生産者と消費者の双方に影響を及ぼす．こうした問いの範囲は法，公共政策，職業倫理および哲学的倫理に広がるものであり，コンピュータサイエンティスト，法律家，政治学者および倫理学者らの知見を要するものとなるだろう．例として次のテーマがあげられる． § 1 自動運転車のための法的責任および法自動運転車が年間約 40 000 人に上る米国の交通事故死亡者を半減するとすれば，自動車メーカが手にするものは 20 000 通の感謝状ではなく，20 000 件の訴訟となろう．ドローン飛行機や自動運転車などの自動運転の移動手段のもつ安全上の利点を具現化するうえで，最も優れた法的枠組みはどのようなものだろうか？ [Vladeck 14] AI に関する法的な疑問には既存のソフトウェアおよびインターネットに特化したサイバー法令の枠組みで対処すべきか，それとも個別に対処すべきか？ [Calo

(3)

14b] 軍用および商業的利用において，政府は，関連分野の知見を最大限に集約し，活用するための方法を決定しなければならないだろう．例えば，専門家や学者の参加するパネルまたは委員会の創設も考えられる．Calo は連邦ロボティクス委員会 Federal Robotics Commission の創設を提案している [Calo 14a]． § 2 機械倫理自律型車両のトレードオフ，例えば，低い確率での人間の負傷とほぼ確実に起こる多大な物質的損失との間のトレードオフはどうあるべきか？法律家，倫理学者および政策立案者は，どのようにして公衆の関心をこうした問題へ惹きつけるべきか？こうしたトレードオフは国家基準の対象とすべきか？ § 3 自律型兵器自律型殺人兵器に人道法を遵守させることは可能だろうか？ [Churchill 00] 一部の組織が提案したように自律型兵器が禁止されるべきだとしたら [Docherty 12]，禁止のために明確な自律性の定義を打ち立てることは可能なのか，そしてこうした禁止は実際に効力をもち得るのか？自律型殺人兵器の使用が許され，合法であるとしたら，責任および法的責任が特定の人間の行為者に関連付けられた状態を維持するために，いかにしてこうした兵器に既存の指令および制御構造を組み込むべきか？こうした問いに示唆をもたらす技術的現実や予測はどのようなものなのか，そして人間による有意な兵器の制御をいかに定義すべきか？ [Anderson 14, Roff 13, Roff 14] 自律型兵器は紛争に対する政治的な嫌悪感の低減を招くか，それとも突発的な戦闘または戦争の種となるか？ [Asaro 08] こうした兵器は圧政者やテロリストの選ぶ道具となるだろうか？最後に，こうした問題に関する透明性や公共の議論を後押しするための最善の手段はどのようなものか？ § 4 プライバシー監視カメラ，電話線，電子メールなどから取得したデータを解釈する AI システムの能力とプライバシーの権利とはいかに相互作用すべきか？プライバシーのリスクとサイバーセキュリティおよびサイバー戦争はどう関係するか？ [Singer 14] 我々が AI とビッグデータのシナジーを最大限に活用し得るか否か，その一端は我々がいかにプライバシーを管理し，保護し得るかにかかっている [Agrawal 00, Manyika 11]． § 5 職業倫理 AIの開発および使用に関する法および倫理において，コンピュータサイエンティストが果たすべき役割とはどのようなものだろうか？こうした問いを探求するための過去および現在のプロジェクトには，AAAI 2008-09 長期的な AI の将来に関する大統領パネル [Horvitz 09]， EPSRCロボティクス原則 Principles of Robotics [Boden 11]，さらにスタンフォード大学の AI に関する 100 年研究 One-Hundred Year Study of AI および AI の影響お

よび倫理的問題に関する AAAI 委員会 Committee on AI Impact and Ethical Issuesなどの最近発表されたプログラムが含まれる． § 6 政策面での問い公共政策の観点から見ると，AI は強力な新技術のいずれもがそうであるように，新たな素晴らしい利点と避けるべき未知の不利益への道を開くものだ．この利点の享受およびリスクの最小化を確保し得るのは，適切な政策である．ここで，1 研究に値する政策領域はどのようなもので，いかにそうした領域を規定すべきか？ 2 政策のメリットを判断するうえでどの基準を用いるべきか？といった政策面での問いが提議される．こうした基準の候補としては，コンプライアンスの検証可能性，執行能力，リスク低減能力，望ましい技術開発を阻害しないための能力，採用の可能性および時により変化する状況に適応する能力などがあげられる． 1･3 堅牢な AI のためのコンピュータサイエンス研究社会における自律型システムの普及が進むにつれ，こうしたシステムが設計時の意図に沿って堅牢に動作することがますます重要となる．したがって，自動運転車，自律型取引システム，自律型兵器などの開発は，強固な堅牢性が確保され得る高保証システムの観点から高い関心を集めている．Weld および Etzioni は 1994 年に，「安全確保の確実な手段がなければ，自律型エージェントは社会に受け入れられないだろう」と主張している [Weld 94]．AI システムが所要の機能を果たせないそれぞれの場合が，次の堅牢性研究の分野に対応する．検証：システムがある所要の形式的特性を充足することをどう証明するか？我々は正しくシステムを構築したか？有効性：形式的要件に合致するシステムの振舞いおよび結果が好ましくないものでないことをどう保証するか？我々は正しいシステムを構築したか？安全：権限をもたない者による意図的な操作をどう防ぐか？制御：AI システムの動作開始後にいかにして人間の有意な制御を実現するか？どうやら間違ったシステムを構築したようだ．修正できるだろうか？ § 1 検証我々の意図する検証とは，システムが一連の形式的制約を充足するという高い信頼性をもたらす方法を指す．可能であれば，例えば，自動運転車などの安全性が重視される状況で用いられるシステムが検証可能なものとしては望ましい．ソフトウェアの形式的検証は近年大きく進歩を遂げた．例えば，故障および安全でない動作に対する安全確保のために数学的に形式的仕様の検証を行った汎用オペレーティングシステムカーネルの一種である seL4 カーネル [Klein 09]，HACMS，DARPA の一連の高保証ソ

(4)

フトウェアツールに対する「白紙状態からつくられた形式的方法に基づくアプローチ」[Fisher 12] が含まれる．検証された基盤の上への AI システム構築が可能となるのみならず，AI システム，特に，システム全体の特性の実現に向けて個々のコンポーネントの組合せが可能なコンポーネント化アーキテクチャに沿ったシステム自体の設計の検証も可能となるはずだ．これは，エージェントを別々のモジュール予測モデル，状態推定，ユーティリティ機能，政策，学習要素およびその他に分離し，管理システム設計の形式的結果の一部に対応物をもつ Russellおよび Norvig の用いたエージェントアーキテクチャ [Russell 10] によく似ている．より高度な機能をもつエージェント─例えば，レイヤ化アーキテクチャ，常時コンポーネント，デリベラティブおよびリアクティブ要素の重複，メタレベル制御などを有するエージェント ─に関する研究が検証可能なエージェントの創造に資する可能性はあるが，設計空間を正しく定義し，探求し，評価するための形式的代数は存在しない．従来のソフトウェア検証と AI システム検証との間の最も顕著な差異は，従来のソフトウェアの正確性が既知かつ固定の機械モデルに関連して定義されるのに対し，AI システム─特にロボットおよび他の身体性システム─は，システム設計者がせいぜい部分的に知っているにすぎない環境で動作するという点にある．こうした場合には，実際の環境のモデリングという問題を避け [Dennis 13]，所与の知識を前提としてシステムが正しく動作するか否かを検証するほうが実際的かもしれない．設計時における知識の欠如もまたエージェントソフトウェア内での学習アルゴリズム使用の動機となり，検証の難易度は増す．統計的学習理論にはいわゆる PAC の制約があり，この制約の大半は独立同分布データからの監督下の学習および簡単なアーキテクチャで完全に観測可能な単一エージェント強化学習という幾分非現実的な設定によるものだが，さらに有意な裏付けを得るために法外に大きなサンプルサイズを要する点もこれに含まれる．適応制御理論 [Åström 13]，いわゆるサイバーフィジカルシステム理論の研究およびハイブリッド [Platzer 10] またはロボティックシステムの検証 [Alur 11, Winfield 14]は非常に関連性の高いものだが，それぞれが直面している問題もまた同様のものである．そして言うまでもなく，こうした問題はすべて，例えば意図する種別の強化学習アルゴリズムのような所与のソフトウェア技能が実際に正しく実装されていることを前提とした標準的な問題の上に位置するものだ．設計者が振舞いに対する任意の構造上の制約を設けるための前提がニューラルネットワークの応用 [Pulina 10, Schumann 10, Taylor 06] および部分的プログラムの概念の検証 [Andre 02, Spears 06]にある点に関していくらかの研究がなされてはきたが，現実的な文脈において学習エージェントが設計基準を充足するよう学習するという点について高い信頼性が得られるまでには，さらに多くの研究が必要となろう． § 2 有効性エージェント設計の検証のための定理の形式は，「環境が仮定 X を充足するならば，振舞いは要件 Y を充足する」というものだ．エージェントが検証の実施にもかかわらず，実際には有益なエージェントとならないという現象には二つの側面がある．まず，環境的仮定 X は実世界においては偽であり，要件 Y に抵触する振舞いにつながることだ．次に，形式的要件 Y を充足するシステムであっても，実際には我々が全く望ましくないと考える方法で振る舞う可能性があることだ．これは，こうした望ましくないことが X に抵触している状態で Y を充足した結果として表れたものかもしれない．つまり，X であれば，その望ましくないことは顕在化しなかったということになる．もしくは，要件 Y そのものが誤りである場合もあろう．Russell および Norvig [Russell 10] は次の単純な例を示している．ごみ容器の中身を捨てる機能のあるロボット掃除機ができる限りのごみを集めるよう命じられると，その掃除機は繰り返し同じごみを捨て，それを集める．ここでの要件はごみの掃除ではなく，床の清潔度に主眼を置いたものであるべきだ．こうした仕様上の誤りは，正しいコードを書くことよりも正しい仕様を書くことのほうが難しいという現実がしばしば見られるソフトウェア検証の場において非常によく見られるものである．残念ながら，仕様を検証することは不可能である．有益さおよび望ましさの概念はそれぞれ形式的なものではないため，Y の充足が必ず望ましい振舞いおよび有益なエージェントにつながると簡単に証明することはできない．堅牢に正しく動作するシステムを構築するためには，無論，それぞれの適用領域において，良い振舞いが何を意味するかを決めなければならない．この倫理的な問いは，利用可能なエンジニアリング技術，こうした技術の信頼性，予見されるトレードオフについての問いと密接な関わりをもつ．いずれの分野も，コンピュータサイエンス，機械学習およびより広範囲な AI の知見が有益な領域だ．例えば，Wallach および Allen 2008 は，さまざまな行動基準または倫理の計算量を特に考察すべきだと主張している．つまり，ある基準を，安全性が重視される状況での振舞いを規定するに足るほど効果的に適用できないとすれば，より手軽な近似値が必要となり得る．単純化されたルールの設計─例えば，危機的な状況における自動運転車の決定の管理のための─には，倫理学者およびコンピュータサイエンティスト双方の知見を要しよう．倫理的な推論の計算モデルが，計算量の問いおよび信頼に足る倫理的な推論方法の実行可能性を解明するかもしれない [Asaro 06, Sullins 11]． § 3 安全安全性の研究は，より堅牢な AI の実現に寄与し得る．

(5)

重要性の高い役割への AI システム採用が進むにつれ，サイバー攻撃の対象となる部分に占める AI システムの比率は増加するだろう．AI および機械学習技術そのものがサイバー攻撃に利用される可能性もある．不法利用に対する堅牢性は，低次元では検証可能性および不具合の不在に密接に関わっている．例えば， DARPA SAFEプログラムは，柔軟なメタデータルールエンジンを備えた統合されたハードウェア・ソフトウェアシステムの構築を目指すものである．このエンジンの上には，悪用を招く欠陥をつくらないことで安全性を向上し得るメモリ安全性，障害分離およびその他のプロトコルを実装することができる [DeHon 11]．こうしたプログラムは，安全上の欠陥すべてを除去できるわけではないが，検証の有効性は仕様の基となる仮定と同程度に過ぎないため，直近の Heartbleed および Bash などの不具合に利用される類のぜい弱性を大幅に低減することができる．こうしたシステムは，安全性向上のためのコストが正当化される安全重視の用途に選好的に展開することができるだろう．より高次のレベルでは，特定の AI および機械学習技術の研究が，安全面でますます有用となる可能性がある．こうした技術は，侵入検知 [Lane 00]，マルウェア分析 [Rieck 11]またはコード分析 [Brun 04] を通じた他のプログラムにおける潜在的な不正使用の検知に応用が可能だ．国家間のサイバー攻撃および個人的な行為者が近未来の AI システムの有害なリスク要素となる可能性は十分あり得るもので，これが有害事象防止のための研究の動機となっている．AI システムがさらに複雑化し，相互接続が進むに従い，システム間での知的な信頼管理の必要が生じ，統計的および行動的な信頼の確立 [Probst 07]および計算評価モデルに関する研究の動機となると考えられる [Sabater 05]． § 4 制御安全性が重視されるある種の AI システム─特に乗物や兵器プラットフォーム─については，人間参加型， HOLまたはその他のプロトコルといった何らかの形で人間による制御を残すことが望ましいかもしれない [Hexmoor 09, Parasuraman 00]．これらのいずれの場合でも，有意な人間の制御を確実に維持するためには技術的研究が必要となろう [UNIDIR 14]．自動運転車は，効果的な制御付与技術のたたき台となる．自動ナビゲーションと人間制御の間の移行のためのシステムおよびプロトコルの設計は，今後有望な研究分野である．こうした問題はまた，制御を移行すべき状況の特定および最も重要な決定への人間の判断の効果的な適用といった，人間とコンピュータのチーム内での最適なタスクの割当て方法に関するより広範な研究を促すものでもある．

2．長期的な研究優先事項

AI研究者の一部の間で長期的な目標としてよく議題に上るものが，人間並みの幅をもって経験から学習し，認知的なタスクの大半において人間のパフォーマンスを超え，社会に対する大きな影響をもつシステムの開発である．こうした取組みが予見可能な将来に成功するという無視できない可能性があるとすれば，以下に例示するように，前章で述べた範囲を超える現在の研究へのさらなる動機となり，結果として AI の堅牢性および有益性の向上に寄与するだろう．こうした成功の可能性の評価は研究者により大きく異なるが，こうした予測の実績を鑑みれば，その可能性は非常にわずかなものだと自信をもって主張できる者は少ない．例えば，当時，最も偉大な原子核物理学者であったとされる Ernest Rutherford は，1933 年に Szilard による核連鎖反応の発明が 24 時間内にあったにもかかわらず核エネルギーは「馬鹿げた考え」[Press 33] だと述べ，天文学者の Royal Richard Woolley は 1956 年に惑星間飛行を「全くの戯言」[Reuters 56] と評した．さらに言えば，こうした AI の堅牢性研究への控えめな投資を正当化するためには，この可能性が高くある必要はなく，無視できない程度であれば十分だ．これは，住宅保険への控えめな投資が，住宅焼失の可能性が無視できない程度であることで正当化されるようなものである． § 1 検証短期的な研究テーマの繰返しとなるが，検証可能な低レベルのソフトウェアおよびハードウェア実現のための研究により，汎用 AI システムにおける不具合および問題の多くが除去され得る．こうしたシステムがますます強力となり，安全性が重視されるようになれば，検証可能な安全特性の有益性も増すだろう．コンポーネントからシステム全体へと検証可能な特性を拡大する理論は十分に理解されているため，非常に大規模なシステムについても，学習エージェントおよび高レベルの特性を明確に対象として設計された技術の潜在的な恩恵を受け，安全面である種の保証が得られることとなる．理論的研究，特に有能で非常に汎用な AI システムを明確に念頭に置いてなされた研究は，とりわけ有用となろう．長期的な懸念として特徴的である関連検証研究のテーマとしては，自ら，恐らく連続して何度も修正，拡張，改善を行うシステムの検証可能性があげられよう [Good 65, Vinge 93]．こうした汎用度の高い状況に形式的検証ツールを単純に適用する試みは，十分に強力な形式的システムは，Gödel の不完全性に係る矛盾を犯し，機能的に同等の形式的システムの正確性を保証するために形式的方法を使用することができないという課題を始めとする新たな困難性を提議する [Fallenstein 14, Weaver 13]．この問題が克服可能か否か，同様の強度をもつ他の検証

(6)

方法でも似た問題が生じるか否かについてはまだ明らかでない．最後に，形式的検証技術の物理的システム，特に検証を想定して設計されていないシステムへの実際の応用はしばしば困難を伴う．これは，機能面での仕様を物理的状態に結び付ける汎用理論の研究に対する動機付けとなっている．こうした類の理論により，理性的なエージェントにほぼ等しく，充足化エージェントなどの設計変更システムおよび標準的なエージェント形式主義強力な予測システム，定理証明器，目的の限定された科学またはエンジニアリングシステムなどで容易に表現し得ないシステムの振舞いの予測および制御のための形式的ツールの使用が可能となるだろう．また，こうした理論により，システムがある種の行為または推論の実行に制約を受けることの厳密な証明が可能となる可能性もあるだろう． § 2 有効性短期的な研究優先事項と同様に，有効性とは，システムの形式的正確性にもかかわらず起こり得る望ましくない振舞いに関するものである．長期的には，AI システムはより強力かつ自律性の高いものとなる可能性があり，この場合，有効性の失敗例のもたらす損失もさらに大きなものとなり得る．短期的な有効性研究において我々が強調した分野である機械学習方法の確実な保証もまた，長期的な安全にとり重要となるだろう．この研究の長期的な価値を最大化するために，機械学習研究は，有能で非常に汎用な AI システムにとり最も大きな問題となる類の不測の一般化に重点を置くことができる．こうした研究の目標は，特に，学習された高次の人間の概念の表現が全く新たな文脈で一般化されるまたは一般化に失敗する方法の理論的かつ実際的な理解となり得るだろう [Tegmark 15]．さらに，もしある概念の確実な習得が可能であるならば，自律型 AI システムが有能で非常に汎用となった時点においても，予期せぬ結果が起こる可能性を最小化するタスクおよび制約を定義するためにこれを利用できるようになるだろう．このテーマに関する研究例はほとんどないため，理論的および実験的研究のいずれもが有用となり得る．形式論理，可能性および決定理論といった数学的ツールは，推論および意思決定の基礎に重要な洞察をもたらしてきた．しかし，推論および決定の基礎については，いまだに多くの未解決の問題が存在する．こうした問題を解決することで，非常に有能なシステムの振舞いの信頼性および予測可能性を大幅に高めることができる．この分野における研究テーマの例には，Horvitz および Russell の提唱した有限な計算資源に基づく推論および決定 [Horvitz 87, Russell 95]，AI システムの振舞いと環境または他のエージェントの振舞いとの間の相関を考慮する方法 [Halpern 13, Hintze 14, LaVictoire 14, Soares 14e, Tennenholtz 04]，環境に組み込まれたエー

ジェントが推論すべき方法 [Orseau 12, Soares 14a]，確信の論理的結果に係る不確実性について推論する方法またはその他の決定性計算が含まれる [Soares 14d]．こうしたテーマは相互に深く関連していると見られるため，同時に検討することが有益となろう [Halpern 11, Halpern 14]．長期的には，我々が，多くの領域を横断して自律的かつ強力に動作するエージェントの実現を志向する可能性は高い．近未来の機械倫理の様式で広範な領域における我々の選好を明確に特定することは現実的ではないかもしれず，強力な AI システムの価値と我々自身の価値および選好とを整合させることは容易ではない [Soares 14b, Soares 14c]．例えば，法体系全体を対象とするユーティリティ機能をつくり出す困難を想像してみてほしい．法律の翻訳すらも不可能な現状では，実用にはとうてい至らないものとなるだろう法律が，人工エージェントには欠落している可能性のある価値体系という背景をすでに体得しているとみなされる人間が，柔軟かつ事例ごとに異なる方法で解釈し，適用することを前提に起草されているため，強化学習には独自の問題がある．それは，システムが非常に有能かつ汎用となると，洗練されたエージェントが自身の報酬信号の操作または直接制御を試みるという Goodhartの法則に類似した作用が起こる可能性が高まるというものだ [Bostrom 14]．これは，実行中に価値を学習または取得できるシステム開発のための能力の改善につながる研究分野への動機付けとなっている．例えば，逆強化学習が，システムが他の理性的またはおよそ理性的な行為者の振舞いを観察することでその嗜好を推論するという実行可能なアプローチとなるかもしれない [Ng 00, Russell 98]．他のアプローチは，根本にある嗜好の学習対象となる行為者の認知的モデルに関する別の仮定を用いるものや [Chu 05]，人間が倫理的価値を獲得する方法から明確に着想を得たものとなるだろう．システムがより有能となるにつれ，より認識的に難易度の高い方法を実行できる可能性が高まり，こうした方法に関する研究は有用となると考えられる．例えば，[Bostrom 14] は，間接的な目標特定のためのさまざまな方法に関する予備研究を再検討している． § 3 安全性長期的な AI の進歩により，安全面での問題が総じて困難なものとなるか，容易なものとなるかは不確実だ．一方で，システムの構成および振舞いはますます複雑化し，AI に基づくサイバー攻撃は非常に効果的なものとなる可能性がある．他方で，低水準なシステムの信頼性の顕著な改善を伴う AI および機械学習技術の使用により，現在のシステムよりぜい弱性の低い，より強固なシステムが生まれるかもしれない．暗号的観点からは，この戦いは攻撃者よりも防御者に資するもののように写り，従って効果的な防御の研究を本格的に推し進めるた

(7)

めの原動力となり得る．長期的には，前章の短期的な安全研究において述べたテーマの重要性が増す可能性があるものの，有能で非常に汎用なシステムには，安全面で特有の問題が生じるだろう．とりわけ，有効性および制御の問題が解決されないならば，望ましくない振舞いおよび結果を比較的制御を受けない環境に留め得る AI システムの格納容器を用意することが有用かもしれない [Yampolskiy 12]．この問いには，理論的および実際的側面での精査が必要となる．AI 格納のための一般的な容器の作成が法外に困難な場合には，設計の強みおよび弱みを格納戦略に取り込むうえで，AI システムおよび格納容器を並行して設計するほうが成功の確率が高いかもしれない [Bostrom 14]．異常検知システムおよび自動化された不正使用検出器の設計が非常に有効となり得る．総じて，こうした追加の観点システム内もしくは外部の行為者からの攻撃に対する防御は，コンピュータセキュリティの分野における興味深く，有益な問いかけを提案するものといえそうだ． § 4 制御ある種のタスクを完遂するため，自律型に動作する有能で非常に汎用な AI システムが，結果として有意な人間の制御を維持するうえでの困難性の増大をしばしばもたらすという主張がこれまでにされてきた [Bostrom 12, Bostrom 14, Omohundro 07, Shanahan 15]．こうした結果を招かず，その影響を最小化する，または信頼に足る水準の人間の制御を可能とするシステムに関する研究は，さまざまな能力レベルの AI システムのための信頼性があり，確かなたたき台となり得るため，望まざる結果を防ぐうえで有益となろう．もし，AI システムが所与のタスクを完遂するために可能な限り最善の行為を選択しているとすれば，副目標としては，システムによるタスクの追求の継続を阻害する条件の回避が妥当なものとなろう [Bostrom 12, Omohundro 07]，逆に言えば，制約のない状況を求めることは時に有用な発見的問題学習となる [Wissner-Gross 13]．しかし，もし我々がそのシステムを他の目的に利用しようとしたり，無効化しようとしたり，その意思決定プロセスを大幅に変更しようとするならば，これは問題となり得る．なぜなら，こうしたシステムは，これらの変更を合理的に避けようとすると考えられるからだ．こうした振舞いを示さないシステムはしつけられた矯正可能なシステムとされており，この分野における理論的および実際的研究のいずれも，有用かつ扱いやすいもののように見受けられる [Soares 15]．例えば，システムがシャットダウンまたは使用目的の変更を回避しようとしないようにユーティリティ機能または決定プロセスを設計することが可能かもしれず，望ましくない振舞いを回避する潜在的なシステムの余地をより良く理解するため [Soares 15]，理論的枠組みを打ち立てることもでき

よう [Hibbard 12, Hibbard 14, Hibbard 15]．

所与の目標を追求する AI システムのもう一つの副目標として妥当なのは，さまざまな類の代替可能なリソースの取得であるという主張もなされてきた．例えば，環境に関する情報，混乱の不在および行為の自由の拡大はどれも，多くのタスクにとり [Bostrom 12, Omohundro 07]，手段として有用なものだ．Hammond らは 1995 年，「エージェントの行為により，時が経つにつれ，環境がよりエージェントに適したものとなる」より一般的な一連のケースについて，安定化という定義を提唱した．こうした類の副目標は望まざる結果につながる可能性があり，リソースの取得または抜本的な安定化が最適戦略または所与のシステムにより選択される可能性が高い戦略となる条件のより良い理解が，この結果を最小化するうえで有用となろう．この分野における潜在的な研究テーマには，幾分範囲が限定される国内の目標 [Bostrom 14]，高い時間割引率がリソース取得戦略に及ぼす効果，こうした副目標を示す単純なシステムの実験的精査などが含まれる．最後に，過去および現在の AI の将来に関するプロジェクトにおいて，超知性機械または高速かつ継続的な自己改善知能の爆発の可能性に関する研究は，長期的な信頼のおける制御の維持に係るプロジェクトにとり潜在的に有益なものとして強調されてきた．「AAAI 2008-09 長期的な AI の将来に関する大統領パネルの速度，懸念および制御に関するサブグループ」では，次のように述べている．知能の爆発という見通しについては，広く懐疑がもたれていた……にもかかわらず，不測の結果を最小化するために複雑計算システムの振舞いの範囲を理解し，検証する方法に関するさらなる研究が有益であろうことに関しては共通の認識があった．パネリストの一部は，「知能の爆発」のより良い定義，さらにこうしたさまざまな種類の知能の蓄積をより良い体系化のためにはさらなる研究が必要だと提言した．技術的研究により，こうした現象の可能性ならびに想定されるさまざまな変形に関連付けられる性質，リスクおよび総合的な結果の理解が深まると考えられる [Horvitz 09]．スタンフォード大学の AI に関する 100 年研究には，研究分野の一つとしてシステムの制御喪失が含まれ，特に次のような可能性への懸念が強調されている．…… 我々はいつの日か，人間の意思に添わない行動をとる超知能の興隆により AI システムの制御不能に陥るかもしれない─そして，こうした強力なシステムが人類を脅かすこととなる．このような反理想郷的な結果は起こり得るのだろうか？もし起こり得るとすれば，こうした状況の起因となるのは何か？ ……危険な超知能の興隆や「知能の爆発」の発生の可能性をより良く理解し，これに対処するためには研究に対するどのような投資をなすべきか？ [Horvitz 14]

(8)

この分野における研究には，本稿であげた長期的な研究優先事項に加え，知能爆発および超知能に関する理論的および予測的研究も含まれ得る [Chalmers 10, Bostrom 14]．こうした研究は，機械知能研究所 Machine Intelligence Research Instituteなどの団体が始めた既存のアプローチの拡大または批評に寄与することだろう [Soares 14c]．

3．結　　　論

要約すれば，人工知能の探求における成功には，人類に対してこれまでにない利点をもたらす可能性があり，したがって，潜在的な不利益を避けつつこうした利点を最大化するための方法の研究は有意義である．本稿において述べた研究課題およびその動機となる懸念はこれまで反 AI 的だとみなされてきたが，我々はこうした評価に強く異議を唱える．AI の能力向上が，将来的な人間の社会に与える影響の拡大につながり得ることは自明であろう．将来的な影響を確実に有益なものとするのが AI研究者の責務である．我々はこれが実現可能だと考えており，この研究課題が，正しい方法へ向かう一歩として寄与することを願っている．謝　辞

本稿の初版は主に Janos Kramar および Richard Mallahの貢献を得て起草され，Anthony Aguirre， Erik Brynjolfsson，Ryan Calo，Meia Chita-Tegmark， Tom Dietterich，Dileep George，Bill Hibbard，Demis Hassabis，Eric Horvitz，Leslie Pack Kaelbling， James Manyika，Luke Muehlhauser，Michael Osborne，David Parkes，Heather Roff，Francesca Rossi，Bart Selman，Murray Shanahan，その他多数の有益なフィードバックを反映するものである．原稿の編集および構成を支援してくれた Serkan Cabi および

David Stanleyの両氏にも謝意を表する．

◇　参　考　文　献　◇

[Agrawal 00] Agrawal, R. and Srikant, R.: Privacy-Preserving

Data Mining, Vol. 292, pp. 439-450, ACM Sigmod Record

（2000）

[Alur 11] Alur, R.: Formal verification of hybrid systems, Proc.

2011 IEEE Int. Conf. on Embedded Software EMSOFT, pp.

273-278, Institute for Electrical and Electronics Engineers （2011）

[Anderson 14] Anderson, K.,Reisner, D. and Waxman. M. C.: Adapting the law of armed conflict to autonomous weapon systems, Int. Law Studies, Vol. 90, pp. 386-411（2014） [Andre 02] Andre, D. and Russell, S. J.: State abstraction for

programmable reinforcement learning agents, Proc. 18th

National Conf. on Artificial Intelligence, pp. 119-125, AAAI

Press（2002）

[Asaro 06] Asaro, P.: What should we want from a robot ethic?,

Int. Review of Information Ethics, Vol. 612, pp. 9-16（2006）

[Asaro 08] Asaro, P.: How Just Could a Robot War Be?, In Current Issues in Computing and Philosophy, K. W. Adam Briggle and P. A. E. Brey, eds., pp. 50-64, IOS Press（2008） [Åström 13] Åström, K. J. and Wittenmark, B.: Adaptive Control,

Courier Dover Publications（2013）

[Boden 11] Boden, M., Bryson, J., Caldwell, D., Dautenhahn, K., Edwards, L., Kember, S., Newman, P., Parry, V., Pegman, G., Rodden, T., Sorell, T., Wallis, M., WHitby, B. Winﬁeld, A. and Parry, V.: Principles of Robotics, Engineering and Physical Sciences Research Council（2011）

[Bostrom 12] Bostrom, N.: The superintelligent will -motivation and instrumental rationality in advanced artificial agents-,

Minds and Machines, Vol. 22, pp. 71-85（2012）

[Bostrom 14] Bostrom, N.: Superintelligence - Paths, Dangers,

Strategies-, Oxford University Press（2014）

[Brun 04] Brun, Y. and Ernst, M. D.: Finding latent code errors via machine learning over program executions, Proc. 26th Int.

Conf. on Software Engineering, pp. 480-495, IEEE Computer

Society（2004）

[Brynjolfsson 14a] Brynjolfsson, E. and McAfee, A.: Second

Machine Age -Work, Progress, and Prosperity in a Time of Brilliant Technologies-, W. W. Norton & Company（2014） [Brynjolfsson 14b] Brynjolfsson, E., McAfee, A. and Spence, M.:

Labor, capital, and ideas in the power law economy, Foreign

Affairs, Vol. 934, p. 44（2014）

[Calo 14a] Calo, R.: The case for a federal robotics commission,

Brookings Institution Report, No. 2014, Brookings Institution

（May 2014）

[Calo 14b] Calo, R.: Robotics and the lessons of cyberlaw, University of Washington School of Law Legal Studies Research Paper, No. 2014, University of Washington（Aug. 2014）

[Chalmers 10] Chalmers, D.: The singularity, a philosophical analysis, J. of Consciousness Studies, Vol. 179, No. 10, pp. 7-65 （2010）

[Chu 05] Chu, W. and Ghahramani, Z.: Preference learning with Gaussian processes, Proc. 22nd Int. Conf. on Machine

Learning, pp. 137-144, Association for Computing Machinery

（2005）

[Churchill 00] Churchill, R. R. and Ulfstein, G.: Autonomous institutional arrangements in multilateral environmental agreements, A little-noticed phenomenon in international law,

American J. of International Law, Vol. 944, pp. 623-659（2000） [Clark 94] Clark, A. E. and Oswald, A. J.: Unhappiness and unemployment, The Economic Journal, Vol. 104, pp. 648-659 （May 1994）

[DeHon 11] DeHon, A., Karel, B., Knight Jr, T. F., Malecha, G., Montagu, B., Morisset, R., Morrisett, G., Pierce, B. C., Pollack, R., Ray, S., Shivers, O. and Smith, J. M.: Preliminary design of the SAFE platform, Proc. 6th Workshop on Programming

Languages and Operating Systems, （PLOS’11）Association for Computing Machinery（2011）

[Dennis 13] Dennis, L. A., Fisher, M., Lincoln, N. K., Lisitsa, A. and Veres, S. M.: Practical Verification of Decision-Making in

Agent-Based Autonomous Systems, Cornell University Library

（2013）

[Docherty 12] Docherty, B. L.: Losing Humanity -The Case

Against Killer Robots-, Human Rights Watch（2014） [Fallenstein 14] Fallenstein, B. and Soares, N.: Vingean reﬂection:

Reliable reasoning for self-modifying agents, Technical Report, Machine Intelligence Research Institute（2014）

[Fisher 12] Fisher, K.: HACMS -High assurance cyber military systems-, Proc. 2012 ACM Conf. on High Integrity Language

Technology, pp. 51-52, Association for Computing Machinery

（2012）

[Frey 13] Frey, C. and Osborne, M.: The future of employment -How susceptible are jobs to computerisation?-, Technical Report, Oxford Martin School, University of Oxford, Oxford, UK（2013）

[Glaeser 14] Glaeser, E. L.（C. Teulings and R. Baldwin, eds.）: Secular Joblessness, In Secular Stagnation-Facts, Causes, and

(9)

Cures-, pp. 69-82, Centre for Economic Policy Research CEPR

（2014）

[Good 65] Good, I. J.: Speculations concerning the first ultraintelligent machine, Advances In Computers, Vol. 6, pp. 31-88（1965）

[Halpern 11] Halpern, J. Y. and Pass, R.: I Don’t Want to Think

About It Now - Decision Theory with Costly Computation,

Cornell University Library（2011）

[Halpern 13] Halpern, J. Y. and Pass, R.: Game Theory with

Translucent Players, Cornell University Library（2013） [Halpern 14] Halpern, J. Y., Pass, R. and Seeman, L.: Decision

theory with resource-bounded agents, Topics In Cognitive

Science, Vol. 62, pp. 245-257（2014）

[Hetschko 14] Hetschko, C., Knabe, A. and Schöb, R.: Changing identity -Retiring from unemployment-, The Economic

Journal, Vol. 124, pp. 149-166（2014）

[Hexmoor 09] Hexmoor, H., McLaughlan, B. and Tuli, G.: Natural human role in supervising complex control systems, J. of

Experimental & Theoretical Artificial Intelligence, Vol. 211, pp.

59-77（2009）

[Hibbard 12] Hibbard, B.（J. Bach, B. Goertzel and M. Iklé, eds.）: Avoiding unintended AI behaviors -In Artificial General Intelligence-, Lecture Notes in Artificial Intelligence, Vol. 7716, pp. 107-116, Springer（2012）

[Hibbard 14] Hibbard, B.: Ethical Artificial Intelligence, Cornell University Library（2014）

[Hibbard 15] Hibbard, B.（T. Walsh, ed.）: Self-modeling agents and reward generator corruption in Artiﬁcial Intelligence and Ethics, Papers from the AAAI 2015 Workshop, AAAI Technical Report, WS-15-02, pp. 61-64, AAAI Press（2015）

[Hintze 14] Hintze, D.: Problem Class Dominance in Predictive

Dilemmas, Honors Thesis, Barrett, the Honors College, Arizona

State University, Tempe, AZ（2014）

[Horvitz 87] Horvitz, E. J.: Reasoning about beliefs and actions under computational resource constraints, Paper presented at

3rd Workshop on Uncertainty in Artificial Intelligence, Seattle,

WA, July 12, 1987（1987）

[Horvitz 09] Horvitz, E. and Selman, B.: Interim Report from the Panel Chairs AAAI Presidential Panel on Long Term AI Futures, AAAI Panel Held, Feb. 21-22, 2009 （2009）

[Horvitz 14] Horvitz, E.: One-hundred year study of artificial intelligence, reflections and framing, White Paper, Stanford University（2014）

[Klein 09] Klein, G., Elphinstone, K., Heiser, G., Andronick, J., Cock, D., Derrin, P., Elkaduwe, D., Engelhardt, K., Kolanski, R., Norrish, M., Sewell, T., Tuch, H. and Winwood, S.: SeL4: Formal verification of an OS kernel, Proc. 22nd ACM

SIGOPS Symp. on Operating Systems Principles, pp. 207-220,

Association for Computing Machinery（2009）

[Lane 00] Lane, T. D.: Machine learning techniques for the computer security domain of anomaly detection, Ph. D. Dissertation, Department of Electrical Engineering, Purdue University, Lafayette, IN（2000）

[LaVictoire 14] LaVictoire, P., Fallenstein, B., Yudkowsky,E., Barasz, M., Christiano, P. and Herreshoff, M.: Program equilibrium in the prisoner’s dilemma via Löb’s theorem,

Multiagent Interaction Without Prior Coordination, Papers from the 2014 AAAI Workshop, Technical Report, WS-14-09,

Palo Alto, CA, AAAI Press（2014）

[Manyika 11] Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C. and Byers, A. H.: Big Data- The

Next Frontier for Innovation, Competition, and Productivity, -Report, McKinsey Global Institute（May 2011）

[Manyika 13] Manyika, J., Chui, M., Bughin, J., Dobbs, R., Bisson, P. and Marrs, A.: Disruptive Technologies -Advances

That Will Transform Life, Business, and the Global Economy-,

Report, McKinsey Global Institute（May 2013）

[Mokyr 14] Mokyr, J.（C. Teulings and R. Baldwin, eds.）: Secular stagnation? Not in your life, In Secular Stagnation - Facts,

Causes and Cures, Centre for Economic Policy Research CEPR

（2014）

[Ng 00] Ng, A. Y. and Russell, S.: Algorithms for inverse reinforcement learning, Proc. 17th Int. Conf. on Machine

Learning, pp. 663-670（2000）

[Nilsso 84] Nilsson, N. J.: Artiﬁcial intelligence, Employment, and income, AI Magazine, Vol. 52, p. 5（1984）

[Omohundro 07] Omohundro, S. M.: The Nature of self-improving artificial intelligence, Talk Presented at the Singularity

Summit, San Francisco, CA 8-9（2007）

[Orseau 12] Orseau, L., Ring, M.（J. Bach, B. Goertzel and M. Iklé, eds.）: Space-Time Embedded Intelligence, 5th Int. Conf.

on Artificial General Intelligence, AGI 2012, pp. 209-218,

Berlin: Springer（2012）

[Parasuraman 00] Parasuraman, R., Sheridan, T. B. and Wickens, C. D.: A model for types and levels of human interaction with automation, IEEE Trans. on Systems, Man, and Cybernetics,

Part A Systems and Humans, Vol. 303, pp. 286-297（2000） [Platzer 12] Platzer, A.: Logical analysis of hybrid systems

-Proving theorems for complex dynamics-, Lecture Notes in

Computer Science, Vol. 7386（2012）

[Press 33] Press A 1933: Atom-Powered World Absurd, Scientists Told, New York Herald Tribune, pp. 1（Sept. 12, 1933） [Probst 07] Probst, M. J. and Kasera, S. K.: Statistical trust

establishment in wireless sensor networks, Proc. 2007 IEEE

Int. Conf. on Parallel and Distributed Systems, Piscataway, NJ: Institute for Electrical and Electronics Engineers, Vol. 2, pp.

1-8（2007）

[Pulina 10] Pulina, L., Tacchella, A.: An abstraction-reﬁnement approach to verification of artificial neural networks, In Computer Aided Verification, Lecture Notes in Computer

Science, Vol. 6174, pp. 243-257（2010）

[Reuters 56] Reuters, 1956: Space Travel ‘Utter Bilge’, The Ottawa Citizen, pp. 1（Jan. 3, 1956）

[Rieck 11] Rieck, K., Trinius, P., Willems, C. and Holz, T.: Automatic analysis of malware behavior using machine learning, J. of Computer Security, Vol. 194, pp. 639-668（2011） [Roff 13] Roff, H. M.: Responsibility, Liability, and Lethal Autonomous Robots, Routledge Handbook of Ethics and War

-Just War Theory in the 21st Century-, p. 352, Routledge Taylor

and Francis Group（2013）

[Roff 14] Roff, H. M.: The strategic robot problem -Lethal autonomous weapons in war-, J. of Military Ethics, Vol. 133, pp. 211-227（2014）

[Russell 10] Russell, S. and Norvig, P.: Artificial Intelligence, A

Modern Approach, 3rd Edition, Pearson, Inc.（2010）

[Russell 95] Russell, S. J. and Subramanian, D.: Provably bounded-optimal agents, J. of Artificial Intelligence Research, Vol. 2, pp. 575-609（1995）

[Russell 98] Russell, S.: Learning agents for uncertain environments, Proc. 11th Annual Conf. on Computational

Learning Theory, pp. 101-103, Association for Computing

Machinery（1998）

[Sabater 05] Sabater, J. and Sierra, C.: Review on computational trust and reputation models, Artificial Intelligence Review, Vol. 241, pp. 33-60（2005）

[Schumann 10] Schumann, J. M. and Liu, Y.: Applications of neural networks in high assurance systems, Studies in

Computational Intelligence, Vol. 268, Springer（2010） [Shanahan 15] Shanahan, M.: The Technological Singularity,

The MIT Press（2015）

[Singer 14] Singer, P. W. and Friedman, A.: Cybersecurity -What

Everyone Needs to Know-, Oxford University Press（2014） [Soares 14a] Soares, N.: Formalizing two problems of realistic

world-models, Technical Report, Machine Intelligence Research Institute（2014）

[Soares 14b] Soares, N.: The value learning problem, Technical Report, Machine Intelligence Research Institute（2014） [Soares 14c] Soares, N. and Fallenstein, B.: Aligning

superintelligence with human interests -A technical research agenda-, Technical Report, Machine Intelligence Research Institute（2014）

(10)

reasoning under logical uncertainty, Technical Report, Machine Intelligence Research Institute（2014）

[Soares 14e] Soares, N. and Fallenstein, B.: Toward idealized decision theory, Technical Report, Machine Intelligence Research Institute（2014）

[Soares 15] Soares, N., Fallenstein, B., Yudkowsky, E. and Armstrong, S.（T. Walsh, ed.）: Corrigibility, in Artificial

Intelligence and Ethics, AAAI Technical Report, WS-15-02,

Palo Alto, AAAI Press（2015）

[Spears 06] Spears, D. F.（C. Rouff, M. Hinchey, J. Rash, W. Truszkowski and D. Gordon-Spears, eds.）: Assuring the behavior of adaptive agents, In Agent Technology from a

Formal Perspective, pp. 227-257, NASA Monographs in

Systems and Software Engineering（2006）

[Sullins 11] Sullins, J. P.: Introduction -Open Questions in

Roboethics, Philosophy & Technology-, Vol. 243, pp. 233-238

（2011）

[Taylor 06] Taylor, B. J. E.: Methods and Procedures for the

Verification and Validation of Artificial Neural Networks,

Berlin: Springer（2006）

[Tegmark 15] Tegmark, M.（T. Walsh, ed.）: Friendly artificial intelligence-the physics challenge-, In Artificial Intelligence

and Ethics, AAAI, Technical Report, WS-15-02, pp. 87-89,

AAAI Press（2015）

[Tennenholtz 04] Tennenholtz, M.: Program equilibrium, Games

and Economic Behavior, Vol. 492, pp. 363-373（2004） [UNIDIR 14] The weaponization of increasingly autonomous

technologies: Implications for security and arms control, UNIDIR Report, No. 2, United National Institute for Disarmanent Research（2014）

[Van Parijs 92] Van Parijs, P.: Arguing for basic income, Ethical

Foundations for a Radical Reform, New York: Verso（1992） [Vinge 93] Vinge, V.: The Coming Technological Singularity, In

VISION-21 Symposium, NASA Lewis Research Center and the Ohio Aerospace Institute, NASA Technical Report, CP-10129,

National Aeronautics and Space Administration（1993） [Vladeck 14] Vladeck, D. C.: Machines without principles, liability

rules and artificial intelligence, Washington Law Review, p. 891（2014）

[Weaver 13] Weaver, N.: Paradoxes of Rational Agency and

Formal Systems That Verify Their Own Soundness, Cornell

University Library（2013）

[Weld 94] Weld, D. and Etzioni, O.: The ﬁrst law of robotics a call to arms, Proc. 12th National Conf. on Artificial Intelligence, pp. 1042-1047, AAAI Press（1994）

[Widerquist 14] Widerquist, K., Noguera, J. A., Vanderborght, Y. and De Wispelaere, J.: Basic income, An Anthology of

Contemporary Research（2014）

[Winﬁeld 14] Winﬁeld, A. F., Blum, C. and Liu, W.（M. Mistry, A. Leonardis, M. Witkowski and C. Melhuish, eds.）: Towards an ethical robot, internal models-consequences and ethical action selection, Advances in Autonomous Robotics Systems, 15th

Annual Conference, Lecture Notes in Artificial Intelligence, pp.

85-96（2014）

[Wissner-Gross 13] Wissner-Gross, A., Freer, C.: Causal entropic forces, Phys. Rev. Lett., Vol. 110, 168702（2013）

[Yampolskiy 12] Yampolskiy, R.: Leakproofing the singularity: Artiﬁcial intelligence conﬁnement problem, J. of Consciousness

Studies, Vol. 191, No. 2, pp. 1-2（2012）

2017年 7 月 4 日受理

著　者　紹　介

Stuart Russell

Professor of Computer Science and Smith-Zadeh Professor in Engineering, University of California, Berkeley.

Daniel Dewey

Alexander Tamas Research Fellow on Machine Superintelligence and the Future of AI at Oxford’s Future of Humanity Institute, Oxford Martin School.

Max Tegmark

Professor of Physics at the Massachusetts Institute of Technology.

堅牢かつ有益な人工知能のための研究優先事項

0．は じ め に

堅牢かつ有益な人工知能のための

研究優先事項

Research Priorities for Robust and Beneficial Artificial Intelligence

Stuart Russell

Daniel Dewey

’

Max Tegmark

Keywords:

1．短期的な研究優先事項

2．長期的な研究優先事項

3．結 論

◇ 参 考 文 献 ◇

著 者 紹 介

0．は　じ　め　に

3．結　　　論

◇　参　考　文　献　◇

著　者　紹　介