• 検索結果がありません。

講義利用スライド イラストで学ぶ人工知能概論

N/A
N/A
Protected

Academic year: 2018

シェア "講義利用スライド イラストで学ぶ人工知能概論"

Copied!
35
0
0

読み込み中.... (全文を見る)

全文

(1)

人工知能概論

第 5 回 多段決定( 1 ) 動的計画法

立命館大学 情報理工学部 知能情報学科 谷口忠大

(2)

Information

このスライドは「

イラストで学ぶ人工知能概 」を講義で活用したり,勉 強会で利用したりするため に提供されているスライ ドです.

イラストで学ぶ人工知能概 」をご購入頂けていない方 は,必ずご購入いただいて からご利用ください.

(3)

STORY 多段決定( 1 )

常に状態や状態間のコストが変わらず,ゴールが一つであれば A* アル ゴリズムでゴールに向かうことができる.しかし,実際にホイールダッ ク2号がとるべき行動は脇目もふらずにゴールに向かうことだろうか.  

ある時刻に現れるアイテムを途中で確保しないといけないし,ある時刻 で通りかかる敵を避けないといけないかもしれない.また,ゴールもい くつか存在しえるだろうし,その中でも最も「お得な」ゴールにたどり 着くべきだろう.しかし,だからといってすべての行動パターンを試し ていたのではとてもやっていられない.さてどうすべきか.

(4)

仮定 多段決定( 1 )

ホイールダック2号は迷路の完全な地図を持っているも のとする.

ホイールダック2号は迷路の中で自分がどこにいるか認 識できるものとする.

ホイールダック2号は連続的な迷路の空間から適切な離 散状態空間を構成できるものとする.

ホイールダック2号は各時刻で各状態間の移動にかかる コストや利得を知っているものとする.

ホイールダック2号は物理的につながっている場所・状 態には意図すれば確定的に移動することができるものと する.

(5)

Contents

5.1 多段決定問題

5.2 動的計画法

5.3 ホイールダック2号「宝箱を拾ってゴール」

5.4 例:編集距離の計算

(6)

5.1.1 はじめに

時間軸のある意思決定問題を考える.ある時点 t で選択した行動が次の時点 t+1 の状態を決め,時 点 t +1 での行動が時点 t +2 での状態を決める.

その上で,各時点での行動選択にもとづいて利得, もしくは費用が発生する.このようなときに時刻 T までにかかる費用の和を最小化,もしくは,得られ る利得の和の最大化を行う計画問題を多段決定問題 という.

(7)

5.1.2 グラフを時間方向に展開する

Start

t=1 t=2

(状態空間)グラフ化 時間方向に展開

(8)

5.1.2 多段決定問題のグラフ表現

Start Goal

t=1 t=2 t=T

行動

状態

(9)

あらゆる経路を列挙的に探索する

Start Goal

t=1 t=2 t=T

行動

状態

N 個の選択肢が T 回ある!

どうしよ

う!

(10)

Contents

5.1 多段決定問題

5.2 動的計画法

5.3 ホイールダック2号「宝箱を拾ってゴール」

5.4 例:編集距離の計算

(11)

5.2.1 経路と計算量

この経路の評価関数を J とすると.これを最大化 することが経路探索の目的となる.

動的計画法は多段決定問題において,各評価値が状 態の対ごとの二変数関数の和で書けることを利用し てこれを効率化するアルゴリズムである.

計算量爆発!

(12)

指数オーダー⇒ 2 次オーダー

のインパクト

 N=100 状態, T= 34ステップの場合

O(N

T

)

1 無量大数回

⇒ 現実的には終わらない.

O(N

2

T)

34 万回

⇒ 数 GHz= 数十億 Hz の

CPU ならあっという間

(13)

5.2.2 動的計画法のアルゴリズム

メモ化メモ化

(14)

Contents

5.1 多段決定問題

5.2 動的計画法

5.3 ホイールダック2号「宝箱を拾ってゴール」

5.4 例:編集距離の計算

(15)

t= 4 までにゴールできなかった場合,ペナ ルティとして− 5 の利得を没収される.宝

箱をとることは何度でもでき,この時には 3 の利得を得る.また,早くゴールしたほう が利得は高く,ゴールが一時刻遅れるたび にゴール時の利得は減っていく.宝箱の場 所にはとどまることはできない.また,一 度ゴールすると,ゴールから再度出てくる ことはできない.

例 : 「宝箱を拾ってゴール」

(16)

例 : 「宝箱を拾ってゴール」

Start

t=1 t=2 t=3 t=4

5 4

3 2

0 0 0

0 0 0 0

3 0

3 3 3

Goal

0 0 -5

-5 0

(17)

(ポイント)

動的計画法のアルゴリズム

まず,左から順に各状態までの最適パスを計算し, その時の評価値を状態に記述していく.これをメモ 化 (Memoization) という.これを繰り返していく ことで,最終時刻に至った段階で,これを逆順にた どることで最適なパスがひと通りに決まる.メモ化

逆順に最大をたどる

(18)

0

5

0

3

Start

t=1 t=2 t=3 t=4

5 4

3 2

0 0 0

0 0 0 0

3 0

3 3 3

Goal

0 0 -5

-5 0

Step 1

(19)

Step 2

0

5

0

3

5

3

3

Start

t=1 t=2 t=3 t=4

5 4

3 2

0 0 0

0 0 0 0

3 0

3 3 3

Goal

0 0 -5

-5 0

(20)

Step 3

0

5

0

3

5

3

3

Start

t=1 t=2

6

3

6

t=3 t=4

5 4

3 2

0 0 0

0 0 0 0

3 0

3 3 3

Goal

0 0 -5

-5 0

(21)

Step 4

0

5

0

3

5

3

3

Start

t=1 t=2

6

3

6

t=3

6

6

6

t=4

5 4

3 2

0 0 0

0 0 0 0

3 0

3 3 3

Goal

0 0 -5

-5 0

(22)

Step 5

0

5

0

3

5

3

3

Start

t=1 t=2

6

3

6

t=3

6

6

6

t=4

5 4

3 2

0 0 0

0 0 0 0

3 0

3 3 3

6

Goal

0 0 -5

-5 0

(23)

最適経路

0

5

0

3

5

3

3

Start

t=1 t=2

6

3

6

t=3

6

6

6

t=4

5 4

3 2

0 0 0

0 0 0 0

3 0

3 3 3

6

Goal

0 0 -5

-5 0

(24)

演習問題 5-1

文字 bi-gram による単語生成

Start

t=1 t=2

t=3

t=4

2 3

2 4

-5 2 4

5 2 -2 2

4 5

3 2 7

Goal

0 0 8

1 2

文字のつながりの利得がリンク上に示してある.最も得点の高くなる経路を見つけよ.

(25)

演習問題 5-2 アルゴリズムの確認

動的計画法のアルゴリズムと演習問題 5-1 の結果を 比較し,最終的なメモリに格納された Ft(st) と st-1^ (st) のリストはどのようになっているか,示せ.

(26)

Contents

5.1 多段決定問題

5.2 動的計画法

5.3 ホイールダック2号「宝箱を拾ってゴール」

5.4 例:編集距離の計算

(27)

5.4.1 編集距離の計算

動的計画法は確定的システムにおける多段階決定の 一般的な解法である.

ロボットの移動のみならず,様々な多段階決定問題 に帰着されうる問題に対して利用することが出来る

どれとどれが似てるん 文字列と文字列のだ?

距離を測りたい !!!! じんこうちのうがいろん? しんこのうがいろん?

どうてきけいかくほう? どてかいかくほう? じんこうちのうがいろん?

編集距離

(28)

例:編集距離の計算

編集距離 (edit distance) は文字列と文字列の尺 度

ハミング距離では文字の置き換えには対応できるが

,文字の挿入や削除に対応できない.

(29)

ストリングマッチング

a b c b e

a c b c b f

挿入 置換

a b c b e

b c b

削除 削除

(30)

編集距離を計算するための表

$ a e b c

$ 0 1 2 3 4

a 1

b 2

c 3

d 4 Goal

O ri g in a l S tr in g

Edited String

(31)

編集距離を計算時の各移動コスト

$ a

$ 0 1

a 1

置換:1一致:0

挿入:1

削除:1

(32)

編集距離の計算結果

$ a e b c

$ 0 1 2 3 4

a 1 0 1 2 3

b 2 1 1 1 2

c 3 2 2 2 1

d 4 3 3 3 2

O ri g in a l S tr in g

Edited String

“e” の挿

“d” の削

(33)

演習問題 5-3

「りつめいかん」と「はつめいか」の編集距離を動 的計画法を用いて求めよ.

$

$ 0 1 2 3 4 5

1 2 3 4 5

6 Goal

(34)

演習 5-4 編集距離と文書検索

1. 長さ n の文字列と長さ m の文字列の編集距離を計算するのに必 要な計算量を見積もれ.

2. L 文字(例えば L=140 )で書かれた文書がある.この文書には

「たにちゅー」を「たに○ゅー」とするなど,文字の書き間違 い (!?) があることが大変多い.よって部分文字列の検索では正 しい検索結果を得ることが出来ない.

そこで,与えられたクエリ文字列について編集距離を最小化す る文字列を文章中から探してくるアルゴリズムをつくりたい. 単純に,前から順番に長さ M の部分文字列をとってきては長さ K のクエリ(検索)文字列との編集距離を計算していく.この アルゴリズムの計算量を見積もれ.

※ ともに O( オーダー ) 記号で答えよ)

(35)

第 5 章のまとめ

確定システムにおける多段決定問題の定式化を行っ た.

状態空間の時間方向へのグラフ展開について学んだ

動的計画法のアルゴリズムについて学んだ.

動的計画法の応用として,ストリングマッチングと 編集距離の計算方法について学んだ.

参照

関連したドキュメント

[リセット] タブでは、オンボードメモリーを搭載した接続中の全 Razer デバイスを出荷状態にリセットで きます。また Razer

これは基礎論的研究に端を発しつつ、計算機科学寄りの論理学の中で発展してきたもので ある。広義の構成主義者は、哲学思想や基礎論的な立場に縛られず、それどころかいわゆ

Q-Flash Plus では、システムの電源が切れているとき(S5シャットダウン状態)に BIOS を更新する ことができます。最新の BIOS を USB

環境基準値を超過した測定局の状況をみると、区部南西部に位置する東糀谷局では一般局では最も早く 12 時から二酸化窒素が上昇し始め 24 時まで 0.06ppm

北区で「子育てメッセ」を企画運営することが初めてで、誰も「完成

海なし県なので海の仕事についてよく知らなかったけど、この体験を通して海で楽しむ人のかげで、海を

現状では、3次元CAD等を利用して機器配置設計・配 管設計を行い、床面のコンクリート打設時期までにファ

夫婦間のこれらの関係の破綻状態とに比例したかたちで分担額