組合せ爆発の対処

(1)

(2)

探索とは？

キー 一致するものを探す ・・・・・・・・・・・・・・・・・・・・：：：：：： レコード フィールド

(3)

線形探索アルゴリズム(1)

n=10, i =0, target=54 a[i] : target i++ START END = ≠ i : n return i _{return -1} < ≧ 前提：配列aにn個のデータが保存処理：_targetと同じデータが蓄えられている配列要素の添え字を返し，ない場合は-1を返すフローチャートを記せ

(4)

ｋｅｙｄａｔａｔａｂｌｅ［０］ｔａｂｌｅ［１］ｔａｂｅｌ［２］ｔａｂｌｅ［３］：：ｔａｂｌｅ［ｎ－１］ｔａｂｌｅ［ｎ］：：ｔａｂｌｅ［１９９］７５福崎慎也１０１渡邊滋之１７大野綾子２８川島祐毅：：：：６４仲野弘幸番人 (sentinel) ８７ 番人による少し早い線形探索

(5)

target = 54, i =0, a[n] = target a[i] : target i=i+1 START END = ≠ i : N return i return -1 < ≧

番人を利用した線形探索アルゴリズム

※ループ毎に iとn-1の比較が不要

(6)

n=10, target = 54, i =0 a[i] : target i=i+1 START END = ≠ 前処理 i : N return i _{return -1} < ≧ n=10, target = 54, i =0, a[n] = target a[i] : target i=i+1 START END = ≠ 前処理 i : N return i return -1 < ≧ 番人なし _番人あり

２つの線形探索アルゴリズムの比較

(7)

二分探索法(バイナリサーチ）

a[0]=1 a[1]=3 a[2]=4 a[3]=8 a[4]=13 a[5]=14 a[6]=18 a[7]=20 a[8]=21 a[9]=25 探すキーの値は 14 とする。 low→ middle→ high→ <14 a[0]=1 a[1]=3 a[2]=4 a[3]=8 a[4]=13 a[5]=14 a[6]=18 a[7]=20 a[8]=21 a[9]=25 low→ middle→ high→ >14 =middle+1 a[0]=1 a[1]=3 a[2]=4 a[3]=8 a[4]=13 a[5]=14 a[6]=18 a[7]=20 a[8]=21 a[9]=25 high→ low, middle→ =14 =middle-1 探索範囲

(8)

二分探索アルゴリズム

(半分ずつ捨てるのがポイント）

サイズｎの配列key(0～n-1)

においてsを探す

① first=0, last=n-1

② mid = (first+last)/2

③ key(mid)=s -> Found

key(mid)<s -> first=mid+1 Goto ②

key(mid)>s -> last=mid-1 Goto ②

(9)

線形探索の計算量_{（比較の回数）は} _{最良１、最悪ｎ、平均ｎ／２} データ数ｎに対してＯ（ｎ）二分探索の計算量_{（比較の回数）は} ２ｋ－１_≦ｎ＜２ｋ_{のときｋ回} つまり、データ数ｎに対して約Ｏ（ｌｏｇ_２ｎ）

(10)

線形探索の計算量はＯ（ｎ） 二分探索の計算量はＯ（log2 ｎ） ｎ＝１，０００だったら？ ｎ＝１，０００ log₂ｎ＝約１０（なぜなら２１０_＝1,024） _{１００倍違う！} _{定数係数が少しくらい違ったって、} 勝負は明らか！

(11)

ビッグO のグラフ化

N 5 10 15 20 25 O(2n₎ ₃₂ ₁₀₂₄ _{32768 1048576 33554432} O(N2₎ ₂₅ ₁₀₀ ₂₂₅ ₄₀₀ ₆₂₅ O(NlogN) 3.49 10 17.64 26.02 34.94 O(N) 5 10 15 20 25 O(logN) 0.69 1 1.17 1.30 1.39 O(1) 1 1 1 1 1

(12)

O(1) O(logN) O(N) O(NlogN) O(N2₎ O(2n₎

ビッグオーの

グラフ化

(13)

データの登録も考えると

登録（ｎ要素当り）探索（１回当り） 線形探索Ｏ（ｎ）Ｏ（ｎ） 二分探索Ｏ（ｎ２_{）Ｏ（log ｎ）} クイックソートで Ｏ（ｎ log ｎ）

(14)

登録１回あたりの探索回数をＳとすると、 線形探索Ｏ（ｎ）＋Ｓ・Ｏ（ｎ） 二分探索Ｏ（ｎ log ｎ）＋Ｓ・Ｏ（log ｎ） _{ｎ＜＜Sでないと、二分探索は有利に} ならない！ 頻繁にデータ集合が変わるような応用には 二分探索は適さない

(15)

(16)

ハッシュ法

ハッシング

（

ｈａｓｈｉｎｇ

_{）ともいう}

ｈａｓｈ：切りきざむ 挿入・探索・削除がＯ（１）でできる つまり、データの個数ｎに依存しない 理想の探索技法！？

(17)

学生番号から氏名などを求めたい

2003年度に入学した学生だけを考えると、 70310001～70310101 でも、一般にキーはこのように順序よく 並んでいない ｄｉｒｅｃｔａｃｃｅｓｓという 配列の0番目から100番目に氏名を格納 → （学生番号下3桁－1）番目の 配列要素を見ればよい

(18)

英和辞書

• 5万語の英和辞書の全体をメモリにのせて使いたい • 各単語のインデクス番号が分かれば，O(1)である単語の意味を知ることができるインデクス番号内容 1 2 3 …. hash:切り刻む 50,000 どうすれば各単語のインデクス番号が分かるか？

(19)

語を数に変換する

• ASCII(アスキー)コード – 大文字，小文字，数字，記号などを0から255までの数で表現 – a:97, b:98, …, z:122 • 大文字，数字，記号などを使わないとしたら – スペースを０として，a:1, b:2, c:3, …, z:26の２７文字で表現できる

(20)

語を数に変換する 方法１：単語の各文字に対応する数の総和を インデクス番号とする • cats = 3 + 1 + 20 + 19 = 43 • Dic[43] = cat:ネコ，猫科の動物・・・・ここで，単語の最大文字数を１０とすると，辞書の一番最後の文字は，（理論的には） zzzzzzzzzz（zが１０個） = 26 X 10 = 260 50,000(単語あるとすれば） ÷ 260 = 192 → サイズ260の配列を準備すれば、１つの配列要素に１９２語が該当する例えば、単語の各文字に対応する数の総和がcatと同じ43になる単語 was(23+1+19), give(7+9+22+5), tend(20+5+14+4), ….

(21)

語を数に変換する 方法２：桁位置を利用する（べき乗化） • 数値の場合は０から９の１０種類（１０進数） – 各桁は１０のべき乗 • 今回の前提では，スペース，aからzの２７種類（２７進数） – 各桁は２７のべき乗 • cats = 3x273_+1x272_+20x271_+19x270 = 60,337 • zzzzzzzzzz = 26x279 _+26x278 _+…+26x270 = 205,891,132,094,648

配列１要素あたり１バイトとすると，

約190TBのメモリが必要！！

1TB = １０２４ * 1024 * 1024 * 1024 =

1,099,511,627,776 (約１兆バイト)

200兆以上！！

(22)

語を数に変換する

方法２：桁位置を利用する（べき乗化）

fira firb firc fird

fire

firf firg

125146 ₁₂₅₁₄₇ ₁₂₅₁₄₈ ₁₂₅₁₄₉ ₁₂₅₁₅₁ ₁₂₅₁₅₂

単語ではない

実在する単語

(23)

ハッシュ法

• 巨大な範囲の数を実用的なサイズの配列の添え字（インデクス）に変換 • 簡単な方法としては，モジュロ演算子（％）を使う – %nは０からn-1までの数を作りだす（値域：０～３）２３ % 4 = 3 13052 % 4 = 0 38 % 4 = 2 配列のインデクス = 巨大な数 % 配列サイズ

(24)

ハッシュ関数（ｈａｓｈｆｕｎｃｔｉｏｎ）

キーの値ｘの集合 添字（ハッシュ値） ｈ（ｘ）の集合 ０，１，２， ・・・，９９ × × × × × × ・・・ ２６５ １００ ｈ（ｘ） 大きな値域の数を小さな値域の数へとハッシュ（切り刻む）する。文字列を一定範囲の整数に変換すること。

(25)

ハッシュ関数の例 ｉｎｔｈａｓｈ（ｃｈａｒ＊ｓ） ｛ｉｎｔｉ = ０； ｗｈｉｌｅ（＊ｓ） ｉ += ＊ｓ++； ｒｅｔｕｒｎｉ％ 100｝ a:97……… z:122 アスキーコードの総和を １００で割った余りを配列 添字とする この関数で求まるハッシュ値 の例 _文字列 _{ハッシュ値} ｏｎｅ 22 ｔｗｏ 46 ｔｈｒｅｅ ｆｏｕｒ ｆｉｖｅ ｓｉｘ ｓｅｖｅｎ ｅｉｇｈｔ ｎｉｎｅ ｔｅｎ a 97 b 98 c 99 d 100 e 101 f 102 g 103 h 104 i 105 j 106 k 107 l 108 m 109 n 110 o 111 p 112 q 113 r 114 s 115 t 116 u 117 v 118 w 119 x 120 y 121 z 122

(26)

ハッシュ表（テーブル）

ハッシュ値の例 _文字列 _{ハッシュ値} ｏｎｅ 22 ｔｗｏ 46 ｔｈｒｅｅ ｆｏｕｒ ｆｉｖｅ ｓｉｘ ｓｅｖｅｎ ｅｉｇｈｔ ｎｉｎｅ ｔｅｎ 0 1 ….. 26 five 27 ten 28 29 eight ….. ハッシュ関数を使ってデータを挿入した配列

(27)

ハッシュ(1)

問題1：以下のハッシュ関数を用いて、表の各文字列に対応するハッシュ値を求めよ。ｉｎｔｈａｓｈ（ｃｈａｒ＊ｓ）｛ｉｎｔｉ = ０；ｗｈｉｌｅ（＊ｓ）ｉ += ＊ｓ++；ｒｅｔｕｒｎｉ％ 11｝

a:1, b:2, c:3, d:4, e:5, f:6, g:7, h:8, i:9, j:10, k:11, l:12, m:13, n:14,o:15, p:16, q:17, r:18, s:19, t:20, u:21, v:22, w:23, x:24, y:25, z:26 ハッシュ関数アルファベットに対応する数値文字列ハッシュ値 fukuzaki watanabe oono kawashima nakano miura 例：yamaguti = （25+1+13+1+21+20+9） % 11 = 2

(28)

異なるキーが同じハッシュ値に 写像されたら、どうするか？ チェイン法 オープンアドレス法

衝突

_の処理

大きく分けて

(29)

チェイン法

ハッシュ表の同じ場所に写像された データを連結リストにつなぐ ハッシュ表は連結リストの先頭を指す ポインタ_の配列

(30)

ＡＢＣＤＥＦＧＨＩＪ ハッシュ表 ０１２３４５６７８９

(31)

(32)

オープンアドレス法

ある一定の方法で，空セルを探して，そこに新たな項目を挿入する方法 ①線形探査(linear probing) ②平方探査(quadratic probing) ③ダブルハッシュ(double hashing)

(33)

ｈ（ｘ）＝ｈ_０_（ｘ） ｈ_１_（ｘ） ｈ_２_（ｘ）ｈ_３_（ｘ） ハッシュ表 ：：：： オープンアドレス 法は、ハッシュ表の 中で仮想的な連結 リストを作るようなもの ただし、次の要素は ポインタでなく、 再ハッシュ関数に よって決まる

(34)

オープンアドレス法：線形探査

• 配列を単純にシーケンシャルに辿って

空きセルを探すやり方

0 1 ….. 26 five 27 ten 28 29 eight …..

nine = 110+105+110+101

= 426

ハッシュ値= ４２６%100

=26

衝突衝突

nine

OK

(35)

再ハッシュ（ｒｅｈａｓｈ） ｋ回目にアクセスする場所：ｈ_ｋ_（ｘ） ｘはキー、ｋ＝０,１,２,・・・,Ｂ－１ 最も簡単な再ハッシュ関数は ｈ_ｋ_{（ｘ）＝（ｈ（ｘ）＋ｋ）％Ｂ} ｈ（ｘ）：最初のハッシュ関数 Ｂ：ハッシュ表（配列）の大きさ

オープンアドレス法：線形探査 (2)

(36)

オープンアドレス法：線形探査の問題点

0 ….. 25 26 five 27 ten 28 nine 29 eight 30 この状態でさらにハッシュ値が２６のキーを挿入する場合データが連続してしまい，効率が落ちるクラスター化

(37)

オープンアドレス法：平方探査

線形探査のように，隣接するセルに挿入していくとクラスターができやすいので，もっと離れた場所に挿入しようというやり方ｈ_ｋ（ｘ）＝（ｈ（ｘ）＋ｋ2_） _{％Ｂ} ｈ（ｘ）：最初のハッシュ関数 Ｂ：ハッシュ表（配列）の大きさ 注意点：配列のサイズを素数_{にしなければ} 同じ場所を探し続けることがある

(38)

オープンアドレス法：平方探査の問題点

サイズ５９の配列（すべてセルが空いているとする）に，１８４，３０２，４２０，５３８というキーを順番に挿入することを考えると 184 % 59 = 7 → 1ステップで配列の要素８へ 302 % 59 = 7 → 2ステップで配列の要素11へ 420 % 59 = 7 → 3ステップで配列の要素16へ 538 % 59 = 7 → ４ステップで配列の要素23へ

第2種クラスター化

(39)

オープンアドレス法：ダブルハッシュ

• キーの値によって探査の歩幅が異なるようにする方法 • キーに対して2度目のハッシュを行い，得られた結果をステップ幅として使うｈ_s_{（ｘ）＝（C – （k % C））％Ｂ} Ｂ：ハッシュ表（配列）の大きさ C: 定数（配列サイズより小さい素数）

(40)

オープンアドレス法：ダブルハッシュの注意点 • 最初のハッシュ関数と同じであってはならない • ０が作られることのある関数であってはならない • ハッシュ表のサイズは素数でなければならない – ハッシュ表のサイズが５９で，ステップ幅は？ 184 % 59 = 7 → 配列の要素８へ 302 % 59 = 7 →(11-(302%11))%59 = 6, 要素14へ 420 % 59 = 7 → (11-(420%11))%59= 9, 要素17へ 538 % 59 = 7 → (11-(538%11))%59=10,要素18へｈ_s_{（ｘ）＝（１１ – （k % １１））％５９とすると}

(41)

良いハッシュ関数とは

• 手早い計算

– ハッシュ法の利点はスピードなので，ハッシュ関数は高速であるべき

• ランダムキー

– Index = key % arraySizeで得られるインデクスもランダム（均等）に分布

• ノンランダムキー

– テーブルサイズには素数を使う

– 多くのキーと配列サイズに共通の公約数がある場合，それらが同じ位置へハッシュされるため

(42)

ハッシュ(2)

問題1： (2) (1)の表に示した文字列を上から順番に、要素数11のハッシュ表に格納せよ。 (3)衝突が発生した場合には、チェイン法とオープンアドレス法でそれぞれどのように衝突が回避されるかを図で示せ。 (4) オープンアドレス法は線形探査とダブルハッシュの両方を示すこと。線形探査とダブルハッシュのハッシュ関数は以下のとおり。ｈ_s_{（ｘ）＝（７ – （k % ７））％ 11} kはハッシュ関数hash()内の11で割った余りを求める直前の変数iの値ｈ_ｋ_{（ｘ）＝（ｈ（ｘ）＋ｋ）％１１} k回目にアクセスする場所（K=0, 1, 2, …, 10) 線形探査のハッシュ関数ダブルハッシュのハッシュ関数

組合せ爆発の対処

探索とは？

線形探索アルゴリズム(1)

番人を利用した線形探索アルゴリズム

２つの線形探索アルゴリズムの比較

二分探索法(バイナリサーチ）

二分探索アルゴリズム

(半分ずつ捨てるのがポイント）

サイズｎの配列key(0～n-1)

においてsを探す

① first=0, last=n-1

② mid = (first+last)/2

③ key(mid)=s -> Found

key(mid)<s -> first=mid+1 Goto ②

key(mid)>s -> last=mid-1 Goto ②

ビッグO のグラフ化

ビッグオーの

グラフ化

データの登録も考えると

ハッシュ法

ハッシング

（

ｈａｓｈｉｎｇ

）ともいう

学生番号から氏名などを求めたい

英和辞書

語を数に変換する

配列１要素あたり１バイトとすると，

約190TBのメモリが必要！！

1TB = １０２４ * 1024 * 1024 * 1024 =

1,099,511,627,776 (約１兆バイト)

200兆以上！！

fira firb firc fird

fire

firf firg

単語ではない

実在する単語

ハッシュ法

ハッシュ関数（ｈａｓｈ ｆｕｎｃｔｉｏｎ）

ハッシュ表（テーブル）

ハッシュ(1)

衝突

の処理

チェイン法

オープンアドレス法

オープンアドレス法：線形探査

• 配列を単純にシーケンシャルに辿って

空きセルを探すやり方

nine = 110+105+110+101

= 426

ハッシュ値= ４２６%100

=26

nine

オープンアドレス法：線形探査 (2)

オープンアドレス法：線形探査の問題点

オープンアドレス法：平方探査

オープンアドレス法：平方探査の問題点

第2種クラスター化

オープンアドレス法：ダブルハッシュ

良いハッシュ関数とは

ハッシュ(2)

_{）ともいう}

ハッシュ関数（ｈａｓｈｆｕｎｃｔｉｏｎ）

_の処理