• 検索結果がありません。

講義「アルゴリズムとデータ構造」

N/A
N/A
Protected

Academic year: 2021

シェア "講義「アルゴリズムとデータ構造」"

Copied!
18
0
0

読み込み中.... (全文を見る)

全文

(1)

講義「アルゴリズムとデータ構造」

第10回 整列のアルゴリズム(1)

大学院情報科学研究院 情報理工学部門 情報知識ネットワーク研究室

喜田拓也

2019/5/21 講義資料

(2)

今日の内容

整列(ソート , sorting )とは

整列アルゴリズムの種類と特徴

O 𝑛𝑛 2 時間の整列アルゴリズム

選択ソート,挿入ソート,バブルソート O 𝑛𝑛 log 𝑛𝑛 2 時間の整列アルゴリズム

シェルソート

平均時 O 𝑛𝑛 log 𝑛𝑛 時間の整列アルゴリズム

クイックソート

(3)

整列(ソート, sorting )とは

データを大きい順あるいは小さい順に並べ替えること

龍太郎 恵三 喜朗 純一郎 康夫 太郎 由紀夫 直人 佳彦 晋三

7 6 3 8 2 1 0 4 5 9

晋三 純一郎 龍太郎 恵三 佳彦 直人 喜朗 康夫 太郎 由紀夫

9 8 7 6 5 4 3 2 1 0

数値の大きい順に並べると …

なるほど! データ分析の基本中の基本

(4)

集合 𝑋𝑋 上の全順序( total order, 線形順序( linear order ))とは,

𝑋𝑋 上の要素間の2項関係「 ≤ 」で,次の性質を持つものをいう

(1) 𝑥𝑥 ≤ 𝑥𝑥 for all 𝑥𝑥 ∈ 𝑋𝑋 (反射律 reflexivity ) (2) 𝑥𝑥 ≤ 𝑦𝑦, 𝑦𝑦 ≤ 𝑧𝑧 ⇒ 𝑥𝑥 ≤ 𝑧𝑧 (推移律 transitivity )

(3) 𝑥𝑥 ≤ 𝑦𝑦, 𝑦𝑦 ≤ 𝑥𝑥 ⇒ 𝑥𝑥 = 𝑦𝑦 (反対称律 anti-symmetry ) (4) 𝑥𝑥 ≤ 𝑦𝑦 or 𝑦𝑦 ≤ 𝑥𝑥 for all 𝑥𝑥, 𝑦𝑦 ∈ 𝑋𝑋 (比較可能性 comparability ) 全順序 ≤ が定義された集合 𝑋𝑋 の相異なる2つの要素 𝑥𝑥 と 𝑦𝑦 に対して

𝑥𝑥 ≤ 𝑦𝑦 が成り立つとき, 𝑥𝑥 は 𝑦𝑦 より小さいということにする

整列とは,全順序が定義されている集合の要素がリストとして与えられたとき,

それを小さい順に並び替える処理

以下ではリストは配列 A[0], A[1], …, A[n-1] で与えられるものとする.

整列の形式的な定義

関係を逆にすれば,大きい順になる

(5)

アルゴリズム 最悪時間計算量

の漸近的上界 コメント

選択ソート

(selection sort)

挿入ソート

(insertion sort)

バブルソート

(bubble sort) O 𝑛𝑛2

直感的に理解しやすい

シェルソート

(shell sort) O 𝑛𝑛 log𝑛𝑛 2

実用性は高い.平均時間計算量で

O 𝑛𝑛 log𝑛𝑛

であるかは未解決

クイックソート

(quick sort) O 𝑛𝑛2

平均時間計算量は

O 𝑛𝑛log𝑛𝑛

実用上最も高速.分割統治法 マージソート

(merge sort)

ヒープソート

(heap sort) O 𝑛𝑛 log𝑛𝑛

最悪時間計算量の漸近的上界が 最小.マージソートは分割統治法 バケットソート

(bucket sort)

基数ソート

(radix sort) O 𝑛𝑛 )

高速だが,ある範囲に限定された 整数に対してのみ適用可能

注) バケット数と桁数を定数とみた場合

整列アルゴリズムの種類と特徴

(6)

最悪/最良/平均時間計算量は Θ 𝑛𝑛

2

残っているものの中から最小のものを取り出す という操作を繰り返して整列(ソート)する

[アルゴリズム]

step 1: i←0

step 2: i ≥ n-1 ならば停止

そうでなければ j←arg min{A[j]:i ≤ j < n} を実行 step 3: A[i] と A[j] の値を交換

i←i+1 として step 2 へ

選択ソート ( selection sort )

:最小

:整列済みの最後の 要素の次の位置

5 0 3 2 5 8 5 7 1 6 0 5 3 2 5 8 5 7 1 6 0 1 3 2 5 8 5 7 5 6 0 1 2 3 5 8 5 7 5 6 0 1 2 3 5 8 5 7 5 6 0 1 2 3 5 8 5 7 5 6 0 1 2 3 5 5 8 7 5 6 0 1 2 3 5 5 5 7 8 6 0 1 2 3 5 5 5 6 8 7 0 1 2 3 5 5 5 6 7 8

𝑛𝑛

: 要素数

(7)

5 0 3 2 5 8 5 7 1 6

0 1 2 3 5 5 5 6 7 8

挿入ソート ( insertion sort )

最悪時間計算量 Θ 𝑛𝑛

2

逆順にソートされた入力の時

最良時間計算量 Θ(𝑛𝑛) ソート済の入力の時 平均時間計算量 Θ 𝑛𝑛

2

整列済みの配列に1つずつ要素を挿入する

[アルゴリズム]

step 1: i←1

step 2: i ≥ n ならば停止

そうでなければ temp←A[i], j←i

step 3: j ≥ 1 かつ A[j-1] > temp が成り立つ間,

A[j]←A[j-1], j←j-1 を繰り返す

step 4: A[j]←temp . i←i+1 として step 2 へ

:挿入する位置 :挿入する要素

0 5 3 2 5 8 5 7 1 6 0 3 5 2 5 8 5 7 1 6 0 2 3 5 5 8 5 7 1 6 0 2 3 5 5 8 5 7 1 6 0 2 3 5 5 8 5 7 1 6 0 2 3 5 5 5 8 7 1 6 0 2 3 5 5 5 7 8 1 6 0 1 2 3 5 5 5 7 8 6

𝑛𝑛

: 要素数

左方向へ入替

ながら探索

(8)

バブルソート ( bubble sort )

[アルゴリズム]

step 1: i←1

step 2: j=n-1,n-2,…,i の順に次のことを繰り返す A[j-1] > A[j] ならば A[j-1] と A[j] を入れ替える

step 3: step 2 で入れ替えが起こらなかったら停止

そうでなければ i←i+1 として step 2 へ

隣り合う2つの要素を比較して,小さい順に なっていなければ入れ替えるという操作を,

右から左へ繰り返し行う

最悪時間計算量 Θ 𝑛𝑛

2

逆順にソートされた入力の時

最良時間計算量 Θ(𝑛𝑛) ソート済の入力の時

2

:比較する要素

5 0 3 2 5 8 5 7 1 6 5 0 3 2 5 8 5 7 1 6

5 0 3 2 5 8 1 5 7 6 5 0 3 2 5 1 8 5 7 6 5 0 3 2 5 8 5 1 7 6

5 0 3 2 1 5 8 5 7 6 5 0 3 1 2 5 8 5 7 6 5 0 1 3 2 5 8 5 7 6 5 0 1 3 2 5 8 5 7 6 0 5 1 3 2 5 8 5 7 6

(9)

最悪時間計算量 O 𝑛𝑛 log 𝑛𝑛

2

最良時間計算量 Θ(𝑛𝑛)

増分列 h

i

の取り方で平均時計算量 が異なる

増分列の選び方により時間計算量が変わってくる。

シェルソート ( shell sort )

等間隔の部分列に挿入ソート(あるいはバブルソート)を適用し,

それを徐々に間隔を小さくしながら繰り返す

[アルゴリズム]

// h

1

(=1), h

2

, … :自然数の数列(増分列 increment sequence ) step 1: i←arg max{ j: h

j

< n}

step 2: j=0,1,…,h

i

-1 に対する各部分列 A[j+h

i

],A[j+2h

i

],… を挿入ソートで整列 step 3: i=1 なら停止

そうでないなら i←i-1 として step 2 へ

挿入ソートやバブル ソートの一般化

離れた位置をソートする ことで高速化を図る

Shell ( オリジナル ): 1, … ,

𝑁𝑁8

,

𝑁𝑁4

,

𝑁𝑁2

Hibbard: 1, 3, 7, … , 2

𝑘𝑘

− 1 -> O 𝑛𝑛

1.5

Knuth: 1, 4, 13, … ,

3𝑘𝑘2−1

-> O 𝑛𝑛

1.25

(10)

0 3 2 8 5 7 6

5 5 1

0 3 2 8 5 7 6

5 5 1

1 3 2 5 5 7 5 0 8 6

1 0 2 5 6 7 5 8 3 5 1 0 2 5 6 7 5 8 3 5

増分列を h

i+1

=3h

i

+1, h

1

=1 とする

まず h

2

=4 毎の要素をソート 次に h

1

=1 毎の要素をソート

シェルソートの動き

h

2

=4, h

3

=13

:挿入する位置 :挿入する要素

0 3 2 8 5 7 6

1 5 5

1 3 2 5 5 7 5 0 8 6 1 3 2 5 5 7 5 0 6 8

1 0 3 5 6 5 5 8 2 7

1 0 3 2 5 6 5 7 5 8

0 1 3 2 5 6 5 7 5 8

0 1 3 2 5 6 5 7 5 8

0 1 2 3 5 6 5 7 5 8

0 1 2 3 5 6 5 7 5 8

0 1 2 3 5 6 5 7 5 8

0 1 2 3 5 5 6 7 5 8

0 1 2 3 5 5 6 7 5 8

0 1 2 3 5 5 5 6 7 8

(11)

データをある値(軸要素の値)以上のものと以下(未満)のものに 分けることを再帰的に行う,分割統治法による整列アルゴリズム

a

:a

未満の要素

:a

以上の要素

クイックソート ( quick sort )

a

それぞれの部分に対し,新たな軸要素を用いて同じ操作を行う

b c

最悪時間計算 Θ 𝑛𝑛

2

逆順にソートされた入力の時

最良時間計算量 Θ 𝑛𝑛 log 𝑛𝑛

平均時間計算量 Θ 𝑛𝑛 log 𝑛𝑛

(12)

分割統治法( divide-and-conquer method )とは

大きな問題に対して,次のようにして解を求める方法のこと 1. 部分問題に分割する

2. 各部分問題を解く

3. 各部分問題の解を統合する

部分問題を解くとき,さらに分割統治法を用いて再帰的に問題を 小さくしていくことができる

問題が十分小さければ,自明な方法で解を決定できることが多い ただし,問題を小さくした際に,同じ部分問題が何度も現れる場合 があり,そのときは計算量が非常に大きくなってしまうこともある

この問題に対しては,一度解いたことのある部分問題の解を記憶

すること(メモ化)で解決できる場合もある

(13)

軸要素の選び方について

※ 1

3

の選び方だと最小値が選ばれる可能性があり,その場合は未満と以上の分け方 だとうまくいかない.よって,アルゴリズムを,軸要素の値以上と以下に分けるように変 える必要がある(軸要素の値はどちらに含まれても良い)

クイックソートにおいては,軸要素の選び方が処理時間に影響する

[軸要素の選び方]

1. 左端の要素

2. ランダムに選んだ位置の要素

3. 左端,中央,右端の要素の中央値の要素

4. 左からみて最初に得られた2つの異なる値の大きい方の要素

3 3 5 2 5 8 0 7 1 6

3 の選び方

3 3 5 2 5 8 0 7 1 6

4 の選び方

(14)

5 0 3 2 5 8 5 7 1 6

5 0 3 2 5 8 5 7 1 6 1 0 3 2 5 8 5 7 5 6 1 0 3 2 5 8 5 7 5 6

0 1 3 2 5 8 5 7 5 6 1 0 3 2 5 8 5 7 5 6

0 1 3 2 5 8 5 7 5 6 0 1 2 3 5 8 5 7 5 6 0 1 2 3 5 8 5 7 5 6 0 1 2 3 5 6 5 7 5 8 0 1 2 3 5 5 5 7 6 8 0 1 2 3 5 5 5 7 6 8 0 1 2 3 5 5 5 6 7 8 0 1 3 2 5

quicksort(A,i,j),: A[i],A[i+1],…,A[j]

を整列する

step 1: i≥

jならば何もしないでリターン

step 2: a←A[i]

step 3:

要素の並べ替えを行い,以下のように

グループ分割する.

A[i],…,A[ℓ-1]: a

以下の要素

A[r+1],…,A[j]: a

以上の要素

step 4: quicksort(A,i,ℓ-1)

quicksort(A,r+1,j)

を実行

//

グループ分割の手順

step 1: ℓ←i, r←

step 2: A[ℓ]<a

の間

ℓ← ℓ+1

を繰り返す

step 3: A[r]>a

の間

r←r-1

を繰り返す

step 4: ℓ≥r

であれば停止

そうでなければ

A[ℓ]

A[r]

を入れ替える

step 5: ℓ←ℓ+1, r←r-1

として

step 2

クイックソートの動作例

(15)

[仮定] 全ての要素は値が異なる.

入力される要素の順列は一様分布により発生する.

[証明] 𝑇𝑇 𝑛𝑛 を 𝑛𝑛 要素のクイックソートに要する平均時間とする.

𝑛𝑛 要素のグループ分割に必要な時間計算量は明らかに 𝑂𝑂(𝑛𝑛) .

したがって十分大きな定数 𝐶𝐶

0

に対し,グループ分割の計算時間を 𝐶𝐶

0

𝑛𝑛 で上 から抑えることができる.今, 𝑖𝑖 番目に大きい要素を軸に選んだとする. 𝑖𝑖 = 1 のときは配列は 1 個と 𝑛𝑛 − 1 個に,その他の場合は 𝑖𝑖 − 1 個と 𝑛𝑛 − 𝑖𝑖 + 1 個に分 割される. 𝑖𝑖 番目の要素を選択する確率は仮定より 1 ⁄ 𝑛𝑛 なので,

𝑇𝑇 𝑛𝑛

≤ 1

𝑛𝑛 𝑇𝑇 1 + 𝑇𝑇 𝑛𝑛 − 1 + 𝐶𝐶

0

𝑛𝑛 + �

𝑖𝑖=2 𝑛𝑛

𝑇𝑇 𝑖𝑖 − 1 + 𝑇𝑇 𝑛𝑛 − 𝑖𝑖 + 1 + 𝐶𝐶

0

𝑛𝑛 .

𝑇𝑇 1 は定数時間なので,十分大きな 𝐶𝐶 をとれば,

𝑇𝑇 𝑛𝑛 ≤ 2 𝑛𝑛 �

𝑖𝑖=1

𝑛𝑛−1

𝑇𝑇 𝑖𝑖 + 1

𝑛𝑛 𝑇𝑇 𝑛𝑛 − 1 + 𝐶𝐶𝑛𝑛.

𝑖𝑖

と無関係なので

の外に出て

𝐶𝐶0𝑛𝑛(𝑛𝑛 − 1)

∑𝑇𝑇 𝑖𝑖 = ∑𝑇𝑇 𝑛𝑛 − 𝑖𝑖 𝑖𝑖 = 𝑖𝑖 − 1

平均時間計算量 O 𝑛𝑛 log 𝑛𝑛 の証明

15

(16)

𝑛𝑛 ≥ 2 のとき,適当な定数 𝑑𝑑 を用いて 𝑇𝑇 𝑛𝑛 ≤ 𝑑𝑑𝑛𝑛 log

2

𝑛𝑛 が成り立つことを数学的 帰納法で示す.

いま, 𝑑𝑑 = max

𝑇𝑇 22

, 8𝐶𝐶 とおくと, 𝑛𝑛 = 2 のとき,

𝑇𝑇 2 ≤ 2𝑑𝑑 = 𝑑𝑑 ⋅ 2 ⋅ log

2

2

より成り立つ. 2 ≤ 𝑖𝑖 < 𝑛𝑛 に対して, 𝑇𝑇 𝑖𝑖 ≤ 𝑑𝑑 𝑖𝑖 log

2

𝑖𝑖 が成り立っていると仮定する.

このとき,

𝑇𝑇 𝑛𝑛 ≤

2𝑑𝑑𝑛𝑛

𝑖𝑖=1𝑛𝑛−1

𝑖𝑖 log

2

𝑖𝑖 +

𝑑𝑑𝑛𝑛

𝑛𝑛 − 1 log

2

𝑛𝑛 − 1 + 𝐶𝐶𝑛𝑛

2𝑑𝑑𝑛𝑛

𝑖𝑖=1𝑛𝑛 2

𝑖𝑖 log

2

𝑛𝑛 ⁄ 2 + ∑

𝑖𝑖= ⁄𝑛𝑛−1𝑛𝑛 2 +1

𝑖𝑖 log

2

𝑛𝑛 + 𝑑𝑑 log

2

𝑛𝑛 + 𝐶𝐶𝑛𝑛.

𝑛𝑛 が偶数のとき 𝑇𝑇 𝑛𝑛 ≤ 𝑑𝑑𝑛𝑛 log

2

𝑛𝑛 – 𝑑𝑑𝑛𝑛 ⁄ 4 − 𝑑𝑑/2 + 𝐶𝐶𝑛𝑛

𝑛𝑛 が奇数のとき 𝑇𝑇 𝑛𝑛 ≤ 𝑑𝑑𝑛𝑛 log

2

𝑛𝑛 – 𝑑𝑑𝑛𝑛/4 + 𝑑𝑑 /4𝑛𝑛 + 𝐶𝐶𝑛𝑛 が示せる.

𝑑𝑑 ≥ 8𝐶𝐶 であるから,いずれの場合も 𝑇𝑇 𝑛𝑛 ≤ 𝑑𝑑𝑛𝑛 log

2

𝑛𝑛 が成立する.

よって, 𝑇𝑇 𝑛𝑛 = 𝑂𝑂(𝑛𝑛 log 𝑛𝑛) である.

𝑑𝑑 ≥ 𝑇𝑇 2

2 log22 = 1

前のページの式から

和を分割して

log𝑖𝑖

log𝑛𝑛

log2 𝑖𝑖 > 0 𝑛𝑛 = 2𝑚𝑚 + 1

として展開!

証明のつづき

赤字の部分

はマイナス

(17)

証明のつづき(うまくいかない版)

𝑛𝑛 ≥ 2 のとき,適当な定数 𝑑𝑑 を用いて 𝑇𝑇 𝑛𝑛 ≤ 𝑑𝑑𝑛𝑛 log

2

𝑛𝑛 が成り立つことを数 学的帰納法で示す.いま 𝑑𝑑 ≥ 𝑇𝑇(2)/2 とおくと, 𝑛𝑛 = 2 のとき,

𝑇𝑇 2 ≤ 2𝑑𝑑 = 𝑑𝑑 ⋅ 2 ⋅ log

2

2

となり成り立つ. 2 ≤ 𝑖𝑖 < 𝑛𝑛 に対して, 𝑇𝑇 𝑖𝑖 ≤ 𝑑𝑑 𝑖𝑖 log

2

𝑖𝑖 が成り立っていると仮定 する.このとき,

𝑇𝑇 𝑛𝑛 ≤ 2 𝑛𝑛 �

𝑖𝑖=1

𝑛𝑛−1

𝑇𝑇 𝑖𝑖 + 1

𝑛𝑛 𝑇𝑇 𝑛𝑛 − 1 + 𝐶𝐶𝑛𝑛

≤ 2 𝑛𝑛 �

𝑖𝑖=1

𝑛𝑛−1

𝑑𝑑 𝑖𝑖 log

2

𝑖𝑖 + 𝑑𝑑

𝑛𝑛 𝑛𝑛 − 1 log

2

𝑛𝑛 − 1 + 𝐶𝐶𝑛𝑛

≤ 2𝑑𝑑 𝑛𝑛 ⋅

𝑛𝑛 − 1 𝑛𝑛

2 ⋅ log

2

𝑛𝑛 + 𝑑𝑑 log

2

𝑛𝑛 + 𝐶𝐶𝑛𝑛

≤ 𝑑𝑑𝑛𝑛 log

2

𝑛𝑛 + 𝐶𝐶𝑛𝑛.

𝐶𝐶𝑛𝑛

の項が消えてくれない

(18)

今日のまとめ

整列(ソート , sorting )とは

整列アルゴリズムの種類と特徴

O 𝑛𝑛 2 時間の整列アルゴリズム

選択ソート,挿入ソート,バブルソート O 𝑛𝑛 log 𝑛𝑛 2 時間の整列アルゴリズム

シェルソート(挿入ソートやバブルソートの一般化)

平均時 O 𝑛𝑛 log 𝑛𝑛 時間の整列アルゴリズム クイックソート(分割統治法によるソート)

平均時間計算量の証明は結構むずかしい!

参照

関連したドキュメント

講義の目標.

Murota: Discrete Convex Analysis (SIAM Monographs on Discrete Mathematics and Applications 10, SIAM, 2003).

Not only does a non-transverse non-messing-up poset look quite different from the motivating matrix situation, but there is some redundancy in the sorting operations since, for

分配関数に関する古典統計力学の近似 注: ややまどろっこしいが、基本的な考え方は、q-p 空間において、 ①エネルギー En を取る量子状態

This paper proposes that the two-way interpretation of an indet-mo shown in (88) results from the two structural positions that an indet-mo can occur in: an indet-mo itself

つまり、p 型の語が p 型の語を修飾するという関係になっている。しかし、p 型の語同士の Merge

建屋構造 鉄⾻造、鉄筋コンクリート、鋼板コンクリート等、遮蔽機能と⼗分な強度を有 する構造

9月30日 (水) 構造(船殻)設計 ・講師:小沼 守 ・講師:中尾 強志 ・講師:佐々木 吉通(NK) ・講師:宇宿 行史(NK)