修 士 学 位 論 文
題 名
ラ ン ダ ム な ビ ッ ト 列 に お け る 連 : ブール決定木の複雑さと道路区画への応用
指 導 教 授 鈴 木 登 志 雄 准 教 授
平 成 2 1 年 1 月 9 日 提 出
首都大学東京大学院
理 工 学 研 究 科 数 理 情 報 科 学 専 攻
氏 名 川 村 保 敬
学位論文要旨(修士(理学))
ランダムなビット列における連:
ブール決定木の複雑さと道路区画への応用
川村保敬
07878307
首都大学東京大学院 理工学研究科 数理情報科学専攻 平成
21
年1
月9
日文字列AABBBCにおけるAAやBBBのように,同じ文字が続く極大な部分 文字列を連という.文字列のランダム性と連の関係については多くの研究が知られ ている.本論文は弱いランダム性と連の関係について研究したものであり,二部構 成からなる.第一部(第2章)では弱いランダム性をもつビット列,およびそれを ブール決定木で変換したビット列における連の分布を研究する.また,第二部(第 3章)では,道路区画の複雑さを数値化する計算機実験に,連の概念を応用する.
第一部(第2章)では,ブール決定木(葉から根へのブール関数とみなす)が弱 いランダム性を保存するという鈴木の研究
[ Bull. Symb. Logic , to appear]
を発展 させ,「弱いランダム性をもつ無限ビット列において,連の長さの分布はどのように なっているか」という問題と「弱いランダム性をもつ無限ビット列をブール決定木 で変換して得られる無限ビット列において,連の長さの分布はどのようになってい るか」という問題に対して,理論的な答えを与える。与えられたオラクル
X
を無限ビット列とみなし,その最初のn
ビットの始切片に おいて,連の総数に対する長さ`
の連の個数の比率に注目し,Xと`
を固定したま まn
を無限大に飛ばして上記比率の極限を考察する.特にマーティンレフ・ランダ ムなオラクルにおいて,上記極限は2
の−`
乗であることを示す.また,ブール決定木(kラウンドの
AND-OR
木)のコピーを並べた系列を葉から 根への写像とみなす.この写像によってマーティンレフ・ランダムなオラクルから1
得られるオラクルにおいて,上記比率の極限が以下の通りとなることを示す.
p
`k−1(1 − p
k) + p
k(1 − p
k)
`−12 ,
ただし
p
kは[Liu-Tanaka, Inform. Process. Lett. 2007]
で与えられた確率であり,以 下の漸化式で定まる:p
0=
12, p
k+1= −p
4k+ 2p
2k.
第二部(第3章)では,地図の道路区画の複雑さを数値化する指標の鈴木との共 同研究について述べる.ここでは特に,相似拡大について不変であるような指標に ついて研究する.閉曲線で囲まれた図形(以下区画という)の印象の複雑さを表す 量の一つとして,実験心理学では周二乗面積比が研究されている.この比は相似拡 大について不変であるという点でファイル圧縮サイズ(を複雑さの尺度とした場合)
にない強みを持つ.我々は世田谷区・目黒区の道路中心線の地図を正方形分割し,
各々の小正方形領域ごとに指標
I
1(道路で囲まれた土地区画ごとの周二乗面積比を 土地区画の面積で加重平均した量)を調べた.しかし指標I
1のみでは,たとえば以 下の3つの図の複雑さを判別することが出来ない.そこで,区画面積の分散を修正した量
I
2と連の長さの分散を修正した量I
3に着目 した.三つの指標I
1, I
2, I
3を(それぞれが0
から100
の間の値をとるように)一次 式で変換した値I
10, I
20, I
30 の平均値を,三指標平均値と呼ぶ.三指標平均値を指標と して用いたところ,より自然な形で3つの図の複雑さを判別することができた.この三指標平均値を用いて,地図の色を塗り分けることにより,複雑さを可視化 した.まず地図を正方形領域に分割する.各正方形領域の三指標平均値を計算し,累 積度数によって六段階に塗り分ける.この際色を塗り分けた正方形領域は,その領 域の周囲の値も考慮して計算している.また,この三指標平均値と
I
30 には強い相関 関係(相関係数:約0.92
)があることも分かった.2
ランダムなビット列における連:
ブール決定木の複雑さと道路区画への応用
川村保敬
首都大学東京大学院 理工学研究科 数理情報科学専攻
平成
21
年2
月13
日i
目 次
第1章 序 1
1.1 確率分布としては捉えにくいランダム性を研究する . . . . 1
1.2 第一部の概要 . . . . 2
1.3 第二部の概要 . . . . 2
1.4 発表実績 . . . . 4
第2章 ブール決定木の複雑さ 5 2.1 序 . . . . 5
2.2 用語と記号 . . . . 6
2.3 実験 . . . . 8
2.4 マーティンレフ・ランダムなオラクルにおける連の分布. . . . 10
2.5 MLランダムなオラクルを木で写像したオラクルにおける連の分布 . . . . 13
第3章 道路区画の複雑さへの応用 17 3.1 序 . . . . 17
3.2 三つの指標の説明 . . . . 22
3.2.1 周二乗面積比 . . . . 22
3.2.2 区画面積の分散を修正した量 . . . . 22
3.2.3 連の長さの分散を修正した量 . . . . 23
3.3 実験方法 . . . . 24
3.3.1 データの表現方法. . . . 24
ii
3.3.2 各指標の計算方法. . . . 25
3.4 実験結果 . . . . 26
3.5 他の地域への適用に向けて . . . . 27
第4章 付録:第三章で扱ったデータと実験結果 31 4.1 標準化時の値 . . . . 31
4.1.1 実測値方式 . . . . 31
4.1.2 基準図形方式 . . . . 31
4.2 各指標の分布 . . . . 32
4.2.1 実測値方式 . . . . 32
4.2.2 基準図形方式 . . . . 33
4.3 相関係数と相関グラフ . . . . 34
4.3.1 実測値方式 . . . . 34
4.3.2 基準図形方式 . . . . 36
4.3.3 実測値方式と基準図形方式の三指標平均値の相関 . . . . 38
4.4 基準図形一覧 . . . . 39
4.4.1 複雑さが低い基準図形 . . . . 39
4.4.2 複雑さが中程度の基準図形 . . . . 40
4.4.3 複雑さが高い基準図形 . . . . 41
4.5 地図を塗り分けた結果 . . . . 42
4.5.1 実測値方式のI1 で塗り分けた地図 . . . . 43
4.5.2 実測値方式のI2 で塗り分けた地図 . . . . 49
4.5.3 実測値方式のI3 で塗り分けた地図 . . . . 55
4.5.4 実測値方式の三指標平均値で塗り分けた地図 . . . . 61
4.5.5 基準図形方式の三指標平均値で塗り分けた地図. . . . 67
iii
謝辞 73
参考文献 73
索引 76
1
第 1 章 序
1.1 確率分布としては捉えにくいランダム性を研究する
文字列AABBBCにおけるAAやBBBのように,同じ文字が続く極大な部分文字列を連という.文字列 のランダム性と連の関係については多くの研究が知られている.本論文は弱いランダム性と連の関係について 研究したものであり,二部構成からなる.第一部(第2章)では弱いランダム性をもつビット列,およびそれ をブール決定木で変換したビット列における連の分布を研究する.また,第二部(第3章)では,道路区画の 複雑さを数値化する計算機実験(鈴木との共同研究)に,連の概念を応用する.
第二部における「弱いランダム性」とは,(東京の住宅街の)道路区画のもつ不規則性である.一方,第一部 における「弱いランダム性」とは,計算機プログラムで表現できるいかなるランダム性の検定にも合格すると いう性質を表し,より正確に言うとマーティンレフのランダム性(後述)である.古典的な確率論におけるベ ルヌイ列の概念によって,たとえば
0000000000· · ·
と
0110100010· · ·
を区別することはできない.一方,マーティンレフのランダム性(および,それと密接に関係するコルモゴロ フ計算量)は個々のビット列の複雑さの程度を表す概念であり,上記の区別を可能とするものである.
第一部(第2章)では,ブール決定木(葉から根へのブール関数とみなす)が弱いランダム性を保存すると いう鈴木の研究[3]を発展させ,
「弱いランダム性をもつ無限ビット列において,連の長さの分布はどのようになっているか」
という問題と
2 第1章 序
「弱いランダム性をもつ無限ビット列をブール決定木で変換して得られる無限ビット列において,連の長さ の分布はどのようになっているか」
という問題に対して,理論的な答えを与える。
1.2 第一部の概要
ブール決定木は,ゲーム理論や人工知能において,重要な研究テーマである.特にリーフにある確率分布の オラクルを張りつけた場合については[4]をはじめ,広く研究されている.本論文では,確率分布の代わりに マーティンレフ・ランダムなオラクルを与えた場合について考察した.
与えられたオラクルXを無限ビット列とみなし,その最初のnビットの始切片において,連の総数に対する 長さの連の個数の比率に注目し,Xとを固定したままnを無限大に飛ばして上記比率の極限を考察する.
特にマーティンレフ・ランダムなオラクルにおいて,上記極限は2の−乗であることを示す.
また,ブール決定木(kラウンドのAND-OR木)のコピーを並べた系列を葉から根への写像とみなす.こ の写像によってマーティンレフ・ランダムなオラクルから得られるオラクルにおいて,上記比率の極限が以下 の通りとなることを示す.
p−1k (1−pk) +pk(1−pk)−1
2 ,
ただしpkは[4]で与えられた確率であり,以下の漸化式で定まる.
p0=1
2, pk+1=−p4k+ 2p2k.
1.3 第二部の概要
第二部(第3章)では,地図の道路区画の複雑さを数値化する指標の鈴木との共同研究について述べる.こ こでは特に,相似拡大について不変であるような指標について研究する.閉曲線で囲まれた図形(以下区画と いう)の印象の複雑さを表す量の一つとして,実験心理学では周二乗面積比が研究されている.この比は相似 拡大について不変であるという点でファイル圧縮サイズ(を複雑さの尺度とした場合)にない強みを持つ.我々
1.3. 第二部の概要 3
は世田谷区・目黒区の道路中心線の地図[12]を正方形分割し,各々の小正方形領域ごとに以下の指標I1(道路 で囲まれた土地区画ごとの周二乗面積比を土地区画の面積で加重平均した量)を調べた.
I1:=
N
i=1Pi2 AiAi
A =
N
i=1Pi2
A ,
ただし第i土地区画の周の長さがPiで面積がAi,そしてA=N
i=1Aiである.
しかし指標I1のみでは,たとえば以下の図1.1,1.2,1.3の複雑さを判別することが出来ない.
図1.1: 図 1.2: 図1.3:
そこで,区画面積の分散を修正した量I2と連の長さの分散を修正した量I3に着目した.三つの指標I1, I2, I3 を(それぞれが0から100の間の値をとるように)一次式で変換した値I1, I2, I3の平均値を,三指標平均値と 呼ぶ.三指標平均値を指標として用いたところ,より自然な形で図1.1,1.2,1.3の複雑さを判別することが できた.
この三指標平均値を用いて,地図の色を塗り分けることにより複雑さを可視化することを考える.まず,地 図を正方形領域に分割する.各正方形領域の三指標平均値を計算し,累積度数によって六段階に塗り分ける.
この際色を塗り分けた正方形領域は,その領域の周囲の値も考慮して計算している.
また,この三指標平均値とI3 には強い相関関係があることも分かった.
4 第1章 序
1.4 発表実績
第一部(第2章)の研究を,京都大学数理解析研究所で行われた短期共同研究「証明論と論理・計算の構造」
(2008年9月)で発表した.またこの研究の経過報告書が京都大学数理解析研究所講究録[8]に掲載予定であ る(発表・報告書ともに鈴木登志雄との連名).
第二部(第3章)の研究を,以下で発表した.首都大学東京 南大沢キャンパス 9号館1階アトリウムで行 われた「首都大学東京 南大沢キャンパス 産学公交流会2008 ポスターセッション」(2008年7月).首都大学 東京 国際交流会館で行われた「首都大学東京 平成20年度研究教育交流会 ポスターセッション」(2008年10 月)(この2つのポスターセッションは,鈴木登志雄と共同発表).
5
第 2 章 ブール決定木の複雑さ
2.1 序
ブール決定木のリーフ(葉,leaf)に固定した真理値を与える代わりに真理値の確率分布を与えたものを「ラ ンダム化されたブール決定木」という.この概念は [4]など多くの文献で研究されている.
鈴木は確率分布の代わりにマーティンレフ・ランダムなオラクルを与えた場合について考察した.すなわち,
ブール決定木 可算無限個のコピーを,リーフのオラクルからルート(根,root)のオラクルへの写像と見なし,
このような写像がランダム性を保存するか調べた.そして,マーティンレフのランダム性は保存されないが,
その必要条件は保存されることを示した.[3]
著者は,鈴木のこの条件の他にも,どんなランダム性がこの種の写像で保存されるか,特に連についてどん な性質が保存されるかについて興味があり,研究を進めている.本章で述べるのはこの研究の準備作業であり,
ブール決定木による写像で写す前の,リーフ・ビット列における連の長さの分布と,写像した後のルート・ビッ ト列における連の長さの分布についての報告である.
著者は.まず計算機実験を行って予想を立てた.疑似乱数によって長いビット列X(0), X(1),· · ·, X(n−1) を生成し,連の長さについて以下の近似式が成り立つことを観察した.ただし,iはnに比べて小さい自然数 である.
X(0), X(1),· · · , X(n−1)における長さiの連の個数 X(0), X(1),· · ·, X(n−1)における連の個数 1
2i
6 第2章 ブール決定木の複雑さ
そこで,「Xがマーティンレフ・ランダムなオラクルでiが正の整数であるとき,上記の式左辺の極限(n→ ∞) が右辺に等しい」と予想した.この予想が成り立つことを第4節で示す.
また,kラウンドのAND-OR木によってマーティンレフ・ランダムなオラクルを写像して得られるオラク ルにおいて,上記比率の極限が以下の通りとなることを示す.
pi−1k (1−pk) +pk(1−pk)i−1
2 , (2.1.1)
ただしpkはkラウンドのAND-OR木の各リーフに,確率1
2 ずつで値1と0をとる,一様で独立な確率分布 を与えたときに,ルートが値1をとる確率である.このpkの値は以下の漸化式で定まることが,[4]において 示されている.
p0=1
2, pk+1=−p4k+ 2p2k.
第4節での議論を発展させることにより,第5節において(2.1.1)についての結果を示す.
第2節では用語と記号の説明を行い,第3節では実験について説明する.
2.2 用語と記号
非負整数全体の集合をωで表す.長さ有限のビット列全体の集合を{0,1}∗で表す.また,ωから{0,1}へ の関数をオラクルといい,オラクル全体の集合を{0,1}ωで表す.
ビット列111001111において,111と00および1111を連という.一般的な定義は次の通りである.
定義1 ビット列において,同じ文字が連続して現れる部分で,極大となるものを,連(run)という.
次に,マーティンレフ・ランダム性について述べる.「ランダム性についての統計的検定のうち,計算機の プログラムで表せるようなものすべてに合格するようなオラクル」という概念の数学的モデルには,「計算機の プログラムで表せるようなもの」という部分をどう定式化するかに応じて様々な変種がある.その中でも代表 的なものがマーティンレフ・ランダム性である[5].
定義2 [2, Def.3.1]集合族A ⊆ {0,1}ωがマーティンレフ零(null)集合(あるいはΣ01零集合)であるとは,Σ01 集合の一様に再帰的可算(recursively enumerable,あるいはcomputably enumerable)な列{Ui}i∈ωであって
2.2. 用語と記号 7
「∀i∈ω(μ(Ui)≤2−i)」となるもの(マーティンレフ・テストとよばれる)が存在して,「A ⊆
iUi」となるこ とをいう. オラクルAについて,{A}がΣ01零集合でないとき,「Aはマーティンレフ・ランダム(Martin-L¨of
random)である」,あるいは「1ランダムである」という.
上記定義における「Σ01集合の一様に再帰的可算な列{Ui}i∈ω」という部分の意味は次の通りである.あるオ ラクル・チューリング機械M∼(停止性についての保証はない)があって,任意のオラクルX と任意の自然 数iに対して以下が成り立つ.
X∈Ui if and only ifMX(i) = 1.
マーティンレフ・ランダム性の定義は,以下に述べる構成的零集合(constructive null set)の概念を用いて 特徴付けられる.
定義3 [1, Def.6.26]
• 開集合 G ⊂ {0,1}ω が構成的開集合(constructively open set)であるとは,ある再帰的可算な集合 X ⊂ {0,1}∗に対してG=X{0,1}ωとなることをいう.
• 構成的開集合Gm=Xm{0,1}ωの列{Gm}m≥1について以下の条件が成り立つとき,{Gm}m≥1を「構 成的開集合の構成的な列(constructive sequence of constructively open sets,略してc.s.c.o. sets)」とい う.「再帰的可算集合X ⊂ {0,1}∗×ωが存在して,すべての自然数m≥1に対して,
Xm={x∈ {0,1}∗: (x, m)∈X}
となる」.
• S⊂ {0,1}ωが構成的零集合(constructively null set)であるとは,c.s.c.o. sets{Gm}m≥1が存在して,
以下が成り立つことをいう.
S⊂
m≥1
Gmかつ,
構成的に lim
m→∞μ(Gm) = 0.
ただし,「構成的にlimm→∞μ(Gm) = 0」とは,単調増加で有界でない計算可能な関数H :ω →ωが存 在して,任意の自然数m, kに対し「m≥H(k)ならばμ(Gm)<2−k」となることをいう.
8 第2章 ブール決定木の複雑さ
定理 1 [1]Xがマーティンレフ・ランダム ⇐⇒ 任意の構成的零集合Sに対して,X∈Sとなる.
構成的零集合について,以下の結果が知られている.ここで「=」は「左辺が発散するか,または右辺と異 なる値に収束する」ことを表す.これは,強い意味での大数の法則とみることができる.
定理2 [1, p.173, Theorem 6.27]以下の集合Y は構成的零集合である.
Y ={X ∈ {0,1}ω: lim
n→∞
X(0) +X(1) +· · ·+X(n−1)
n =1
2} 定理2は,チェルノフ限界(Chernoff bound)を用いて証明される.
定理 3 チェルノフ限界[7, p.258, Lemma 11.9]X0, X1,· · ·, Xn−1の各々を,確率pで1または0をとる独立 な確率変数とする.このとき任意のθ(ただし0≤θ≤1)に対して以下が成り立つ.
P rob[X0+X1+· · ·+Xn−1≥(1 +θ)pn]≤exp (−θ2 3pn) 本章では,構成的零集合の概念を利用して主要な結果を示す.
2.3 実験
ブール決定木のコピーを並べた系列をリーフのビット列からルートのビット列への写像とみなし,リーフと ルートにおける連の長さの分布を調べる計算機実験を行った.実験は,以下の条件のもとに行われた.
• ブール決定木としては,図 2.1にあるようなAND-OR木を用いた.
• ルートからなるビット列が128ビットである場合について調べた.
• リーフには,疑似乱数を与えた.
木の深さ(depth)と似た概念としてラウンド(round)[4]というものを導入する.ブール決定木のコピー を並べた系列によってビット列を一回変換することを1ラウンドとよぶことにする.図2.2は2ラウンドの木 を並べた例である.
2.3. 実験 9
図2.1: 木のコピーを並べた系列
図 2.2: 2ラウンドの木を並べた例
10 第2章 ブール決定木の複雑さ
図 2.3,2.4はそれぞれ,リーフ・ビット列とルート・ビット列(5ラウンド)における連の長さの分布を表 す.時計の針の3時の位置から反時計回りの順に,(連の総数に対する)長さ1の連の(個数の)比率,長さ2 の連の比率,· · · を表す.
図2.3: リーフの連の長さの分布 図 2.4: ルートの連の長さの分布(5ラウンド)
疑似乱数によって生成されたリーフのビット列X(0), X(1),· · · , X(n−1)において,以下の近似式が成り立 つことが観察される.ただし,nは217(= 45×128)であり,iはnに比べて小さい自然数である.
X(0), X(1),· · · , X(n−1)における長さiの連の個数 X(0), X(1),· · ·, X(n−1)における連の個数 1
2i
2.4 マーティンレフ・ランダムなオラクルにおける連の分布
前節の実験に基いて,以下の命題を予想した.
命題 4 Xがマーティンレフ・ランダムなオラクルでiが自然数であるとき,以下が成り立つ.
n→∞lim
X(0)X(1)· · ·X(n−1)における長さiの連の個数 X(0)X(1)· · ·X(n−1)における連の個数 = 1
2i 以下で上記を証明する.次の補題が証明の鍵となる.
2.4. マーティンレフ・ランダムなオラクルにおける連の分布 11
補題 5 任意の正の整数iに対し,以下の集合Yは構成的零集合である.
Y :={X ∈ {0,1}ω: lim
n→∞
X(0)X(1)· · ·X(n−1)における長さiの連の個数 X(0)X(1)· · ·X(n−1)における連の個数 = 1
2i}
上記補題を証明するため,準備をしよう.まず,与えられたオラクルX に対して,以下のように rn, rn,i
(i= 1,2,3,· · ·)を定める.
rn := (X(0)X(1)· · ·X(n−1)における連の個数),
rn,i := (X(0)X(1)· · ·X(n−1)における長さiの連の個数).
さらにここで,
Y∞ := {X ∈ {0,1}ω: lim
n→∞
rn
n =1 2}, Yi := {X ∈ {0,1}ω: lim
n→∞
rn,i
n = 1
2i+1}.
とおく.これらがいずれも構成的零集合であることを示したい.
補題6 Y∞は構成的零集合である.
証明 オラクルXと各々の自然数jに対し,以下のようにyjを定める.
yj=
⎧⎪
⎪⎪
⎪⎨
⎪⎪
⎪⎪
⎩
1 ifX(j)が連の右端 0 otherwise
ここで,「yj= 1」となるための必要十分条件は「X(j+ 1)=X(j)」である.このとき,任意のオラクルX に対して以下が成り立つ.ただし,ここで「」は「左辺が収束するとき,かつ,そのときに限り右辺が収束 して,そのとき両辺の値が一致する」ということを表す.
n→∞lim
y0+y1+· · ·+yn−2
n−1 lim
n→∞
rn n X の各ビットを独立に1
2 の確率で0,1のいずれかに決めるとき,jに関して独立に,yjは 1
2 の確率で0,1 の値をとる.したがって,定理2の証明と同様にして(チェルノフ限界を用いて)Y∞が構成的零集合である ことを示せる.Q.E.D.
12 第2章 ブール決定木の複雑さ
補題 7 任意の構成的零集合S1,S2に対して,S1∪S2も構成的零集合である.
証明構成的零集合の定義にしたがって容易に確認できる.Q.E.D.
補題8 任意の正の整数iに対して,Yiは構成的零集合である.
補題8もチェルノフ限界を用いて証明したいのであるが,チェルノフ限界は独立な事象についての定理であ る.そこで,無限ビット列としてのオラクルを長さi+ 2の区間に分割することによって,証明を独立な事象 についての議論に還元する.
補題 8の証明 まず0≤s < i+ 2となる自然数sを固定する.
s≤j <(i+ 2)n+sかつj≡smod (i+ 2) (2.4.1)
となる自然数jの各々に対して,ys,jを以下のように定める.
ys,j =
⎧⎪
⎪⎪
⎪⎨
⎪⎪
⎪⎪
⎩
1 ifX(j+ 1)が長さiの連の左端
0 otherwise ここで,「ys,j= 1」となるための必要十分条件は
X(j)=X(j+ 1) =X(j+ 2) =· · ·=X(j+i)=X(j+i+ 1)
である.Xの各ビットを独立に 1
2の確率で0,1のいずれかに決めるとき,jに関して独立にys,j は確率 1 2i+1 で値1をとる.よって,定理2と同様にチェルノフ限界を用いて,以下の集合Yi,sが構成的零集合であること を示せる.ここで「=」は,左辺が発散するか,または右辺と異なる値に収束することを表す.
Yi,s:={X: lim
n→∞
jys,j
n = 1
2i+1}
ただし,総和記号は(s, nを固定して)(2.4.1)をみたすすべてのjに渡る和である.以下の議論では,sの固 定を解除する.
したがって補題7により,Yi,0∪ Yi,1∪ · · · ∪ Yi,i+1は構成的零集合である.ここで,以下が成り立つ.ただ しは集合の濃度を表す.また,変数kは非負整数を表し,「≡」はi+ 2を法とした合同関係を表す.
2.5. MLランダムなオラクルを木で写像したオラクルにおける連の分布 13
(Yi,0∪ Yi,1∪ · · · ∪ Yi,i+1)c=Yi,0c ∩ Yi,1c ∩ · · · ∩ Yi,i+1c
={X : 0≤ ∀s < i+ 2 lim
n→∞
jys,j
n = 1
2i+1}
={X : 0≤ ∀s < i+ 2
n→∞lim
{k <(i+ 2)n:X(k+ 1)は長さiの連の左端 かつk≡s}
n = 1
2i+1}
⊆{X : lim
n→∞
{k <(i+ 2)n:X(k+ 1)は長さiの連の左端}
(i+ 2)n = 1
2i+1}
=Yic
したがって,Yiは構成的零集合Yi,0∪ Yi,1∪ · · · ∪ Yi,i+1の部分集合であり,ゆえにYiは構成的零集合であ る.Q.E.D.
補題 5の証明 Y ⊂ Y∞∪Yiであるから,補題6と補題8によって補題5が成り立つことがわかる.Q.E.D.
命題 4の証明 補題5と定理1により,命題4が成り立つことがわかる.Q.E.D.
2.5 ML ランダムなオラクルを木で写像したオラクルにおける連の分布
定理9 (主定理) iとkは自然数であるとする.ブール決定木のコピーを無限個(ω個)並べた系列を葉か ら根への写像とみなす.kラウンドのAND-OR木によってマーティンレフ・ランダムなオラクルXを写像し て得られるルートのオラクルY に対して,以下が成り立つ.
n→∞lim
Y(0)Y(1)· · ·Y(n−1)における長さiの連の個数 Y(0)Y(1)· · ·Y(n−1)における連の個数
=pi−1k (1−pk) +pk(1−pk)i−1
2 ,
ただしpkはkラウンドのAND-OR木の各リーフに,確率 1
2 ずつで値1と0をとる一様で独立な確率分布を 与えたときに,ルートが値1をとる確率である.このpkの値は以下の漸化式で定まることが,[4]において示
14 第2章 ブール決定木の複雑さ
されている.
p0=1
2, pk+1=−p4k+ 2p2k.
以下で証明の概略を述べる.本節の残りの部分において,i, kは自然数とし,pは上記のpkを表すものとす る.また,与えられたオラクルX に対し,kラウンドのAND-OR木によってXを写像したオラクルをY で 表す.
まず,与えられたオラクルX とa∈ {1,0}に対して,以下のようにrna, ran,i(i= 1,2,3,· · ·)を定める.
rna := (Y(0)Y(1)· · ·Y(n−1)において,文字aからなる連の個数),
ran,i := (Y(0)Y(1)· · ·Y(n−1)において,文字aからなる長さiの連の個数).
また,オラクルのクラスZ,Z0,Z1を以下のように定める.
Z := {X∈ {0,1}ω: lim
n→∞
rn,i
rn = pi−1(1−p) +p(1−p)i−1
2 },
Z0 := {X ∈ {0,1}ω: lim
n→∞
r0n,i
r0n =p(1−p)i−1}, Z1 := {X ∈ {0,1}ω: lim
n→∞
r1n,i
r1n =pi−1(1−p)}.
補題 10 任意のオラクルXに対して以下が成り立つ.
(1) rn =r1n+rn0. (2) rn,i=r1n,i+r0n,i. (3)
n→∞lim rn=∞ ならば lim
n→∞
r1n r0n = 1.
証明 定義により,容易に確認できる.Q.E.D.
補題 11 (1)Z1は構成的零集合である.
(2) Z0は構成的零集合である.
2.5. MLランダムなオラクルを木で写像したオラクルにおける連の分布 15
証明の概略 (1)Z∞1 ,Zi1を以下のように定める.
Z∞1 := {X ∈ {0,1}ω: lim
n→∞
r1n
n =p(1−p)}, Zi1 := {X ∈ {0,1}ω: lim
n→∞
r1n,i
n = (1−p)2pi}
前節と同様の議論により,これら二つのクラスは構成的零集合であることから,Z1が構成的零集合であるこ とがわかる.つまり,(1)が成り立つ.
(2)の証明は(1)と同様である.Q.E.D.
定理9(主定理)の証明 補題11によりZ0∪Z1は構成的零集合である.したがって定理1により,Z0∪Z1 の任意の要素はマーティンレフ・ランダムではない.
また,{rn :n∈ω}が有界となるX全体のクラスをZ2とおく.Z2の任意の要素は,再帰的(計算可能)で あるから,マーティンレフ・ランダムではない.
ところが補題10により,Z ⊆ Z0∪ Z1∪ Z2が成り立つ.したがって定理9が成り立つ.Q.E.D.
なお,定理9は前節の実験結果(図2.4)と整合する.
17
第 3 章 道路区画の複雑さへの応用
3.1 序
本章では東京都内,特に世田谷区,目黒区周辺の住宅街1 からサンプルを拾い,道路区画の複雑さを数値化 する指標のうち特に,相似拡大について不変な指標(道路で囲まれた区画面積の平均値に依存しない指標)を 研究する.
計算複雑さの研究者の間では,圧縮ファイルのサイズが大きい情報ほど複雑とみなす考え方がよく知られて いる[11].しかし圧縮ファイルのサイズという指標は,図形の相似拡大の影響を強く受ける.特にほぼ合同な 長方形の区画が並ぶ地域であっても区画面積の平均値が小さいと圧縮ファイルのサイズは大きくなる傾向があ る.この点で,圧縮ファイルサイズは道路区画の複雑さをあまりよく反映しない.たとえば,国土地理院が発 行するCD−ROM版の数値地図[12]から成城6丁目,梅ヶ丘1丁目,若林3丁目の道路中心線を抽出してモ ノクロBMPファイルを作り(図3.1,3.2,3.3),これらを同じ圧縮ソフト(zip)の同じ設定の下で圧縮した ところ,圧縮後のファイルサイズはそれぞれ2.07KB,3.24KB,3.16KBであった.
1世田谷区,目黒区周辺の住宅街は歴史と交通手段の面で多様性がみられ,興味深い.近世江戸の近郊農村の道路の名残をとどめる住 宅街(例,世田谷区若林),関東大震災直後の帝都復興計画の時代前後に成立した住宅街(例,世田谷区奥沢,大田区田園調布),特別区 の区域に最後に編入された新しい住宅街(例,世田谷区成城),昭和のオリンピック道路の影響を強く受けた地域(世田谷区駒沢,目黒区 柿の木坂)など,様々な時代の都市形成の痕跡を観察することができる.また,東急,小田急などの私鉄の駅まで徒歩10分以内の住宅街 が多い一方で,駅からは徒歩15分を越える距離を置き,環状8号線などの幹線道路を自家用車によって移動することを前提として発展し た住宅街もある(例,世田谷区用賀).
18 第3章 道路区画の複雑さへの応用
図3.1: 成城6丁目 図 3.2: 梅が丘1丁目 図 3.3: 若林3丁目
図3.1 図3.2 図3.3 圧縮後のファイルサイズ(KB) 2.07 3.24 3.16
I1 (周二乗面積比に基づく量) 36.01 40.39 77.31 I (三指標I1,I2,I3 加重平均) 51.63 68.48 175.15
一方,実験心理学では20世紀半ば以降,たびたび閉曲線で囲まれた図形に対する複雑さの心証についての 実験と分析がなされている[9, 10, 13].特にAttneave とArnoultは,相似拡大で不変な量として閉曲線の周 の長さの二乗と閉曲線が囲む面積の比に注目した.以下ではこれを周二乗面積比とよぶ.道路中心線の地図の 複雑さを調べる場合,上記の比は相似拡大について不変である点において,ファイル圧縮サイズにない強みを 持つ.我々は世田谷区・目黒区の道路中心線の地図[12]を正方形分割し,各々の小正方形領域ごとに以下の指 標I1(道路で囲まれた土地区画ごとの周二乗面積比を土地区画の面積で加重平均した量)を調べた.
I1:=
N
i=1Pi2 AiAi
A =
N
i=1Pi2
A ,
ただし第i土地区画の周の長さがPiで面積がAi,そしてA=N
i=1Aiである.
指標I1は図3.4,3.5のような相似拡大した図形に対しては不変である.しかし図3.6と比べると,図3.6の ほうが高い値を示す.つまり,複雑さを判別することができる.
3.1. 序 19
図3.4: 図 3.5: 図3.6:
しかし,指標I1では図3.6,3.7の図形の複雑さを判別することはできない.これは,すべての区画が合同な 図形から形成されているからである.
図3.6: (再掲) 図 3.7:
また図3.7,3.8の図形についても,複雑さを判別することはできない.
20 第3章 道路区画の複雑さへの応用
図3.7: (再掲) 図 3.8:
そこで,区画面積の分散を修正した量I2と連の長さの分散を修正した量I3に着目した. 周二乗面積比は2 次元の量と1次元の量の比として定義されている.区画面積の分散を修正した量は2次元の量に関わる複雑さ の指標であり,連の長さの分散を修正した量は1次元の量に関わる複雑さの指標である.これらの指標は後で 定義する通り,相似拡大について不変である.
図3.6,3.7の複雑さは指標I1, I2では区別することが出来ず,指標I3を用いることにより区別することがで きる.これはすべての区画が合同な図形のため,I1, I2は図3.6,3.7とも同じ値をとる.しかし連の長さの分 散は異なるため,I3で区別することができる.
図3.7,3.8の複雑さは指標I1, I3では区別することが出来ず,指標I2を用いることにより区別することがで きる.すべての区画が相似な図形のため,I1の値は等しくなる.連の分散についても同じ値をとるので,I3の 値も等しくなる.しかし面積の分散は異なるため,I2で区別することができる.
図3.5,3.6 図3.6,3.7 図3.7,3.8
I1 ○ - -
I2 - - ○
I3 - ○ -
しかし,この三つの指標の値の範囲には大きな差がある.そこで,世田谷・目黒全域について各指標の平均 mと分散σを求めた.そして,
3.1. 序 21
α = m−1.96σ β = m+ 1.96σ
とするとき,αが0,βが100に対応するように,一次式で変換した.つまり,指標Inを変換した値In を以 下のように定めた.
In =In−α
β−α ×100 (3.1.1)
ただし,右辺が0以下の場合はIn = 0,100以上の場合はIn = 100とする.
三つの指標I1, I2, I3を変換した値I1, I2, I3 の平均値を,三指標平均値と呼ぶ.三指標平均値を指標として用 いたところ,図3.4から図3.8の複雑さを判別することができた.
図3.4 図3.5 図3.6 図3.7 図3.8
I1 16 16 18 18 18
I2 0 0 0 0 11.5
I3 0 0 0 5.33 5.33
I 0.64 0.64 3.27 43.3 76.6
注意 1 正規分布の場合,区間[α, β]にデータの95%が入ることが知られている.
ただし,各指標の分布は必ずしも正規分布ではない.
この三指標平均値を用いて,地図の色を塗り分けることにより複雑さを可視化することを考える.まず,地 図を正方形領域に分割する.各正方形領域の三指標平均値を計算し,累積度数によって六段階に塗り分ける.
この際色を塗り分けた正方形領域は,その領域の周囲の値も考慮して計算している.
また,この三指標平均値とI3 には強い相関関係(相関係数:約0.92)があることも分かった.
22 第3章 道路区画の複雑さへの応用
3.2 三つの指標の説明
地図上の正方形領域に対して三つの指標を定義する.ただし,与えられた領域周辺部に生じる途切れた(閉 曲線で囲まれていない)区画を黒塗りする.以下で「領域に含まれるすべての区画に渡って」という場合,こ れらの黒塗りした区画を無視する.
⇒
以下単に区画と言った場合には,閉曲線で囲まれた単一の図形のことを指すものとする.
3.2.1
周二乗面積比ここで周二乗面積比とよぶのは,各区画の周の長さをPi,面積をAiとするときのPi2/Aiのことである.円 では最小値(4π)をとり,正方形では16,ヒトデの形のように凹凸が多い図形では大きくなる.地図上に指定 された正方形領域において,この領域に含まれる区画のすべてに渡って周二乗面積比の平均値を求める.ただ し,区画の面積に比例した加重平均をとる.
I1:=
N
i=1Pi2 AiAi
A =
N
i=1Pi2
A , ただしA=
N i=1
Ai.
3.2.2
区画面積の分散を修正した量地図上に指定された正方形領域において,この領域に含まれる区画の面積の分散をσA2,平均をmAとし,以 下の量に着目する.
I2:= σA2 m2A
3.2. 三つの指標の説明 23
合同な区画ばかりからなる領域では最小値(0)をとる.
3.2.3
連の長さの分散を修正した量上記I2と似た量を1次元で考える.地図上の領域を横切る直線上において道路中心線でないピクセルが続く かたまり,つまり連の長さの分散を求めて,それを平均値の二乗で割る.具体的には以下の通りである.
この実験で用いる地図画像ビットマップにおいては道路中心線が黒,そうでない部分が白で表されている.
地図上に指定された正方形領域K(周辺部の半端な区画を黒く塗ったもの)を以下の4通りの方法でスキャン し,1(黒)と0(白)の列を作る.ここで行は水平の並び,列は垂直の並びを表す.
(A)上の行から順に,左から右へスキャン(英文方式).
(B) 右の列から順に,上から下へスキャン(和文方式).
(C) 領域Kを反時計回りに45度回転させて(菱形にして)から,上の行から順に,左から右へスキャン.
(D)領域Kを反時計回りに45度回転させて(菱形にして)から,右の列から順に,上から下へスキャン.
ただし(C),(D)を行う前に
⎛
⎜⎜
⎝ 0 1 1 0
⎞
⎟⎟
⎠の形のブロックを
⎛
⎜⎜
⎝ 1 1 1 0
⎞
⎟⎟
⎠に修正し,さらに
⎛
⎜⎜
⎝ 1 0 0 1
⎞
⎟⎟
⎠の形のブロッ
クを
⎛
⎜⎜
⎝ 1 0 1 1
⎞
⎟⎟
⎠に修正する.これは斜めの線を連続にするためである.
⇒
こうして得た4つのビット列の各々について,0の連の長さの分散σ2rと平均mrを求め,
σ2r
m2r (3.2.1)
24 第3章 道路区画の複雑さへの応用
を求める.(A)のビット列についての(3.2.1)と(B)のビット列についての(3.2.1)の平均値を求め,次に(C) のビット列についての(3.2.1)と(D)のビット列についての(3.2.1)の平均値を求める.こうして得たふたつの 平均値のうち,小さい方をI3とする.
3.3 実験方法
以下では,コンピュータ上でのデータの表現方法と,第2節で定義した指標I1, I2, I3の近似値を計算する方 法,特に各区画の面積と周の長さの計算方法について述べる.
3.3.1
データの表現方法地図をモノクロBMPファイルとして与え,白を0,黒を1とみなして,それぞれの指標を計算している.
まず地図を正方形領域に分割する.次にこの正方形領域を中心とし,縦横2倍に拡大した正方形領域を考え る.この拡大した正方形領域で各指標を計算し,この値によって元の正方形領域に色を塗る.
図3.9: 拡大した正方形領域に色をつけた例
これにより,塗り分ける領域の周囲の値も考慮していることになる.以下,単に正方形領域と言った場合には,
この拡大された正方形領域を指すものとする.