自転車事故と事故現場の環境との関係

全文

(1)

卒業研究論文

自転車事故と事故現場の環境との関係

学籍番号 10D8104018K

額田博己

中央大学理工学部情報工学科 田口研究室 2014年 3月

(2)

ii

あらまし

本研究では, 自転車事故に対して事故現場における周囲の環境に着目して評価 を行う. まず自転車事故のデータにある時間帯・年代・相手車両などから, 事故の 現状や傾向を分析し, さらに交通量や道幅などの道路環境のデータを用いて様々 な分析法から自転車事故と周囲の環境との関連性について考察する.

キーワード:決定木, アソシエーション分析, 交通事故

(3)

iii

目次

1 序論 ... 1

2 使用するデータの概要 ... 2

2.1 事件事故発生マップ ... 2

2.2 道路交通センサス ... 3

2.3 対象とする範囲 ... 4

3 事故の基本情報 ... 5

3.1 データの変換... 5

3.2 基本情報の考察 ... 5

4 施設に着目した自転車事故環境の評価 ... 10

4.1 駅周辺 ... 10

4.1.1 月別の駅周辺の事故状況 ... 10

4.1.2 駅からの距離別事故状況 ... 12

4.2 学校周辺 ... 15

4.3 その他施設 ... 17

5 カテゴリ別事故データに着目した自転車事故の分析 ... 19

5.1 アソシエーションルール分析 ... 19

5.1.1 概要 ... 19

5.1.2 評価指標... 19

5.2 分析結果 ... 21

6 道路環境に着目した自転車事故の分析 ... 29

6.1 決定木(Decision Tree) ... 29

6.1.1 概要 ... 29

6.1.2 評価指標... 29

6.2 分析結果 ... 30

7 結論 ... 37

7.1 まとめ ... 37

7.2 今後の課題 ... 37

謝辞 ... 38

参考文献 ... 39

(4)

1

1

章 序論

近年, 移動手段として便利で誰でも簡単に利用でき, またエコな乗り物として環境にも 優しいことから, 自転車を利用する人が増加しており, 埼玉県の自転車保有台数は, 平成 10年から20年までの10年間で約100万台増加している[1]. それに伴い, 自転車事故件数 も増加しており, 平成20年の自転車乗用中の交通事故件数に占める割合は前年に比べ減少 したものの, 未だに2割と高い割合で推移している[2]. また, 自転車乗用中による死傷者数 の割合は, 交通事故全体の約 17%という高い数値を示しており, このうちの 4 割を若者と 子どもで占めている.

乗用者の誰もが起こす可能性のある自転車事故では, 被害者となるだけでなく歩行者と の衝突により加害者になることもあり, 事故の中には, 歩行者を死亡させてしまったもの まである.

事故の主な原因は安全不確認や一時不停止, 信号無視などの事故当事者の意識行動によ るものが多いが, それ以外にも事故現場の周囲の環境に事故が誘発されるような原因があ ると考えられる.

本研究では, それら外的要因を明らかにすることで, 自転車事故の低減・防止に繋げるこ とを目的とする. 具体的にはさいたま市周辺を対象に, 事故現場の交通量および事故当日 の天気や時間帯のデータをまとめ, 分析法を用いて解析し, どの要素が事故と関わりが強 いのかを評価する.

(5)

2

2

章 使用するデータの概要

本章では, 本研究に使用するデータの説明を行う. 各データの概要は以下の通りである.

2.1 事件事故発生マップ

埼玉県警察が公開している事件事故発生マップは, 埼玉県内における犯罪発生状況と交 通事故発生状況をまとめたものであり, 図のように地図画面上で発生地点とその犯罪・事故 の詳細を見ることができる.

本研究で扱う交通事故発生状況マップは, 2010年から2013年現在までの交通事故をまと めたものであり, 以下のデータが含まれている.

・事故発生地点座標(緯度・経度)

・事故の重さ(軽傷・重症・死亡)

・事故当事者(自動車・二輪車・自転車・歩行者・その他)

・年代(高齢者・子供)

・時間帯(0~6時・6~12時・12~18時・18~24時)

・日付(年・月・日)

上記選択項目に応じた事故の発生状況を地図画面上で見ることができる.

2.1 交通事故発生状況マップ表示画面

(6)

3

2.2 道路交通センサス

本研究では平成17年度及び22 年度道路交通センサスの一般交通量調査を使用する.一 般交通量調査は,道路交通センサスの一環として,全国の道路の交通量及び道路現状等を 調査し, 道路の計画,建設,維持修繕その他の管理などについての基礎資料を得ることを目 的に実施されたものである.記載されている調査事項は調査対象道路の交通量や速度等50 項目である. その中で, 調査事項の中でも本研究で用いる項目について説明する.

・昼間12 時間自動車類交通量上下合計 [台] (平成22年) 午前7 時から午後7 時までの自動車類の台数

・車線数 [m] (平成22年)

上下線を合計とした, 道路状況調査単位区間の代表団面における車線数

・道路幅 [m] (平成22年)

中央対及び路肩の幅員は含まない, 車両通行用を目的とした部分の道路幅

・歩道幅 [m] (平成22年)

歩道及び自転車歩行者道の幅員

・混雑度 [%] (平成22年)

調査単位区間の交通容量に対する交通量の比

・昼間12 時間平均旅行速度 [km/h] (平成22年)

交通調査基本区間を通過する自動車類の昼間12 時間の平均速度

・歩行者交通量 [人] (平成17年)

午前7 時から午後7 時までの歩行者の人数

・二輪交通量 [台] (平成17年)

午前7 時から午後7 時までの二輪自動車の台数

・昼間12 時間自転車類交通量上下合計 [台] (平成17年) 午前7 時から午後7 時までの自転車類の台数

(7)

4

2.3 対象とする範囲

本研究では, 2.2 に示すようなさいたま市周辺の領域(標準地域メッシュコード

533964,533965, 5333974, 533975の範囲)における自転車事故を対象とした. 標準地域メッ

シュコードとは, 統計などに利用するための, 緯度・経度に基づいて地域をほぼ同じ大きさ の網の目(メッシュ)にもので, そのメッシュを識別するためのコードを標準地域メッシュコ ードという.

2.2 標準地域メッシュコード(縮尺 1/50000)

(8)

5

3

章 事故の基本情報

本章では, 相手車両・年代・時間帯・事故の重さ・曜日などのカテゴリ別事故データをそ れぞれまとめることで, 対象となる地域の自転車事故における基本情報を知る.

3.1 データの変換

2.1 節の事件事故発生マップから得られるカテゴリ別の情報を, 数値に変換して使用す る.

・事故の重さ(軽傷・重症・死亡)

・事故当事者(自動車・二輪車・自転車・歩行者・その他)

・年代(高齢者・子供)

・時間帯(0-6時・6-12時・12-18時・18-24時)

・日付(年・月・発生日)

・曜日(月・火・水・木・金・土・日)

・平日休日(平日・休日)

↓数値に変換後

・事故の重さ(5・1・10)

・事故当事者(1・2・3・4・5)

・年代(2・3) それ以外を1

・時間帯(1・2・3・4)

・日付(そのままの値)

・曜日(1・2・3・4・5・6・7)

・平日休日(1・2)

3.1 カテゴリ別事故データの数値変換

3.2 基本情報の考察

集計したデータをもとに, それぞれの情報を整理することで事故の現状を把握していく.

(9)

6 [時期の関係]

年度・月などの時期による事故件数の増減を確認する. 3.32010年から2013年ま での季節ごとの事故件数の変化を示す. 3.3を見ると, 年々全体の事故件数は減少してき ていることがわかる. 事故が起きた場所の整備による安全強化などにより, 事故現場の環 境が改善されていると考えられる. 季節ごとの変化を見ると, 夏の時期が平均的に多くな っている. これは夏休みなどに外に出かける人が多いため, 自動車の交通量が増加するこ とが影響していると思われる. 冬の時期が少ないのは, 寒さにより外に出かける人が少な くなり, 自転車の交通量が減少するためだと推測される.

3.2 季節別事故件数

春(3,4,5月) 夏(6,7,8月) 秋(9,10,11月) 冬(12,1,2月) 合計

2010 1385 1428 1374 1334 5521

2011 1351 1382 1350 1227 5310

2012 1156 1222 1305 1172 4855

2013 1202 1115 960 915 4192

合計 5094 5147 4989 4648 19878

3.3 季節別事故件数グラフ

3.4に, 事故の重傷度・相手車両・時間帯・年代・曜日のそれぞれをまとめたものを示 す. 3.4と事件事故発生マップを用いて推測できる特徴を, 項目ごとに以下に記す.

[相手車両]

自動車との事故発生地点として, ほとんどの事故が交通量の大きな道路で起こっており, 細街路での事故自体は少なかった. しかし, 細街路で起きている場所には複数で起きてい ることが多かった. 二輪車との事故は, 交通量が大きな交差点上で起きることが多く, 右左 折時による事故が多いと考えられる. 自転車との事故発生地点として, 交通量の多い交差

0 500 1000 1500

2010 2011 2012 2013

年度

(10)

7

点での事故が多いが, 自動車と二輪車に比べ細街路の事故が多く見られた. 3.5は歩行者 との事故発生地点だけを地図上に表示したものであり, 特徴として駅の周辺での事故が多 いことがわかる. それ以外にもデパートやスーパー周辺の交差点での事故が多く, 事故発 生の要因として人が良く利用する施設が関係していると考えられる.

[重傷度]

重傷度を調べると, 割合として自転車事故のほとんどが自動車との事故だということが わかる. また, 重傷以上のものは全体の10%しかなく, 3.6よりその内の73%にあたる事 故は自動車との事故であることがわかるが, 軽傷事故の場合よりも自動車との事故の割合 が小さい. これは, 自動車以外との衝突の方が自動車と比べ, より大きな事故に発展する可 能性が高いことを示しており, 重傷・死亡事故は軽傷事故よりも加害者になりやすいと考え られる. 重傷の事故が起きる場所の傾向としてマップ上で見ると, 重傷は駅に近い交差点 で起こっている傾向にある. また重傷の起こる交差点では, 繰り返し重傷事故が起こる傾 向があり, 事故点が固まっている場所がいくつもみられた. ほとんどの死亡事故も交差点 上で起こっており, 特に大きな道路の付近でのものが多かったが, 付近に重傷事故がない ような場所に単独で起こっているものも存在した. 理由としては不意な飛び出しや右左折 時の衝突が挙げられる.

[時間帯]

0-6 時における事故の割合は非常に少ないのは, この時間帯の交通量が少ないことが関

係していると思われる. 事故発生地点の特徴としては, 駅の周辺に固まって起こっておら ず, 交差点以外にも細街路での事故も見られた. 6-12 時と 12-18 時の事故は, 全体の約

80%を占めており, 事故発生地点の特徴として, 駅の周辺での事故が多く, 特に大きい道路

上の交差点で起こっていた. 3.7から18-24時の事故発生地点の特徴として, 駅周辺で はなく比較的交通量の大きい道路上で起きていることがわかる.

[年代]

全体の約 60%を占める一般の事故はあらゆる場所で発生しているが, 特に駅周辺や交通

量の多い交差点で多く見られた. 高齢者の事故はスーパーなどの建物付近の交差点で多く 見られ, また子どもの事故は駅付近では少なく細街路での事故が多かった.

(11)

8

3.4 カテゴリ別事故データ

3.5 対歩行者との事故発生地点

80%

6%

4%

2%

8%

相手車両

自動車 二輪車 自転車 歩行者 その他

90%

10% 0%

重傷度

軽傷 重傷 死亡

2%

41%

38%

19%

時間帯

0-6時 6-12時 12-18時 18-24時

28% 62%

10%

年代

一般 高齢者 子供

15%

15%

16% 16%

16%

13% 9%

曜日

事故発生地点

(12)

9

3.6 重傷度別における相手事故車両の割合

3.7 時間帯による事故発生場所の比較 自動車

81%

二輪車 6%

自転車 3%

歩行者 2%

その他 8%

軽傷事故における 相手事故車両の割合

自動車 73%

二輪車 7%

自転車 6%

歩行者 3%

その 11%

重傷・死亡事故における 相手事故車両の割合

全時間帯

18-24 事故件数密度

(13)

10

4

章 施設に着目した自転車事故環境の評価

自転車事故に関係する原因の 1 つとして施設が考えられる. より多くの人が集まる場所 では, それだけ事故につながる可能性が大きくなるからである. そこで, 本章では 2.3節で 述べた範囲に存在する駅・学校・デパート・郵便局・病院・コンビニ・ファーストフード7 種類の建物データと, 事件事故発生マップで取得した座標データを用いてそれら施設周辺 の自転車事故の傾向や特徴を調べる.

4.1 駅周辺

本研究で対象としている範囲には, 53 駅が存在する. その中でも鉄道の乗車人員が多く, 駅周辺の交通量が大きい駅として, 大宮駅と浦和駅がある. 以下ではそれぞれの駅の特徴 について記載する.

大宮駅では, JR東日本・東武鉄道・埼玉新都心交通の3社から計12本が乗り入れ路線 として通っており, 中でも10本の乗り入れ路線を有するJR東日本は, 1日の平均乗車人数 が埼玉県で1位である. 対する浦和駅の乗り入れ路線はJR東日本の4本だけだが, 1日の 平均乗車人数は, 埼玉県内の単独の駅で大宮駅に次ぐ第2位である.

4.1 年度別1日平均乗車人員推移

1日平均乗車人員(人) 2009 2010 2011 大宮駅JR東日本単独 236,424 235,157 235,744 大宮駅合計 32,247 320,847 321,690

浦和駅 79,376 79,113 78,807

4.2 さいたま市区別統計(平成25年度121日現在)

人口(人) 面積(km2) 人口密度(/km2)

大宮区 112,661 12.75 88,239

浦和区 150,598 11.51 130,698

4.1.1 月別の駅周辺の事故状況

大宮駅を中心として, 縮尺 1/5000 で表示した図の範囲 (1.5km2)と縮尺 1/10000 の範囲

(6.0km2)の自転車事故件数を比較し, 駅周辺の自転車事故の傾向を調べる. 結果を図4.3

示す.

(14)

11

縮尺1/5000の範囲よりも, 縮尺1/10000から縮尺1/5000を引いた範囲は, 面積が3倍と

なっているが, 4.3から自転車事故の単位面積あたりの発生件数の割合は, 駅に近い方が 大きく, 駅周辺は自転車事故が起きやすいことがわかる. 浦和駅にも同様の傾向が見られ た. 月別の件数の変化を比べると, 1月と9月を除いた月で同じ傾向が見られ, 駅周辺と駅 から広い範囲でも月ごとの事故の起こりやすさに変化はないことがわかった.

4.3 月別大宮駅周辺自転車事故件数の駅からの距離による比較

4.4 大宮駅と浦和駅の自転車事故件数比較

大宮駅と浦和駅周辺を縮尺 1/5000 の場合で比較し, 自転車事故の傾向を調べる. 結果を 4.4に示す. 4.4より自転車事故件数は大宮駅が318件, 浦和駅は290件であり, 人口

0 5 10 15 20 25 30 35 40 45

1 2 3 4 5 6 7 8 9 10 11 12

大宮事 故件数 浦和事 故件数 0

10 20 30 40 50 60 70 80

1 2 3 4 5 6 7 8 9 10 11 12

1/5000 1/10000 - 1/5000

(15)

12

に対しての事故件数に正の相関は見られなかったが, 月ごとの事故件数の推移に類似して いる部分が見られ, 事故の起きやすい月と起きにくい月があることがわかる.

4.1.2 駅からの距離別事故状況

駅周辺に対して, 駅からの距離を変化させて調査範囲を設定し, 平均事故密度を求める ことで, どの範囲に駅が事故と関係があるのかを調査する. 平均事故密度の求め方は, 駅を 中心として半径 100m ごとに 事故件数[n]

円面積[𝑚2] を計算し, それぞれの事故密度の平均にしたも のである.

4.5 駅からの範囲別事故件数と事故件数(すべての駅)

4.5に, すべての駅に対して調べた結果を示す. 駅から300m以内の平均事故密度が最 も大きくなっており, 距離 700m を超えた所から平均事故密度は減少していることが分か る. この結果から周囲300-700mの範囲が事故と関係があると考えられる.

4.6に大宮駅と浦和駅の場合の事故密度を示す. 4.6では両駅の傾向はよく似ている ことがわかる. 両駅とも範囲200mの事故密度が最大値となっており, 500m以降は事故密 度が安定している. 理由としては, 駅に近くなることにより, 自転車を使用する駅利用者が より密集することで衝突を引き起こす可能性が増加しているためだと考えられる. これを 確かめるために, 大宮駅と浦和駅を中心とした距離200mと距離300mの範囲の建物の特徴 を調べる.

1.7 1.75 1.8 1.85 1.9 1.95 2 2.05 2.1

0 100 200 300 400 500 600 700 800

100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500

駅からの距離

平均件数 最大件数 全駅平均 密度

(16)

13

4.6 大宮駅, 浦和駅の範囲別事故密度の比較

4.7より, 大宮駅西口の周囲 200m 以内にそごう, ビックカメラ, 丸井, 東口に高島屋 と中央デパートなどの大型施設が構えており, それらの付近での事故が目立つ. そして駅 付近の交差点に事故が多く見られた. 事故の特徴としては, 子供が少なく18-24時に事故 が多かった. 相手別の事故の割合に特に変化は見られなかった.

4.8より, 浦和駅東口の周囲200m以内にパルコ, 駅西口に伊勢丹という大型施設2 が構えており, そのため駅利用者とショッピング施設利用者による交通量の増加が周囲 200m以内の事故発生に関わっていると考えられる. また, 大宮駅と同様に駅付近の交差点 での事故が多く見られ, 主に東口のパルコ付近の大きい交差点での事故が多い. 付近の特 徴としては, 対自転車と対歩行者との事故の割合がかなり高く, 6-12時の事故の割合が低 かった.

全駅の場合と比べると, 200mから300mの範囲で平均事故密度の変動が逆になっている.

この理由として, 大宮駅と浦和駅周辺には他の駅と比べて人が多く集まる施設が多く, た, 駅から近い場所に設置されているからだと考えられる. 全駅の場合に, 300m の範囲で 最も事故密度が高くなっていた理由として, 300m の範囲に大きい道路があり, 事故の起き やすい交差点が含まれる駅が多いことが関係している.

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

0 100 200 300 400 500 600 700 800

密度[n/]

[n]

駅からの距離[m]

平均件数

最大件数

全駅平均 密度 大宮密度

浦和密度

(17)

14

4.7 大宮駅から距離200m-300mの周辺地図

0-6 0%

6-12 41%

12- 18 32%

18- 24 27%

時間帯

68%

27%

5%

年代

自動 86%

二輪 0%

自転 0%

歩行 0%

その 14%

相手車両

(18)

15

4.8 浦和駅から距離200m-300mの周辺地図

4.2 学校周辺

4.9に学校周辺の事故密度を示す. 4.9より学校の事故密度は距離600mまで増加し, それ以降減少傾向にある. 学校の特徴を考察するために, 距離200mの事故件数が32件と 一番多い学校である上小小学校を詳しく見てみる. 4.10から, 大宮駅南西にあるこの学 校の南には巨大な交差点があり, 歩道橋が設置されていることがわかる. しかし信号のな

0-6

0% 6-12

33%

12- 18時 43%

18- 24

24%

時間帯

一般 65%

高齢 27%

子供 8%

年代

自動 65%

二輪 5%

自転 14%

歩行 11%

その 5%

相手車両

(19)

16

い自転車通行レーンも設置されており, 事故地点を調べるとその自転車通行レーンに沿っ て事故が起きている. そのうちの12件の事故は高齢者で, 子供は2件しか起こっていなか った. 他の学校も比較したが, 付近での子供の事故は特に多いところはなかった. また, 校全体で見ると100m-200mの範囲が少ない. 理由としては, 計測上の問題で学校の位置 を示す座標が学校の中心にあるため, 校庭などを含め他の施設よりも面積が大きい学校は, 事故が起こる道路まで距離があるということ, そして学校は子供が通っているため, 周囲 の道がスクールゾーンの設置などにより安全面が強化されていることの2つが考えられる.

4.9 学校周辺の事故密度

4.10 上小小学校南の歩道橋

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8

0 100 200 300 400 500 600 700 800 900

100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500

学校からの距離(m)

平均件数 最大件数 密度平均

(20)

17

4.3 その他施設

4.11は, 上記で考察した駅と学校以外の施設も合わせた7種類の施設の事故密度をま とめたものであり, 以下にこれらの図の特徴について考察する.

[デパート]

デパートの事故密度は7種類の建物の中では全体的に一番大きく, 他の建物よりも付近 で約1.5倍多くの事故が起こっていることがわかる. 件数が多い理由として, デパートは交 通の便による影響やより多くの集客を目的として, 駅の近くに建てられており, 全体の平 均事故密度と同じような変化の仕方をしており, デパートから距離300mの範囲での事故 密度が最も高く, 距離500mを超えたあたりから減少する形となっている. 100mの範囲の 事故密度が高くない理由として, 建物の出入口付近は交通整備などの安全強化により, 少していると考えられる.

[郵便局]

他の建物の事故密度が距離300-500mの範囲で最大値をとるのに対し, 距離100mとい う最も近い範囲で最大の密度が見られた. 郵便局の設置場所として, 駅付近など多くの人 が利用しやすい, 交通量が多い場所に設置されていることが多い.

[病院]

事故密度は全体と比べると変化が大きくなく, 距離500mまでゆっくりと増加し, 過ぎた あたりから徐々に減少していっている. 地図上で見える特徴として, 施設付近で高齢者に よる事故が多く見られたことから, 高齢者の交通量が多いと考えられる.

[コンビニ・ファーストフード]

値はファーストフードの方がかなり大きいが, コンビニとファーストフードは似たよう な密度の変化をしており, 距離500mの範囲が最も大きくなっていると考えられる. 4.12 にコンビニとファーストフードの設置場所を示す. 配置の特徴として, 細街路ではなくよ り多くの集客が見込める国道, 主要道, 駅などの交通量の多い場所に多く配置される傾向 があることがわかる. 建物から近い範囲での事故が多いと予想していたが, 建物から少し 離れた場所での事故が多かった. その理由として, 設置数が非常に多いため事故が起きて いない場所にもいくつも設置されており, そのために密度が低くなっていると考えられ, コンビニの周辺の事故密度の方が低いのは, 事故が起きていない場所での設置数がより多 いためと考えられる.

(21)

18

4.11 場所別事故密度グラフ

4.12 コンビニとファーストフード

1 1.5 2 2.5 3 3.5

0 100 200 300 400 500 600 700 800

100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 事故密度[n/]

事故件数[n]

施設からの距離[m]

平均件数 最大件数 郵便局 コンビニ デパート ファスト 病院 学校 全部

国道・主要道

鉄道路線

ファーストフード

コンビニ

(22)

19

5

章 カテゴリ別事故データに着目した自転 車事故の分析

5.1 アソシエーションルール分析

2.2節で得られた相手車両・年代・時間帯・事故の重さ・曜日などの事故データに着目し, それらデータの関係性をアソシエーションルール分析により取り出した結果を用いて, 路環境以外の部分が事故にどのような影響があるのかを調べていく.

5.1.1 概要

アソシエーションルール分析とは「データベースに潜む興味深いルール(パターン)を 列挙すること」を目的とした分析手法である. このアソシエーション分析が応用される最も 代表的な例は, スーパーマーケットにおけるマーケットバスケット分析である. 顧客が購 入したマーケットバスケット(買い物かご)の中身を分析し, 同時購入される商品の中から 興味深い組み合わせ(例. X ⇒ Y : Xを買うならばYも買っている. )を発見し, 販売促進 につなげていこうというものである. 分析によって得られたルール「X ⇒ Y」は「X なら

Y」と読まれ, Xをルールの前提部, Yを結論部と呼ぶ. ここで, アソシエーションルール

分析の目的は, 次節で紹介する支持度(support), 信頼度(confidence)を利用し, 最小支 持度(min_sup)および`最小信頼度(min_conf)の条件を満たすルールをすべて列挙する ことである.

5.1.2 評価指標

アソシエーション分析ではルールを探索し, 評価をする上で支持度(support)と信頼度

(confidence)の 2 つの値を主に利用する. 以下の式では探索するデータベースの集合を D, その要素数を|D|, アイテム集合をI, 任意のアイテム集合をX, Y ⊆ Iと表記している.

支持度とは, データベースの全トランザクション数|D|に対する, アイテム集合 X ∪ Y を含むトランザクション数の割合であり, 式 (5.6) で与えられる. 以下の式でcount ( X )は データベースDにおいてアイテム集合Xを含むトランザクション数を表す.

support(𝑋 ⇒ Y) = 𝑐𝑜𝑢𝑛𝑡(𝑋 ∪ 𝑌)

|𝐷| (5.1)

前提部と結論部のアイテム集合が多くのトランザクションに出現すれば, それらのアイ

(23)

20

テム集合の間の関連性が強いと考えるのが支持度の考え方である.

次にアソシエーションルールの信頼度とは, 条件部 X のアイテム集合を含むトランザク ション数に対するX ∪ Yを含むトランザクション数の割合であり, 式 (5.7) で与えられる.

confidence(X ⇒ Y ) = 𝑐𝑜𝑢𝑛𝑡(𝑋 ∪ 𝑌)

𝑐𝑜𝑢𝑛𝑡(𝑋) (5.2)

アソシエーションルール分析の目的は, 最小支持度(min_sup)および最小信頼度

(min_conf)を与えたとき, 式(5.3)で与えられた条件を満たすルールをすべて列挙するこ とである.

{ 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑋 ⇒ 𝑌) ≥ min _𝑠𝑢𝑝

𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(𝑋 ⇒ 𝑌) ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓 (5.3)

アソシエーションルール分析では支持度, 信頼度以外にもルールを評価する上で lift

convictionという指標が存在する.

lift は信頼度の欠点を補う興味深さの定義として用いられ, 結論のアイテムは前提のアイ テムとは無関係に起こらないという指標である. 前提Xと結論Y2つのアイテム集合を 考えたとき, XYに関する信頼度を前提なしの結論Yについての信頼度で割ったものが値 となる. 次の式 (5.4) に表す.

lift(X ⇒ Y) =𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(𝑋 ⇒ 𝑌)

𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑌) (5.4)

=𝑐𝑜𝑢𝑛𝑡(𝑋 ∪ 𝑌)

𝑐𝑜𝑢𝑛𝑡(𝑋) × 1

𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑌)

= |𝐷|

𝑐𝑜𝑢𝑛𝑡(𝑋)× 1

𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑌)×𝑐𝑜𝑢𝑛𝑡(𝑋 ∪ 𝑌)

|𝐷|

= 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑋 ⇒ 𝑌)

𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑋) × 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑌)

lift1.0であるとき, 2つの事象XYが互いに独立であることを意味し, 値が1.0より 大きく, かつその値が大きければ大きいほど興味深いルールであると考える.

conviction は得られたルールの結論部の排反事象に着目し, ルールが間違った予測をし

てしまわないかどうかを意味する評価指標である. 前提の支持度と結論以外のサポートの 積を, ルール「前提⇒結論以外」の支持度で割った値であり, 次の式 (5.5) で表される. 提をX, 結論をYとし, 結論以外の事象をY ’ で表記する.

conviction(X ⇒ Y) = 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑋) × 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑌′)

𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑋 ⇒ 𝑌′) (5.5) =𝑐𝑜𝑢𝑛𝑡(𝑋)

|𝐷| × |𝐷|

𝑐𝑜𝑢𝑛𝑡(𝑋 ∪ 𝑌′)×𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑌′) 1

(24)

21

= 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑌)

𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(𝑋 ⇒ 𝑌)

= 1 − 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑌)

1 − 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(𝑋 ⇒ 𝑌′)

convictionの値が大きければ, 前提X であるときに結論がYではないということが少なく

なる. またliftと異なり, 前提と結論を入れ替えると値が変化する評価指標である.

5.2 分析結果

3.4にあるデータのそれぞれにどのような関係があるか, アソシーションルール分析を 用いて調べる. 5.1, 5.2, 5.3はカテゴリ別のデータを使用した分析結果をLift値の 大きい順番に並べ替えたものであり, 以下でそれぞれに対し考察を行う.

4.1 アソシエーションルール分析によるデータ項目の内容

項目 内容

前提 前提となる条件 結論 結論となる条件

信頼度 前提条件が発生しているうち, どのくらい結論条件も発生しているかという 割合を示す指標。

サポート値 全体のうち, どのくらい前提条件と結論条件が同時に発生しているかという 割合を示す指標

Lift 結論の独立性を見るための指標 ルール数 前提=>結論となっているルールの数 前提数 前提の数

結論数 結論の数 キー数 全体の総数

(25)

22

5.2 事故の重さと年代

番号 前提 結論 信頼度 サポート lift ルール 前提数 結論数 キー数 1 年-2 重さ-10 0.61 0.18 2.09 34 5601 58 19878 2 重さ-10 年子-2 58.63 0.18 2.09 34 58 5601 19878 3 年-2 重さ-1 14.47 4.08 1.44 810 5601 2008 19878 4 重さ-1 年-2 40.34 4.08 1.44 810 2008 5601 19878 5 重さ-5 年-3 10.58 9.48 1.03 1884 17812 2058 19878 6 年-3 重さ-5 91.55 9.48 1.03 1884 2058 17812 19878 7 重さ-5 年-1 62.72 56.2 1.03 11171 17812 12219 19878 8 年-1 重さ-5 91.43 56.2 1.03 11171 12219 17812 19878 9 重さ-5 年-2 26.71 23.94 0.95 4757 17812 5601 19878 10 年-2 重さ-5 84.94 23.94 0.95 4757 5601 17812 19878 11 年-3 重さ-1 8.41 0.88 0.84 173 2058 2008 19878 12 重さ-1 年-3 8.62 0.88 0.84 173 2008 2058 19878 13 年-1 重さ-1 8.39 5.16 0.84 1025 12219 2008 19878 14 重さ-1 年-1 51.05 5.16 0.84 1025 2008 12219 19878 15 年-1 重さ-10 0.19 0.12 0.65 23 12219 58 19878 16 重さ-10 年-1 39.66 0.12 0.65 23 58 12219 19878 17 年-3 重さ-10 0.05 0.01 0.17 1 2058 58 19878 18 重さ-10 年-3 1.73 0.01 0.17 1 58 2058 19878

(26)

23

5.3 時間帯と事故の重さ

番号 前提 結論 信頼度 サポート lift ルール 前提数 結論数 キー数 1 時間帯-1 重さ-10 0.87 0.02 2.96 3 348 58 19878 2 重さ-10 時間帯-1 5.18 0.02 2.96 3 58 348 19878 3 重さ-1 時間帯-1 2.69 0.28 1.54 54 2008 348 19878 4 時間帯-1 重さ-1 15.52 0.28 1.54 54 348 2008 19878 5 時間帯-3 重さ-10 0.36 0.14 1.22 27 7640 58 19878 6 重さ-10 時間帯-3 46.56 0.14 1.22 27 58 7640 19878 7 時間帯-3 重さ-1 10.5 4.04 1.04 802 7640 2008 19878 8 重さ-1 時間帯-3 39.95 4.04 1.04 802 2008 7640 19878 9 重さ-5 時間帯-2 41.66 37.33 1.01 7420 17812 8224 19878 10 時間帯-2 重さ-5 90.23 37.33 1.01 7420 8224 17812 19878 11 時間帯-4 重さ-1 10.13 1.87 1.01 371 3666 2008 19878 12 重さ-1 時間帯-4 18.48 1.87 1.01 371 2008 3666 19878 13 重さ-5 時間帯-4 18.48 16.56 1.01 3290 17812 3666 19878 14 時間帯-4 重さ-5 89.75 16.56 1.01 3290 3666 17812 19878 15 重さ-5 時間帯-3 38.24 34.27 1 6811 17812 7640 19878 16 時間帯-3 重さ-5 89.15 34.27 1 6811 7640 17812 19878 17 時間帯-2 重さ-10 0.28 0.12 0.96 23 8224 58 19878 18 重さ-10 時間帯-2 39.66 0.12 0.96 23 58 8224 19878 19 時間帯-2 重さ-1 9.5 3.93 0.95 781 8224 2008 19878 20 重さ-1 時間帯-2 38.9 3.93 0.95 781 2008 8224 19878 21 重さ-5 時間帯-1 1.64 1.47 0.94 291 17812 348 19878 22 時間帯-1 重さ-5 83.63 1.47 0.94 291 348 17812 19878 23 時間帯-4 重さ-10 0.14 0.03 0.47 5 3666 58 19878 24 重さ-10 時間帯-4 8.63 0.03 0.47 5 58 3666 19878

(27)

24

5.4 相手車両と年代

番号 前提 結論 信頼度 サポート lift ルール 前提数 結論数 キー数 1 年-3 相手車両-4 3.26 0.34 1.74 67 2058 373 19878 2 相手車両-4 年-3 17.97 0.34 1.74 67 373 2058 19878 3 年-3 相手車両-5 12.3 1.28 1.55 253 2058 1578 19878 4 相手車両-5 年-3 16.04 1.28 1.55 253 1578 2058 19878 5 年-2 相手車両-4 2.17 0.61 1.16 121 5601 373 19878 6 相手車両-4 年-2 32.44 0.61 1.16 121 373 5601 19878 7 年-3 相手車両-3 3.99 0.42 1.08 82 2058 735 19878 8 相手車両-3 年-3 11.16 0.42 1.08 82 735 2058 19878 9 年-1 相手車両-2 6.18 3.8 1.06 755 12219 1160 19878 10 相手車両-2 年-1 65.09 3.8 1.06 755 1160 12219 19878 11 年-1 相手車両-5 8.41 5.17 1.06 1027 12219 1578 19878 12 相手車両-5 年-1 65.09 5.17 1.06 1027 1578 12219 19878 13 相手車両-1 年-2 29.14 23.5 1.04 4671 16032 5601 19878 14 年-2 相手車両-1 83.4 23.5 1.04 4671 5601 16032 19878 15 年-2 相手車両-3 3.83 1.08 1.04 214 5601 735 19878 16 相手車両-3 年-2 29.12 1.08 1.04 214 735 5601 19878 17 相手車両-1 年-1 61.21 49.37 1 9813 16032 12219 19878 18 年-1 相手車両-1 80.31 49.37 1 9813 12219 16032 19878 19 年-1 相手車両-3 3.6 2.21 0.98 439 12219 735 19878 20 相手車両-3 年-1 59.73 2.21 0.98 439 735 12219 19878 21 相手車両-1 年-3 9.66 7.79 0.94 1548 16032 2058 19878 22 年-3 相手車両-1 75.22 7.79 0.94 1548 2058 16032 19878 23 年-2 相手車両-2 5.31 1.5 0.91 297 5601 1160 19878 24 相手車両-2 年-2 25.61 1.5 0.91 297 1160 5601 19878 25 年-3 相手車両-2 5.25 0.55 0.9 108 2058 1160 19878 26 相手車両-2 年-3 9.32 0.55 0.9 108 1160 2058 19878 27 年-1 相手車両-4 1.52 0.94 0.81 185 12219 373 19878 28 相手車両-4 年-1 49.6 0.94 0.81 185 373 12219 19878 29 年-2 相手車両-5 5.33 1.5 0.68 298 5601 1578 19878 30 相手車両-5 年-2 18.89 1.5 0.68 298 1578 5601 19878

Updating...

関連した話題 :

Scan and read on 1LIB APP