• 検索結果がありません。

Rを用いた空間データの構造分析と集積性の検出

N/A
N/A
Protected

Academic year: 2021

シェア "Rを用いた空間データの構造分析と集積性の検出"

Copied!
43
0
0

読み込み中.... (全文を見る)

全文

(1)

Rを用いた空間データの構造分析

と集積性の検出

石岡文生 ・ 梶西将司

(岡山大学)

(2)

目次

1. 空間データについて

2. SMR と EBSMR を利用した視覚化

3. 空間集積性の検出

4. エシェロンスキャン法

5. R shiny によるアプリケーション化

(3)

目次

1. 空間データについて

2. SMR と EBSMR を利用した視覚化

3. 空間集積性の検出

4. エシェロンスキャン法

5. R shiny によるアプリケーション化

(4)

空間データ

地理的な位置情報をもつデータ

「位置」+「属性」 をもつデータ

空間データ解析

位置情報が関与するデータに対し, その空間的な情報を利用した解析.

• 発生地点や現状の把握

• 地域差は存在するか?

• 距離が 近い or 遠い ことが原因で生じる特徴の変化(空間的自己相関 など)

• 空間補間 (地球統計学, クリキング など)

• 予測モデル (空間計量経済モデル など)

インフルエンザの流行状況

空間線量率のホットスポット

不動産価格の予測

(5)

地理統計データ(Geostatistical data) - 領域 𝐷 は連続で固定された集合. - 固定された位置で観測された値. 例:測定所で記録された降雨量. 放射性物質のモニタリングポストデータ. 空間点パターン(Point Patterns) - 領域 𝐷 自体がランダム. - 位置自体に興味ある. 例:犯罪の密度分布. 震源地の位置. 格子データ(Lattice data) - 領域 𝐷 は固定されたいくつかの離散的なサブ領域. - 領域は規則的または不規則的に配置される. - それぞれの領域に与えられた隣接情報が利用できる. 規則的な領域例:リモートセンシングデータ. 不規則な領域例:州ごとの疾病発生率. ボ ロ ノ イ 分 割

空間データの種類

(Cressie, 1993)

(6)

Snowの地図(1854)

当時のロンドンではコレラは発見さ れておらず, 原因不明で多くの死者 が出た. (当時は空気感染説が優勢) ある井戸の周辺に患者が集中 していることを発見! (出典) 「疫学」『フリー百科事典 ウィキペディア日本語版』(http://ja.wikipedia.org/) 2017年11月25日10時(日本時間)現在での最新版を取得。

(7)

目次

1. 空間データについて

2. SMR と EBSMR を利用した視覚化

3. 空間集積性の検出

4. エシェロンスキャン法

5. R shiny によるアプリケーション化

(8)

空間データの視覚化

対象地域 𝐆 は, 𝑚 個の領域に分割されているものとする (

格子データ

).

領域 𝑖 の観測数 𝑜

𝑖

は, ポアソン分布に基づく確率変数 𝑂

𝑖

の実現値とする.

𝑂

𝑖

~ 𝑃𝑜 𝑒

𝑖

𝑖 = 1,2, … , 𝑚

𝑒

𝑖

は, 領域 𝑖 の人口, 性別, 年齢などの交絡因子を調整した期待数.

(例) 𝑘 年齢階級を調整した期待数 𝑒

𝑖

𝑒

𝑖

= ෍

𝑘=1 𝐾

𝑛

𝑖𝑘

𝑃

𝑘 𝑛𝑖𝑘 … 𝑖 地域, 𝑘 年齢階級の人口 𝑃𝑘 … 𝑘 年齢階級の死亡率

(9)

(例) 2012年 男性自殺者数

(住居地情報ベース)

のSMR

𝑜𝑖: 𝑖 地域自殺者数 𝑒𝑖: 𝑖 地域の期待自殺死亡数

𝑆𝑀𝑅

𝑖

=

𝑜

𝑖

𝑒

𝑖

𝑖 = 1,2, … , 𝑚

標準化死亡比(SMR)

7つの年齢階級(-20, 20-30, 30-40, …, 70-) 𝑚 = 1893 厚生労働省「自殺対策:人口動態統計に基づく自殺者数」 (http://www.mhlw.go.jp/stf/seisakunitsuite/bunya/hukushi_kaigo/shougaishahukushi/jisatsu/) 総務省「住民基本台帳に基づく年齢別人口」 (http://www.soumu.go.jp/menu_news/s-news/) (データの出典)

(10)

(例) 2012年 男性自殺者数

(住居地情報ベース)

のSMR

𝑜𝑖: 𝑖 地域自殺者数 𝑒𝑖: 𝑖 地域の期待自殺死亡数 7つの年齢階級(-20, 20-30, 30-40, …, 70-) 𝑚 = 1893 厚生労働省「自殺対策:人口動態統計に基づく自殺者数」 (http://www.mhlw.go.jp/stf/seisakunitsuite/bunya/hukushi_kaigo/shougaishahukushi/jisatsu/) 総務省「住民基本台帳に基づく年齢別人口」 (http://www.soumu.go.jp/menu_news/s-news/) (データの出典)

𝑆𝑀𝑅

𝑖

=

𝑜

𝑖

𝐸

𝑖

𝑖 = 1,2, … , 𝑚

標準化死亡比(SMR)

SMRのバラツキ SM R

(11)

SMRのベイズ推定量

E

mpirical

B

ayes Estimator of

SMR

小地域の死亡率推定に特有な

不安定性を緩和した

死亡率推定.

𝑖 地域のSMRを未知の母数 𝜃

𝑖

とすると,

観測数 𝑜𝑖 にはポアソン分布を仮定

𝑓 𝑜

𝑖

𝜃

𝑖

, 𝑒

𝑖

=

𝜃

𝑖

𝑒

𝑖 𝑜𝑖

exp −𝜃

𝑖

𝑒

𝑖

𝑜

𝑖

!

𝜃 の事前分布には母数 𝛼, 𝛽 のガンマ分布を選択

𝑔 𝜃 𝛼, 𝛽 =

𝛼

𝛽

Γ 𝛽

𝜃

𝛽−1

exp −𝛼𝜃

𝐸 𝜃 = 𝛽 𝛼, 𝑉 𝜃 = 𝛽 𝛼2 ベイズの定理より 𝜃 の事後分布は, ℎ 𝜃𝑖 𝑒𝑖, 𝑜𝑖, 𝛼, 𝛽 = 𝑔 𝜃𝑖 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃𝑖, 𝑒𝑖) ׬0∞𝑔 𝜃 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃, 𝑒𝑖) 𝑑𝜃

(12)

ℎ 𝜃𝑖 𝑒𝑖, 𝑜𝑖, 𝛼, 𝛽 = 𝑔 𝜃𝑖 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃𝑖, 𝑒𝑖) ׬0∞𝑔 𝜃 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃, 𝑒𝑖) 𝑑𝜃 の分母(周辺尤度)は, න 0 ∞ 𝑔 𝜃 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃, 𝑒𝑖) 𝑑𝜃 = න 0 ∞ 𝛼𝛽 Γ 𝛽 𝜃 𝛽−1 exp −𝛼𝜃 𝜃𝑒𝑖 𝑜𝑖 exp −𝜃𝑒𝑖 𝑜𝑖! 𝑑𝜃 = Γ 𝛽 + 𝑜𝑖 Γ 𝛽 𝑜𝑖! 𝛼 𝛼 + 𝑒𝑖 𝛽 𝑒𝑖 𝛼 + 𝑒𝑖 𝑜𝑖 よって, 𝜃𝑖 の事後分布

ℎ 𝜃

𝑖

𝑒

𝑖

, 𝑜

𝑖

, 𝛼, 𝛽 =

𝛼

𝛽

Γ 𝛽

𝜃

𝛽−1

exp −𝛼𝜃

𝜃𝑒

𝑖 𝑜𝑖

exp −𝜃𝑒

𝑖

𝑜

𝑖

!

Γ 𝛽 + 𝑜

𝑖

Γ 𝛽 𝑜

𝑖

!

𝛼

𝛼 + 𝑒

𝑖 𝛽

𝑒

𝑖

𝛼 + 𝑒

𝑖 𝑜𝑖 = 𝛼 + 𝑒𝑖 𝛽+𝑜𝑖 Γ 𝛽 + 𝑜𝑖 𝜃 𝛽+𝑜𝑖−1 exp − 𝛼 + 𝑒 𝑖 𝜃

(13)

ℎ 𝜃𝑖 𝑒𝑖, 𝑜𝑖, 𝛼, 𝛽 = 𝛼 + 𝑒𝑖 𝛽+𝑜𝑖 Γ 𝛽 + 𝑜𝑖 𝜃 𝛽+𝑜𝑖−1 exp − 𝛼 + 𝑒 𝑖 𝜃 は, 母数 𝛼 + 𝑒𝑖, 𝛽 + 𝑜𝑖 のガンマ分布. ガンマ分布 𝑔 𝜃 𝛼, 𝛽 = 𝛼𝛽 Γ 𝛽 𝜃 𝛽−1 exp −𝛼𝜃 の期待値は 𝐸 𝜃 = 𝛽 𝛼 より, 𝜃𝑖 の事後分布

𝐸 𝜃

𝑖

=

𝛽 + 𝑜

𝑖

𝛼 + 𝑒

𝑖

= መ

𝜃

𝑖 መ 𝜃 を 𝑖 地域のSMRの経験ベイズ推定値 (EBSMR) とする. መ 𝜃𝑖 = 𝛽 + 𝑜𝑖 𝛼 + 𝑒𝑖 の 𝛼, 𝛽 は, 周辺尤度の最尤推定量を利用. 𝜃𝑖 の事後分布 ℎ 𝜃𝑖 𝑒𝑖, 𝑜𝑖, 𝛼, 𝛽 の期待値は

(14)

𝐿 𝛼, 𝛽 = ෑ 𝑖=1 𝑚 න 0 ∞ 𝑔 𝜃 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃, 𝑒𝑖) 𝑑𝜃 = ෑ 𝑖=1 𝑚 Γ 𝛽 + 𝑜𝑖 Γ 𝛽 𝑜𝑖! 𝛼 𝛼 + 𝑒𝑖 𝛽 𝑒𝑖 𝛼 + 𝑒𝑖 𝑜𝑖 log 𝐿 𝛼, 𝛽 = 𝑙 𝛼, 𝛽 = ෍ 𝑖=1 𝑚 ෍ 𝑠=0 𝑜𝑖−1 log 𝛽 + 𝑠 + 𝑚𝛽 log 𝛼 − 𝛽 ෍ 𝑖=1 𝑚 log 𝛼 + 𝑒𝑖 + ෍ 𝑖=1 𝑚 𝑜𝑖 log 𝑒𝑖 − 𝑜𝑖 log 𝛼 + 𝑒𝑖 𝜕𝑙 𝜕𝛼 = 𝜕𝑙 𝜕𝛽 = 0 の尤度方程式をNewton-Raphson法を利用して求める. ො 𝛼 መ 𝛽 𝑘+1 = ො 𝛼 መ 𝛽 𝑘 − 𝜕2𝑙 𝜕𝛼2 𝜕2𝑙 𝜕𝛼𝜕𝛽 𝜕2𝑙 𝜕𝛼𝜕𝛽 𝜕2𝑙 𝜕𝛽2 𝑘 −1 𝜕2𝑙 𝜕𝛼 𝜕2𝑙 𝜕𝛽 𝑘 ここで ො𝛼, ෠𝛽 の初期値には 𝐸 𝜃 = 𝛽 𝛼, 𝑉𝑎𝑟 𝜃 = 𝛽 𝛼2 より, ො𝛼0 = 𝑚𝑒𝑎𝑛(𝑆𝑀𝑅𝑖) 𝑣𝑎𝑟 𝑆𝑀𝑅𝑖 , 𝛽෠0 = 𝑚𝑒𝑎𝑛 𝑆𝑀𝑅𝑖 2 𝑣𝑎𝑟 𝑆𝑀𝑅𝑖

(15)

SMR と EBSMR

𝐸𝐵𝑆𝑀𝑅

𝑖

=

𝛼 + 𝑜

𝑖

𝛽 + 𝑒

𝑖

𝑆𝑀𝑅

𝑖

=

𝑜

𝑖

𝑒

𝑖

(例) 2012年 男性自殺者数

(住居地情報ベース) 𝑜𝑖: 𝑖 地域自殺者数 𝑒𝑖: 𝑖 地域の期待自殺死亡数 7年齢階級(-20, 20-30, 30-40, …, 70-) 𝑚 = 1893 ( ො𝛼 = 0.788, መ𝛽 = 0.733)

(16)

(例) 2012年 男性自殺者数

(住居地情報ベース) 𝑜𝑖: 𝑖 地域自殺者数 𝑒𝑖: 𝑖 地域の期待自殺死亡数 7年齢階級(-20, 20-30, 30-40, …, 70-) 𝑚 = 1893

SMR と EBSMR

𝐸𝐵𝑆𝑀𝑅

𝑖

=

𝛼 + 𝑜

𝑖

𝛽 + 𝑒

𝑖

𝑆𝑀𝑅

𝑖

=

𝑜

𝑖

𝑒

𝑖 SMRのバラツキ 人口(log10SM R 人口(log10) EBSMRのバラツキ EB SM R ・人口多→ 期待死亡数 𝑒𝑖→ SMR(𝑜𝑖 𝑒𝑖 ) に近づく. ・人口少→ 期待死亡数 𝑒𝑖→ 地域全体の平均( 𝛽෡ ෝ 𝛼 )に近づく. 𝐸𝐵𝑆𝑀𝑅𝑖 = 𝛽 + 𝑜෠ 𝑖 ො 𝛼 + 𝑒𝑖 = 𝑒𝑖 ො 𝛼 + 𝑒𝑖 𝑜𝑖 𝑒𝑖 + ො 𝛼 ො 𝛼 + 𝑒𝑖 ෠ 𝛽 ො 𝛼

(17)

目次

1. 空間データについて

2. SMR と EBSMR を利用した視覚化

3. 空間集積性の検出

4. エシェロンスキャン法

5. R shiny によるアプリケーション化

(18)

空間疫学 と 疾病地図

空間データに対し, 統計的に有意な地域集積性(Spatial cluster,

クラスター

, ホッ

トスポット)が存在するかどうかの評価.

特に

空間疫学

の分野においては, 疾病の集積性の視覚化や検定は重要な問題.

空間疫学

… 疾病地図に現れる空間的な規則性や関連性を解析する試み.

疾病地図

… 疾病の発生状況などを地図上に視覚的に描いたもの.

疾病の発生地点を空間的に捉え, 地域全体の状況を把握する.

(19)

疾病地図からクラスターが存在していると言えるか?

空間情報(近い or 遠い, 隣接 or 非隣接 など)を利用していない.

𝐸𝐵𝑆𝑀𝑅

𝑖

=

𝛼 + 𝑜

𝑖

𝛽 + 𝑒

𝑖

𝑆𝑀𝑅

𝑖

=

𝑜

𝑖

𝑒

𝑖 ( ො𝛼 = 0.788, መ𝛽 = 0.733)

(20)

空間スキャン検定

Kulldorff(1997)によって提唱された

尤度比に基づく統計量

を用いる検定法.

ウィンドウ

𝐙

… クラスター候補となる1つ以上の連結した地域の集合. 𝐙 ⊂ 𝐆

𝐙 は 𝐆 の部分集合であると同時に, ウィンドウの形状を与えるパラメータ.

𝐙 内において, あるイベントが発生する確率を 𝑝

𝐙

𝐙 外において, あるイベントが発生する確率を 𝑝

𝐙c

としたとき,

𝐻

0

∶ 𝑝

𝐙

= 𝑝

𝐙

c

= 𝑝

for all 𝐙

𝐻

1

∶ 𝑝

𝐙

> 𝑝

𝐙

c

for

𝐙 ⊂ 𝐆

(21)

ポアソン分布に基づいた尤度比統計量

𝐿𝑅 𝐙, 𝑝

𝐙

, 𝑝

𝐙c

, 𝑝 =

the likelihood under 𝐻

1

the likelihood under 𝐻

0

=

exp − σ

𝑖∈𝐙

𝑛

𝑖

𝑝

𝐳

ς

𝑖∈𝐙

𝑛

𝑖

𝑝

𝐳 𝑜𝑖

ς

𝑖∈𝐙

𝑜

𝑖

!

× exp − σ

𝑖∉𝐙

𝑛

𝑖

𝑝

𝐳c

ς

𝑖∉𝐙

𝑛

𝑖

𝑝

𝐳c 𝑜𝑖

ς

𝑖∉𝐙

𝑜

𝑖

!

exp − σ

𝑖=1𝑚

𝑛

𝑖

𝑝

ς

𝑖=1 𝑚

𝑛

𝑖

𝑝

𝑜𝑖

ς

𝑖=1𝑚

𝑜

𝑖

!

=

exp − σ

𝑖∈𝐙

𝑛

𝑖

𝑝

𝐳

− σ

𝑖∉𝐙

𝑛

𝑖

𝑝

𝐳c

× 𝑝

𝐳 𝑜 𝐙

× 𝑝

𝐳𝑜 𝐙c c

exp − σ

𝑖=1𝑚

𝑛

𝑖

𝑝 × 𝑝

𝑜 𝐆

ここに, 𝑜 𝐙 = σ

𝑖∈𝐙

𝑜

𝑖

, 𝑜 𝐙

c

= σ

𝑖∉𝐙

𝑜

𝑖

, 𝑜 𝐆 = σ

𝑖=1𝑚

𝑜

𝑖

.

期待値 𝑒𝑖 = 𝑛𝑖𝑝 のポアソン分布を利用して, 帰無仮説と対立仮説の下での尤度比 (Likelihood Ratio; 𝐿𝑅)は, 以下で与えられる.

(22)

𝐿𝑅 𝐙, 𝑝

𝐙

, 𝑝

𝐙c

, 𝑝 =

exp − σ𝑖∈𝐙𝑛𝑖𝑝𝐳−σ𝑖∉𝐙𝑛𝑖𝑝𝐳c ×𝑝𝐳𝑜 𝐙 ×𝑝 𝐳c 𝑜 𝐙c exp − σ𝑖=1𝑚 𝑛𝑖𝑝 ×𝑝𝑜 𝐆

に対し,

ො 𝑝𝐙 = σ𝑖∈𝐙𝑜𝑖 σ𝑖∈𝐙𝑛𝑖 = 𝑜 𝐙 𝑛 𝐙 , 𝑝ො𝐙c = σ𝑖∉𝐙𝑜𝑖 σ𝑖∉𝐙𝑛𝑖 = 𝑜 𝐙c 𝑛 𝐙c , 𝑝 =ො σ𝑖=1𝑚 𝑜𝑖 σ𝑖=1𝑚 𝑛𝑖 = 𝑜 𝐙 + 𝑜 𝐙c 𝑛 𝐙 + 𝑛 𝐙c = 𝑜 𝐆 𝑛 𝐆

𝐿𝑅 𝐙 =

𝑜 𝐙

𝑛 𝐙

𝑜 𝐙

𝑜 𝐙

c

𝑛 𝐙

c 𝑜 𝐙c

𝑜 𝐆

𝑛 𝐆

𝑜 𝐆

𝐼

𝑜 𝐙

𝑛 𝐙

>

𝑜 𝐙

c

𝑛 𝐙

c

を代入することにより最大尤度関数 𝐿𝑅 𝐙 を得る.

𝑝

𝐙

> 𝑝

𝐙c ここに, 𝐻1を想定しているため, 指示関数 𝐼 𝑜 𝐙 𝑛 𝐙 > 𝑜 𝐙c 𝑛 𝐙c とする.

コールドスポット(Low Rate Cluster)を検出する際には 𝐼 𝑜 𝐙

𝑛 𝐙 < 𝑜 𝐙c

(23)

さらに, 尤度関数 𝐿𝑅 は次のように変換できる.

𝐿𝑅 𝐙 = 𝑜 𝐙 𝑛 𝐙 𝑜 𝐙 𝑜 𝐙c 𝑛 𝐙c 𝑜 𝐙c 𝑜 𝐆 𝑛 𝐆 𝑜 𝐆 𝐼 𝑜 𝐙 𝑛 𝐙 > 𝑜 𝐙c 𝑛 𝐙c = 𝑜 𝐙 𝑛 𝐙 𝑜 𝐙 𝑜 𝐙c 𝑛 𝐙c 𝑜 𝐙c 𝑜 𝐆 𝑛 𝐆 𝑜 𝐙 𝑜 𝐆 𝑛 𝐆 𝑜 𝐙c 𝐼 𝑜 𝐙 𝑛 𝐙 > 𝑜 𝐙c 𝑛 𝐙c

ここで,

𝑒 𝐙 = 𝑛 𝐙 ∙ 𝑜 𝐆 𝑛 𝐆 , 𝑒 𝐙 c = 𝑛 𝐙c 𝑜 𝐆 𝑛 𝐆

を代入すると

𝐿𝑅 𝐙 = 𝑜 𝐙 𝑛 𝐙 𝑜 𝐙 𝑜 𝐙c 𝑛 𝐙c 𝑜 𝐙c 𝑒 𝐙 𝑛 𝐙 𝑜 𝐙 𝑒 𝐙c 𝑛 𝐙c 𝑜 𝐙c 𝐼 𝑜 𝐙 𝑒 𝐙 > 𝑜 𝐙c 𝑒 𝐙c = 𝑜 𝐙 𝑒 𝐙 𝑜 𝐙 𝑜 𝐙c 𝐸 𝐙c 𝑜 𝐙c 𝐼 𝑜 𝐙 𝑒 𝐙 > 𝑜 𝐆 − 𝑜 𝐙 𝑜 𝐆 − 𝑒 𝐙 = 𝑜 𝐙 𝑒 𝐙 𝑜 𝐙 𝑜 𝐙c 𝑒 𝐙c 𝑜 𝐙c 𝐼 𝑜 𝐙 > 𝑒 𝐙

∵ 𝑒 𝐆 = 𝑜 𝐆

(24)

𝐿𝑅 は一般に(Kulldorffの)

空間スキャン統計量

と呼ばれる.

計算コストを下げるため, 通常は 𝐿𝑅 の対数をとったものを利用(Log Likelihood

ratio;

𝐿𝐿𝑅

)を利用.

𝐿𝐿𝑅 を最大にするウィンドウ 𝐙 を,

「集積性が認められる領域群(Most Likely Cluster; MLC)」

とみなす.

𝐿𝑅 𝐙 =

𝑜 𝐙

𝑒 𝐙

𝑜 𝐙

𝑜 𝐙

c

𝑒 𝐙

c 𝑜 𝐙c

𝐼 𝑜 𝐙 > 𝑒 𝐙

・ ベルヌーイモデル

(Kulldorff and Nagarwalla, 1995)

・ 順序尺度変数モデル (Jung et al., 2007) ・ 指数モデル (Huang et el., 2007) ・ 多変量モデル (Kulldorff et al., 2007) ・ 正規モデル

(Kulldorff et al., 2009; Huang et el., 2009)

・ 多項モデル

(Jung et al., 2010)

(25)

領域のスキャン

地域の数が極端に少ない場合を除き, 一般的に

統計量が高くなるウィンドウ 𝐙

を決定する

ことは数が膨大すぎて現実的に不可能.

Kulldorff(1997)は, 同心円状にウィンドウ 𝐙 を探索方法を提唱(

Circular scan

).

各領域内部の点(重心の緯度・経度など)間の距離を利用.

MLCにおける 𝐿𝐿𝑅 の有意性の評価には,

モンテカルロ検定

を利用.

Circulr scanのためのRパッケージ:

SpatialEpi

入手先:CRAN

(26)

Circular scan による 2012年市区町村 男性自殺のクラスター

1

2

Histgram of 9,999 𝐿𝐿𝑅 for generated data under 𝐻0

𝑅𝑎𝑛𝑘 23.081 = 1 9,999 + 1 総人口数の5%に達するまでスキャン(円を拡張) 地域数 自殺者数 𝑜 𝐙 SMR 𝑜(𝐙)/𝑒 𝐙 𝐿𝐿𝑅 𝐙 𝑝

Most likely cluster: 1 173 1159 1.222 23.081 0.001

Secondary cluster: 2 38 257 1.522 20.016 0.001

(27)

スキャン手法

Kulldorff の Circular scan は, 簡便であるが円状のクラスターしか同定できない.

以下の例で, 𝐿𝐿𝑅 𝐀 > 𝐿𝐿𝑅 𝐂 , 𝐿𝐿𝑅 𝐁 > 𝐿𝐿𝑅 𝐂 だったとしても…

Echelon scan

(栗原, 2003)

Upper Level set (ULS) scan

(Patil and Taillie, 2004)

Similated annealing scan

(Duczmal and Assunção, 2004)

Flexible scan

(Tango and Takahashi, 2005)

Elliptic scan

(Kulldorff et al., 2006) … etc

非円形のクラスターを同定するスキャン手法

𝐀

𝐁

𝐂

(28)

目次

1. 空間データについて

2. SMR と EBSMR を利用した視覚化

3. 空間集積性の検出

4. エシェロンスキャン法

5. R shiny によるアプリケーション化

(29)

1次元空間データのエシェロン解析

𝑘 個の区間に分けられた1次元の格子データ.

水平位置 𝑖 とデータの高度 ℎ 𝑖 で与えられる.

1-dimensional spatial lattice data (𝑘=25)

Usual cluster analysis …

1 … A W Y 2 … B J V X 3 … C E I K U 4 … D F H L T 5 … G M O S 6 … N P R 7 … Q

この分類では空間的な位置情報が利用されていない.

位置情報を利用した空間データの分類を考える.

(30)
(31)

エシェロンデンドログラム

エシェロンデンドログラム j G(j) 1 Q, P, R 2 N 3 G, F, H 4 D 5 X 6 M, O, S, L, T, K, U 7 C, E, I 8 B, J, Y 9 A, W, Y 各エシェロンに分類された領域の集合 ピーク ファウン デーション

(32)

2次元空間データのエシェロン解析

Lattice data エシェロンへの分割 エシェロンデンドログラム Peaks ={A,C,F,H,J,K} Foundations={B, D,E,G,I}

各地域間に

隣接情報

を与えることで, エシェロンデンドログラムの作成が可能.

地域の境界が接しているか否か, ドロネー三角網, 𝑘-近隣法, 一定の距離内隣接 … など

(33)

エシェロンスキャン

Latticeデータ エシェロンデンドログラム 上位階層からスキャン クラスターの同定 対応 𝐿𝐿𝑅が最大になったウィンドウ𝐙

Step1.

デンドログラムの上位階層に含まれる領域から順に, 𝐙 に取り込みながらスキャ

ンする.

Step2.

Step1を あらかじめ定めておいた臨界値(𝐙 内の人口数, 𝐙 内の領域数など)に

達するまで行う.

Step3.

𝐙 の全体集合 𝛀

𝐙

の中から,

max

をクラスターの候補とする.

𝐙∈𝛀𝐙

𝐿𝐿𝑅 𝐙

(34)

エシェロンスキャン による 2012年市区町村 男性自殺のクラスター

ℎ-Value : SMR 隣接情報:境界が接しているか否か スキャン: 総人口数の5%に達するまで SM R 2012年市区町村 男性自殺 エシェロンデンドログラム

1

𝐿𝐿𝑅 𝐙1 = 61.573

2

𝐿𝐿𝑅 𝐙2 = 41.998

(35)

対応

1

2

(※)比較のため, circular法で求めた9999個のモンテカルロ標本を利用 地域数 自殺者数 𝑜 𝐙 SMR 𝑜(𝐙)/𝑒 𝐙 𝐿𝐿𝑅 𝐙 𝑝(※)

Most likely cluster: 1 99 881 1.478 61.573 0.001

(36)

比較

地域数 SMR 𝐿𝐿𝑅 𝐙

Most likely cluster: 1 99 1.478 61.573

Secondary clusters: 2 65 1.455 41.998

エシェロン法に基づくクラスター

1

2

地域数 SMR 𝐿𝐿𝑅 𝐙

Most likely cluster: 1 173 1.222 23.081

Secondary clusters: 2 38 1.522 20.016

1

2

(37)

目次

1. 空間データについて

2. SMR と EBSMR を利用した視覚化

3. 空間集積性の検出

4. エシェロンスキャン法

5. R shiny によるアプリケーション化

(38)

shiny

RにおいてインタラクティブなWebアプリケーションを作成するパッケージ

• JavaScriptを必要としないわずか数行のコードでWebアプリケーションを構築できる. • エクセルのようなスプレッドシートの表を動的に描画できる.

• UIはすべてRで構築でき, またHTML, CSS, JavaScriptによってより柔軟に構築できる. • Rの統合開発環境を利用できる.(Console R, Rgui for Windows or Mac, Rstudio など) • スライダーやボタンなどのインプット, 図表などアウトプットを表示するためのウィジェッ

(39)

作成したアプリケーション

本報告で紹介した一連の解析を動的に行うためのアプリケーションを開発

• 市区町村別に集約された 「①観測数」, 「②人口数」 をデータとして読み込む. • データは任意の年齢階級別に分けられていてもよい. • SMR と EBSMR を算出し, 結果を地図上に描画. • Circularスキャン法によるクラスター検出, ならびに結果を地図上に描画. • エシェロンスキャン法によるクラスター検出, ならびに結果を地図上に描画. • クラスター検出に関係する各種パラメータ, およびデンドログラムを動的に操作可能.

(40)

leaflet

htmlでインタラクティブな地図を作成できる

• JavaScriptのオープンソースライブラリである 「leaflet.js」 をRでも利用できるようにした パッケージ. • 様々な地図タイル, マーカー, ポップアップなど, 多くのプラグインを備える. id lng lat 1 135.4592 35.15953 2 134.9367 35.58189 3 135.2881 35.55548 4 134.7364 35.09286 5 135.6057 34.81867 shpファイルから取得 したポリゴン情報 ポリゴンで表示

(41)

利用した既存のRパッケージ

• shiny • leaflet • spsurvey • maptols • maps • spdep 隣接情報の作成. • classInt 階級区分図における各種の階級分け. • plotrix 図の体裁の調整. • DBI 文字コードの変換. • SpatialEpi Circularスキャン法 と モンテカルロ検定. • DT 解析結果をインタラクティブなテーブルで表示. 地図データの処理(shpファイルの読み込み・加工・座標抽出など).

(42)

アプリケーション 課題

公開に向けて

• 市区町村の合併・名称変更に対応した地域ポリゴン情報の収集方法の工夫.

• 安定した動作.

• EMSMRの算出コード(Newton-Raphson法)の工夫.

• leaflet による描画の速度.

今回用いたPCのスペック

CPU : Intel® Core™ i5 M480 @ 2.67GHz 2.67GHz メモリ: 8.00GB

OS : 64bit windows 8.1 Pro

(43)

参考文献

• Duczmal L and Assunção RA. A simulated annealing strategy for the detection of arbitrarily shaped spatial clusters. Computational Statistics and Data Analysis, 2004; 45:269-286.

• Huang L, Kulldorff M and Gregorio D. A spatial scan statistic for survival data. Biometrics, 2007; 63:109-118.

• Huang L, Tiwari R, Zuo J, Kulldorff M and Feuer E. Weighted normal spatial scan statistic for heterogeneous population data. Journal of the American Statistical Association, 2009; 104:886-898.

• Jung I, Kulldorff M and Klassen A. A spatial scan statistic for ordinal data. Statistics in Medicine, 2007; 26:1594-1607. • Jung I, Kulldorff M and Richard OJ. A spatial scan statistic for multinomial data. Statistics in Medicine, 2010; 29:1910-1918. • Kulldorff M. A spatial scan statistic. Communications in Statistics: Theory and Methods, 1997; 26:1481-1496.

• Kulldorff M and Nagarwalla N. Spatial disease clusters: Detection and inference. Statistics in Medicine, 1995; 14:799-810. • Kulldorff M, Huang L, Pickle L and Duczmal L. An elliptic spatial scan statistic. Statistics in Medicine, 2006; 25:3929-3943.

• Kulldorff M, Mostashari F, Duczmal L, Yih K, Kleinman K and Platt R. Multivariate spatial scan statistics for disease surveillance. Statistics in Medicine, 2007; 26:1824-1833.

• Kulldorff M, Huang L and Konty K. A scan statistic for continuous data based on the normal probability model. International Journal of Health Geographics, 2009; 8:58.

• 栗原考次. 階層的空間構造を利用したホットスポットの検出. 計算機統計学, 2003; 15:171-183.

• Kurihara K. Classification of geospatial lattice data and their graphical representation. Classification, Clustering, and Data Mining Applications (Edited by Banks D et al.), Springer, 2004; 251-258.

• Myers WL, Patil GP and Joly K. Echelon approach to areas of concern in synoptic regional monitoring. Environmental and Ecological Statistics, 1997; 4:131-152.

• Patil GP and Taillie C. Upper level set scan statistic for detecting arbitrarily shaped hotspots. Environmental and Ecological Statistics, 2004; 11:183-197.

参照

関連したドキュメント

5)

重回帰分析,相関分析の結果を参考に,初期モデル

2000 個, 2500 個, 4000 個, 4653 個)つないだ 8 種類 の時間 Kripke 構造を用いて実験を行った.また,三つ

Background: The purpose of this study was to apply an artificial neural network (ANN) in patients with coronary artery disease (CAD) and to characterize its diagnostic

The conditions required for the method of holding a cantilever chip are as follows: (i) a cantilever chip body has to be firmly clamped so that the chip does not generate

本体背面の拡張 スロッ トカバーを外してください。任意の拡張 スロット

Furthermore, the same techniques are applied to determine the tail probability density function for a ratio statistic, and for a sum with more than two lognormally distributed

One strategy to answering this question is to compare the χ 2 -statistic of the given table with a large number of randomly selected contingency tables with the same