Rを用いた空間データの構造分析
と集積性の検出
石岡文生 ・ 梶西将司
(岡山大学)
目次
1. 空間データについて
2. SMR と EBSMR を利用した視覚化
3. 空間集積性の検出
4. エシェロンスキャン法
5. R shiny によるアプリケーション化
目次
1. 空間データについて
2. SMR と EBSMR を利用した視覚化
3. 空間集積性の検出
4. エシェロンスキャン法
5. R shiny によるアプリケーション化
空間データ
地理的な位置情報をもつデータ
「位置」+「属性」 をもつデータ
空間データ解析
位置情報が関与するデータに対し, その空間的な情報を利用した解析.
• 発生地点や現状の把握
• 地域差は存在するか?
• 距離が 近い or 遠い ことが原因で生じる特徴の変化(空間的自己相関 など)
• 空間補間 (地球統計学, クリキング など)
• 予測モデル (空間計量経済モデル など)
インフルエンザの流行状況
空間線量率のホットスポット
不動産価格の予測
…
地理統計データ(Geostatistical data) - 領域 𝐷 は連続で固定された集合. - 固定された位置で観測された値. 例:測定所で記録された降雨量. 放射性物質のモニタリングポストデータ. 空間点パターン(Point Patterns) - 領域 𝐷 自体がランダム. - 位置自体に興味ある. 例:犯罪の密度分布. 震源地の位置. 格子データ(Lattice data) - 領域 𝐷 は固定されたいくつかの離散的なサブ領域. - 領域は規則的または不規則的に配置される. - それぞれの領域に与えられた隣接情報が利用できる. 規則的な領域例:リモートセンシングデータ. 不規則な領域例:州ごとの疾病発生率. ボ ロ ノ イ 分 割
空間データの種類
(Cressie, 1993)
Snowの地図(1854)
当時のロンドンではコレラは発見さ れておらず, 原因不明で多くの死者 が出た. (当時は空気感染説が優勢) ある井戸の周辺に患者が集中 していることを発見! (出典) 「疫学」『フリー百科事典 ウィキペディア日本語版』(http://ja.wikipedia.org/) 2017年11月25日10時(日本時間)現在での最新版を取得。目次
1. 空間データについて
2. SMR と EBSMR を利用した視覚化
3. 空間集積性の検出
4. エシェロンスキャン法
5. R shiny によるアプリケーション化
空間データの視覚化
対象地域 𝐆 は, 𝑚 個の領域に分割されているものとする (
格子データ
).
領域 𝑖 の観測数 𝑜
𝑖は, ポアソン分布に基づく確率変数 𝑂
𝑖の実現値とする.
𝑂
𝑖~ 𝑃𝑜 𝑒
𝑖𝑖 = 1,2, … , 𝑚
𝑒
𝑖は, 領域 𝑖 の人口, 性別, 年齢などの交絡因子を調整した期待数.
(例) 𝑘 年齢階級を調整した期待数 𝑒
𝑖𝑒
𝑖=
𝑘=1 𝐾𝑛
𝑖𝑘𝑃
𝑘 𝑛𝑖𝑘 … 𝑖 地域, 𝑘 年齢階級の人口 𝑃𝑘 … 𝑘 年齢階級の死亡率(例) 2012年 男性自殺者数
(住居地情報ベース)のSMR
𝑜𝑖: 𝑖 地域自殺者数 𝑒𝑖: 𝑖 地域の期待自殺死亡数𝑆𝑀𝑅
𝑖
=
𝑜
𝑖
𝑒
𝑖
𝑖 = 1,2, … , 𝑚
標準化死亡比(SMR)
7つの年齢階級(-20, 20-30, 30-40, …, 70-) 𝑚 = 1893 厚生労働省「自殺対策:人口動態統計に基づく自殺者数」 (http://www.mhlw.go.jp/stf/seisakunitsuite/bunya/hukushi_kaigo/shougaishahukushi/jisatsu/) 総務省「住民基本台帳に基づく年齢別人口」 (http://www.soumu.go.jp/menu_news/s-news/) (データの出典)(例) 2012年 男性自殺者数
(住居地情報ベース)のSMR
𝑜𝑖: 𝑖 地域自殺者数 𝑒𝑖: 𝑖 地域の期待自殺死亡数 7つの年齢階級(-20, 20-30, 30-40, …, 70-) 𝑚 = 1893 厚生労働省「自殺対策:人口動態統計に基づく自殺者数」 (http://www.mhlw.go.jp/stf/seisakunitsuite/bunya/hukushi_kaigo/shougaishahukushi/jisatsu/) 総務省「住民基本台帳に基づく年齢別人口」 (http://www.soumu.go.jp/menu_news/s-news/) (データの出典)𝑆𝑀𝑅
𝑖
=
𝑜
𝑖
𝐸
𝑖
𝑖 = 1,2, … , 𝑚
標準化死亡比(SMR)
SMRのバラツキ SM RSMRのベイズ推定量
(
E
mpirical
B
ayes Estimator of
SMR
)
小地域の死亡率推定に特有な
不安定性を緩和した
死亡率推定.
𝑖 地域のSMRを未知の母数 𝜃
𝑖とすると,
観測数 𝑜𝑖 にはポアソン分布を仮定𝑓 𝑜
𝑖𝜃
𝑖, 𝑒
𝑖=
𝜃
𝑖𝑒
𝑖 𝑜𝑖exp −𝜃
𝑖𝑒
𝑖𝑜
𝑖!
𝜃 の事前分布には母数 𝛼, 𝛽 のガンマ分布を選択𝑔 𝜃 𝛼, 𝛽 =
𝛼
𝛽Γ 𝛽
𝜃
𝛽−1exp −𝛼𝜃
𝐸 𝜃 = 𝛽 𝛼, 𝑉 𝜃 = 𝛽 𝛼2 ベイズの定理より 𝜃 の事後分布は, ℎ 𝜃𝑖 𝑒𝑖, 𝑜𝑖, 𝛼, 𝛽 = 𝑔 𝜃𝑖 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃𝑖, 𝑒𝑖) 0∞𝑔 𝜃 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃, 𝑒𝑖) 𝑑𝜃ℎ 𝜃𝑖 𝑒𝑖, 𝑜𝑖, 𝛼, 𝛽 = 𝑔 𝜃𝑖 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃𝑖, 𝑒𝑖) 0∞𝑔 𝜃 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃, 𝑒𝑖) 𝑑𝜃 の分母(周辺尤度)は, න 0 ∞ 𝑔 𝜃 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃, 𝑒𝑖) 𝑑𝜃 = න 0 ∞ 𝛼𝛽 Γ 𝛽 𝜃 𝛽−1 exp −𝛼𝜃 𝜃𝑒𝑖 𝑜𝑖 exp −𝜃𝑒𝑖 𝑜𝑖! 𝑑𝜃 = Γ 𝛽 + 𝑜𝑖 Γ 𝛽 𝑜𝑖! 𝛼 𝛼 + 𝑒𝑖 𝛽 𝑒𝑖 𝛼 + 𝑒𝑖 𝑜𝑖 よって, 𝜃𝑖 の事後分布
ℎ 𝜃
𝑖𝑒
𝑖, 𝑜
𝑖, 𝛼, 𝛽 =
𝛼
𝛽Γ 𝛽
𝜃
𝛽−1exp −𝛼𝜃
𝜃𝑒
𝑖 𝑜𝑖exp −𝜃𝑒
𝑖𝑜
𝑖!
Γ 𝛽 + 𝑜
𝑖Γ 𝛽 𝑜
𝑖!
𝛼
𝛼 + 𝑒
𝑖 𝛽𝑒
𝑖𝛼 + 𝑒
𝑖 𝑜𝑖 = 𝛼 + 𝑒𝑖 𝛽+𝑜𝑖 Γ 𝛽 + 𝑜𝑖 𝜃 𝛽+𝑜𝑖−1 exp − 𝛼 + 𝑒 𝑖 𝜃ℎ 𝜃𝑖 𝑒𝑖, 𝑜𝑖, 𝛼, 𝛽 = 𝛼 + 𝑒𝑖 𝛽+𝑜𝑖 Γ 𝛽 + 𝑜𝑖 𝜃 𝛽+𝑜𝑖−1 exp − 𝛼 + 𝑒 𝑖 𝜃 は, 母数 𝛼 + 𝑒𝑖, 𝛽 + 𝑜𝑖 のガンマ分布. ガンマ分布 𝑔 𝜃 𝛼, 𝛽 = 𝛼𝛽 Γ 𝛽 𝜃 𝛽−1 exp −𝛼𝜃 の期待値は 𝐸 𝜃 = 𝛽 𝛼 より, 𝜃𝑖 の事後分布
𝐸 𝜃
𝑖=
𝛽 + 𝑜
𝑖𝛼 + 𝑒
𝑖= መ
𝜃
𝑖 መ 𝜃 を 𝑖 地域のSMRの経験ベイズ推定値 (EBSMR) とする. መ 𝜃𝑖 = 𝛽 + 𝑜𝑖 𝛼 + 𝑒𝑖 の 𝛼, 𝛽 は, 周辺尤度の最尤推定量を利用. 𝜃𝑖 の事後分布 ℎ 𝜃𝑖 𝑒𝑖, 𝑜𝑖, 𝛼, 𝛽 の期待値は𝐿 𝛼, 𝛽 = ෑ 𝑖=1 𝑚 න 0 ∞ 𝑔 𝜃 𝛼, 𝛽 𝑓(𝑜𝑖|𝜃, 𝑒𝑖) 𝑑𝜃 = ෑ 𝑖=1 𝑚 Γ 𝛽 + 𝑜𝑖 Γ 𝛽 𝑜𝑖! 𝛼 𝛼 + 𝑒𝑖 𝛽 𝑒𝑖 𝛼 + 𝑒𝑖 𝑜𝑖 log 𝐿 𝛼, 𝛽 = 𝑙 𝛼, 𝛽 = 𝑖=1 𝑚 𝑠=0 𝑜𝑖−1 log 𝛽 + 𝑠 + 𝑚𝛽 log 𝛼 − 𝛽 𝑖=1 𝑚 log 𝛼 + 𝑒𝑖 + 𝑖=1 𝑚 𝑜𝑖 log 𝑒𝑖 − 𝑜𝑖 log 𝛼 + 𝑒𝑖 𝜕𝑙 𝜕𝛼 = 𝜕𝑙 𝜕𝛽 = 0 の尤度方程式をNewton-Raphson法を利用して求める. ො 𝛼 መ 𝛽 𝑘+1 = ො 𝛼 መ 𝛽 𝑘 − 𝜕2𝑙 𝜕𝛼2 𝜕2𝑙 𝜕𝛼𝜕𝛽 𝜕2𝑙 𝜕𝛼𝜕𝛽 𝜕2𝑙 𝜕𝛽2 𝑘 −1 𝜕2𝑙 𝜕𝛼 𝜕2𝑙 𝜕𝛽 𝑘 ここで ො𝛼, 𝛽 の初期値には 𝐸 𝜃 = 𝛽 𝛼, 𝑉𝑎𝑟 𝜃 = 𝛽 𝛼2 より, ො𝛼0 = 𝑚𝑒𝑎𝑛(𝑆𝑀𝑅𝑖) 𝑣𝑎𝑟 𝑆𝑀𝑅𝑖 , 𝛽0 = 𝑚𝑒𝑎𝑛 𝑆𝑀𝑅𝑖 2 𝑣𝑎𝑟 𝑆𝑀𝑅𝑖
SMR と EBSMR
𝐸𝐵𝑆𝑀𝑅
𝑖=
𝛼 + 𝑜
ො
𝑖መ
𝛽 + 𝑒
𝑖𝑆𝑀𝑅
𝑖=
𝑜
𝑖𝑒
𝑖(例) 2012年 男性自殺者数
(住居地情報ベース) 𝑜𝑖: 𝑖 地域自殺者数 𝑒𝑖: 𝑖 地域の期待自殺死亡数 7年齢階級(-20, 20-30, 30-40, …, 70-) 𝑚 = 1893 ( ො𝛼 = 0.788, መ𝛽 = 0.733)(例) 2012年 男性自殺者数
(住居地情報ベース) 𝑜𝑖: 𝑖 地域自殺者数 𝑒𝑖: 𝑖 地域の期待自殺死亡数 7年齢階級(-20, 20-30, 30-40, …, 70-) 𝑚 = 1893SMR と EBSMR
𝐸𝐵𝑆𝑀𝑅
𝑖=
𝛼 + 𝑜
ො
𝑖መ
𝛽 + 𝑒
𝑖𝑆𝑀𝑅
𝑖=
𝑜
𝑖𝑒
𝑖 SMRのバラツキ 人口(log10) SM R 人口(log10) EBSMRのバラツキ EB SM R ・人口多→ 期待死亡数 𝑒𝑖 大→ SMR(𝑜𝑖 𝑒𝑖 ) に近づく. ・人口少→ 期待死亡数 𝑒𝑖 小→ 地域全体の平均( 𝛽 ෝ 𝛼 )に近づく. 𝐸𝐵𝑆𝑀𝑅𝑖 = 𝛽 + 𝑜 𝑖 ො 𝛼 + 𝑒𝑖 = 𝑒𝑖 ො 𝛼 + 𝑒𝑖 𝑜𝑖 𝑒𝑖 + ො 𝛼 ො 𝛼 + 𝑒𝑖 𝛽 ො 𝛼目次
1. 空間データについて
2. SMR と EBSMR を利用した視覚化
3. 空間集積性の検出
4. エシェロンスキャン法
5. R shiny によるアプリケーション化
空間疫学 と 疾病地図
空間データに対し, 統計的に有意な地域集積性(Spatial cluster,
クラスター
, ホッ
トスポット)が存在するかどうかの評価.
特に
空間疫学
の分野においては, 疾病の集積性の視覚化や検定は重要な問題.
空間疫学
… 疾病地図に現れる空間的な規則性や関連性を解析する試み.
疾病地図
… 疾病の発生状況などを地図上に視覚的に描いたもの.
疾病の発生地点を空間的に捉え, 地域全体の状況を把握する.
疾病地図からクラスターが存在していると言えるか?
空間情報(近い or 遠い, 隣接 or 非隣接 など)を利用していない.
𝐸𝐵𝑆𝑀𝑅
𝑖=
𝛼 + 𝑜
ො
𝑖መ
𝛽 + 𝑒
𝑖𝑆𝑀𝑅
𝑖=
𝑜
𝑖𝑒
𝑖 ( ො𝛼 = 0.788, መ𝛽 = 0.733)空間スキャン検定
Kulldorff(1997)によって提唱された
尤度比に基づく統計量
を用いる検定法.
ウィンドウ
𝐙
… クラスター候補となる1つ以上の連結した地域の集合. 𝐙 ⊂ 𝐆
𝐙 は 𝐆 の部分集合であると同時に, ウィンドウの形状を与えるパラメータ.𝐙 内において, あるイベントが発生する確率を 𝑝
𝐙𝐙 外において, あるイベントが発生する確率を 𝑝
𝐙cとしたとき,
𝐻
0∶ 𝑝
𝐙
= 𝑝
𝐙
c= 𝑝
for all 𝐙
𝐻
1∶ 𝑝
𝐙
> 𝑝
𝐙
cfor
∃𝐙 ⊂ 𝐆
ポアソン分布に基づいた尤度比統計量
𝐿𝑅 𝐙, 𝑝
𝐙, 𝑝
𝐙c, 𝑝 =
the likelihood under 𝐻
1the likelihood under 𝐻
0=
exp − σ
𝑖∈𝐙𝑛
𝑖𝑝
𝐳ς
𝑖∈𝐙𝑛
𝑖𝑝
𝐳 𝑜𝑖ς
𝑖∈𝐙𝑜
𝑖!
× exp − σ
𝑖∉𝐙𝑛
𝑖𝑝
𝐳cς
𝑖∉𝐙𝑛
𝑖𝑝
𝐳c 𝑜𝑖ς
𝑖∉𝐙𝑜
𝑖!
exp − σ
𝑖=1𝑚𝑛
𝑖𝑝
ς
𝑖=1 𝑚𝑛
𝑖𝑝
𝑜𝑖ς
𝑖=1𝑚𝑜
𝑖!
=
exp − σ
𝑖∈𝐙𝑛
𝑖𝑝
𝐳− σ
𝑖∉𝐙𝑛
𝑖𝑝
𝐳c× 𝑝
𝐳 𝑜 𝐙× 𝑝
𝐳𝑜 𝐙c cexp − σ
𝑖=1𝑚𝑛
𝑖𝑝 × 𝑝
𝑜 𝐆ここに, 𝑜 𝐙 = σ
𝑖∈𝐙𝑜
𝑖, 𝑜 𝐙
c= σ
𝑖∉𝐙𝑜
𝑖, 𝑜 𝐆 = σ
𝑖=1𝑚𝑜
𝑖.
期待値 𝑒𝑖 = 𝑛𝑖𝑝 のポアソン分布を利用して, 帰無仮説と対立仮説の下での尤度比 (Likelihood Ratio; 𝐿𝑅)は, 以下で与えられる.𝐿𝑅 𝐙, 𝑝
𝐙, 𝑝
𝐙c, 𝑝 =
exp − σ𝑖∈𝐙𝑛𝑖𝑝𝐳−σ𝑖∉𝐙𝑛𝑖𝑝𝐳c ×𝑝𝐳𝑜 𝐙 ×𝑝 𝐳c 𝑜 𝐙c exp − σ𝑖=1𝑚 𝑛𝑖𝑝 ×𝑝𝑜 𝐆に対し,
ො 𝑝𝐙 = σ𝑖∈𝐙𝑜𝑖 σ𝑖∈𝐙𝑛𝑖 = 𝑜 𝐙 𝑛 𝐙 , 𝑝ො𝐙c = σ𝑖∉𝐙𝑜𝑖 σ𝑖∉𝐙𝑛𝑖 = 𝑜 𝐙c 𝑛 𝐙c , 𝑝 =ො σ𝑖=1𝑚 𝑜𝑖 σ𝑖=1𝑚 𝑛𝑖 = 𝑜 𝐙 + 𝑜 𝐙c 𝑛 𝐙 + 𝑛 𝐙c = 𝑜 𝐆 𝑛 𝐆𝐿𝑅 𝐙 =
𝑜 𝐙
𝑛 𝐙
𝑜 𝐙𝑜 𝐙
c𝑛 𝐙
c 𝑜 𝐙c𝑜 𝐆
𝑛 𝐆
𝑜 𝐆𝐼
𝑜 𝐙
𝑛 𝐙
>
𝑜 𝐙
c𝑛 𝐙
cを代入することにより最大尤度関数 𝐿𝑅 𝐙 を得る.
𝑝
𝐙> 𝑝
𝐙c ここに, 𝐻1 に を想定しているため, 指示関数 𝐼 𝑜 𝐙 𝑛 𝐙 > 𝑜 𝐙c 𝑛 𝐙c とする.コールドスポット(Low Rate Cluster)を検出する際には 𝐼 𝑜 𝐙
𝑛 𝐙 < 𝑜 𝐙c
さらに, 尤度関数 𝐿𝑅 は次のように変換できる.
𝐿𝑅 𝐙 = 𝑜 𝐙 𝑛 𝐙 𝑜 𝐙 𝑜 𝐙c 𝑛 𝐙c 𝑜 𝐙c 𝑜 𝐆 𝑛 𝐆 𝑜 𝐆 𝐼 𝑜 𝐙 𝑛 𝐙 > 𝑜 𝐙c 𝑛 𝐙c = 𝑜 𝐙 𝑛 𝐙 𝑜 𝐙 𝑜 𝐙c 𝑛 𝐙c 𝑜 𝐙c 𝑜 𝐆 𝑛 𝐆 𝑜 𝐙 𝑜 𝐆 𝑛 𝐆 𝑜 𝐙c 𝐼 𝑜 𝐙 𝑛 𝐙 > 𝑜 𝐙c 𝑛 𝐙cここで,
𝑒 𝐙 = 𝑛 𝐙 ∙ 𝑜 𝐆 𝑛 𝐆 , 𝑒 𝐙 c = 𝑛 𝐙c ∙ 𝑜 𝐆 𝑛 𝐆を代入すると
𝐿𝑅 𝐙 = 𝑜 𝐙 𝑛 𝐙 𝑜 𝐙 𝑜 𝐙c 𝑛 𝐙c 𝑜 𝐙c 𝑒 𝐙 𝑛 𝐙 𝑜 𝐙 𝑒 𝐙c 𝑛 𝐙c 𝑜 𝐙c 𝐼 𝑜 𝐙 𝑒 𝐙 > 𝑜 𝐙c 𝑒 𝐙c = 𝑜 𝐙 𝑒 𝐙 𝑜 𝐙 𝑜 𝐙c 𝐸 𝐙c 𝑜 𝐙c 𝐼 𝑜 𝐙 𝑒 𝐙 > 𝑜 𝐆 − 𝑜 𝐙 𝑜 𝐆 − 𝑒 𝐙 = 𝑜 𝐙 𝑒 𝐙 𝑜 𝐙 𝑜 𝐙c 𝑒 𝐙c 𝑜 𝐙c 𝐼 𝑜 𝐙 > 𝑒 𝐙∵ 𝑒 𝐆 = 𝑜 𝐆
𝐿𝑅 は一般に(Kulldorffの)
空間スキャン統計量
と呼ばれる.
計算コストを下げるため, 通常は 𝐿𝑅 の対数をとったものを利用(Log Likelihood
ratio;
𝐿𝐿𝑅
)を利用.
𝐿𝐿𝑅 を最大にするウィンドウ 𝐙 を,
「集積性が認められる領域群(Most Likely Cluster; MLC)」
とみなす.
𝐿𝑅 𝐙 =
𝑜 𝐙
𝑒 𝐙
𝑜 𝐙𝑜 𝐙
c𝑒 𝐙
c 𝑜 𝐙c𝐼 𝑜 𝐙 > 𝑒 𝐙
・ ベルヌーイモデル(Kulldorff and Nagarwalla, 1995)
・ 順序尺度変数モデル (Jung et al., 2007) ・ 指数モデル (Huang et el., 2007) ・ 多変量モデル (Kulldorff et al., 2007) ・ 正規モデル
(Kulldorff et al., 2009; Huang et el., 2009)
・ 多項モデル
(Jung et al., 2010)
領域のスキャン
地域の数が極端に少ない場合を除き, 一般的に
統計量が高くなるウィンドウ 𝐙
を決定する
ことは数が膨大すぎて現実的に不可能.
Kulldorff(1997)は, 同心円状にウィンドウ 𝐙 を探索方法を提唱(
Circular scan
).
各領域内部の点(重心の緯度・経度など)間の距離を利用.
MLCにおける 𝐿𝐿𝑅 の有意性の評価には,
モンテカルロ検定
を利用.
Circulr scanのためのRパッケージ:
SpatialEpi
入手先:CRAN
Circular scan による 2012年市区町村 男性自殺のクラスター
1
2
Histgram of 9,999 𝐿𝐿𝑅 for generated data under 𝐻0
𝑅𝑎𝑛𝑘 23.081 = 1 9,999 + 1 総人口数の5%に達するまでスキャン(円を拡張) 地域数 自殺者数 𝑜 𝐙 SMR 𝑜(𝐙)/𝑒 𝐙 𝐿𝐿𝑅 𝐙 𝑝
Most likely cluster: 1 173 1159 1.222 23.081 0.001
Secondary cluster: 2 38 257 1.522 20.016 0.001
スキャン手法
Kulldorff の Circular scan は, 簡便であるが円状のクラスターしか同定できない.
以下の例で, 𝐿𝐿𝑅 𝐀 > 𝐿𝐿𝑅 𝐂 , 𝐿𝐿𝑅 𝐁 > 𝐿𝐿𝑅 𝐂 だったとしても…
・
Echelon scan
(栗原, 2003)
・
Upper Level set (ULS) scan
(Patil and Taillie, 2004)
・
Similated annealing scan
(Duczmal and Assunção, 2004)
・
Flexible scan
(Tango and Takahashi, 2005)
・
Elliptic scan
(Kulldorff et al., 2006) … etc
非円形のクラスターを同定するスキャン手法
𝐀
𝐁
𝐂
目次
1. 空間データについて
2. SMR と EBSMR を利用した視覚化
3. 空間集積性の検出
4. エシェロンスキャン法
5. R shiny によるアプリケーション化
1次元空間データのエシェロン解析
𝑘 個の区間に分けられた1次元の格子データ.
水平位置 𝑖 とデータの高度 ℎ 𝑖 で与えられる.
1-dimensional spatial lattice data (𝑘=25)
Usual cluster analysis …
1 … A W Y 2 … B J V X 3 … C E I K U 4 … D F H L T 5 … G M O S 6 … N P R 7 … Q
この分類では空間的な位置情報が利用されていない.
位置情報を利用した空間データの分類を考える.
エシェロンデンドログラム
エシェロンデンドログラム j G(j) 1 Q, P, R 2 N 3 G, F, H 4 D 5 X 6 M, O, S, L, T, K, U 7 C, E, I 8 B, J, Y 9 A, W, Y 各エシェロンに分類された領域の集合 ピーク ファウン デーション2次元空間データのエシェロン解析
Lattice data エシェロンへの分割 エシェロンデンドログラム Peaks ={A,C,F,H,J,K} Foundations={B, D,E,G,I}各地域間に
隣接情報
を与えることで, エシェロンデンドログラムの作成が可能.
地域の境界が接しているか否か, ドロネー三角網, 𝑘-近隣法, 一定の距離内隣接 … などエシェロンスキャン
Latticeデータ エシェロンデンドログラム 上位階層からスキャン クラスターの同定 対応 𝐿𝐿𝑅が最大になったウィンドウ𝐙Step1.
デンドログラムの上位階層に含まれる領域から順に, 𝐙 に取り込みながらスキャ
ンする.
Step2.
Step1を あらかじめ定めておいた臨界値(𝐙 内の人口数, 𝐙 内の領域数など)に
達するまで行う.
Step3.
𝐙 の全体集合 𝛀
𝐙の中から,
max
をクラスターの候補とする.
𝐙∈𝛀𝐙𝐿𝐿𝑅 𝐙
エシェロンスキャン による 2012年市区町村 男性自殺のクラスター
ℎ-Value : SMR 隣接情報:境界が接しているか否か スキャン: 総人口数の5%に達するまで SM R 2012年市区町村 男性自殺 エシェロンデンドログラム1
𝐿𝐿𝑅 𝐙1 = 61.5732
𝐿𝐿𝑅 𝐙2 = 41.998対応
1
2
(※)比較のため, circular法で求めた9999個のモンテカルロ標本を利用 地域数 自殺者数 𝑜 𝐙 SMR 𝑜(𝐙)/𝑒 𝐙 𝐿𝐿𝑅 𝐙 𝑝(※)Most likely cluster: 1 99 881 1.478 61.573 0.001
比較
地域数 SMR 𝐿𝐿𝑅 𝐙
Most likely cluster: 1 99 1.478 61.573
Secondary clusters: 2 65 1.455 41.998
エシェロン法に基づくクラスター
1
2
地域数 SMR 𝐿𝐿𝑅 𝐙
Most likely cluster: 1 173 1.222 23.081
Secondary clusters: 2 38 1.522 20.016
1
2
目次
1. 空間データについて
2. SMR と EBSMR を利用した視覚化
3. 空間集積性の検出
4. エシェロンスキャン法
5. R shiny によるアプリケーション化
shiny
RにおいてインタラクティブなWebアプリケーションを作成するパッケージ
• JavaScriptを必要としないわずか数行のコードでWebアプリケーションを構築できる. • エクセルのようなスプレッドシートの表を動的に描画できる.
• UIはすべてRで構築でき, またHTML, CSS, JavaScriptによってより柔軟に構築できる. • Rの統合開発環境を利用できる.(Console R, Rgui for Windows or Mac, Rstudio など) • スライダーやボタンなどのインプット, 図表などアウトプットを表示するためのウィジェッ
作成したアプリケーション
本報告で紹介した一連の解析を動的に行うためのアプリケーションを開発
• 市区町村別に集約された 「①観測数」, 「②人口数」 をデータとして読み込む. • データは任意の年齢階級別に分けられていてもよい. • SMR と EBSMR を算出し, 結果を地図上に描画. • Circularスキャン法によるクラスター検出, ならびに結果を地図上に描画. • エシェロンスキャン法によるクラスター検出, ならびに結果を地図上に描画. • クラスター検出に関係する各種パラメータ, およびデンドログラムを動的に操作可能.leaflet
htmlでインタラクティブな地図を作成できる
• JavaScriptのオープンソースライブラリである 「leaflet.js」 をRでも利用できるようにした パッケージ. • 様々な地図タイル, マーカー, ポップアップなど, 多くのプラグインを備える. id lng lat 1 135.4592 35.15953 2 134.9367 35.58189 3 135.2881 35.55548 4 134.7364 35.09286 5 135.6057 34.81867 shpファイルから取得 したポリゴン情報 ポリゴンで表示利用した既存のRパッケージ
• shiny • leaflet • spsurvey • maptols • maps • spdep 隣接情報の作成. • classInt 階級区分図における各種の階級分け. • plotrix 図の体裁の調整. • DBI 文字コードの変換. • SpatialEpi Circularスキャン法 と モンテカルロ検定. • DT 解析結果をインタラクティブなテーブルで表示. 地図データの処理(shpファイルの読み込み・加工・座標抽出など).アプリケーション 課題
公開に向けて
• 市区町村の合併・名称変更に対応した地域ポリゴン情報の収集方法の工夫.
• 安定した動作.
• EMSMRの算出コード(Newton-Raphson法)の工夫.
• leaflet による描画の速度.
今回用いたPCのスペックCPU : Intel® Core™ i5 M480 @ 2.67GHz 2.67GHz メモリ: 8.00GB
OS : 64bit windows 8.1 Pro
参考文献
• Duczmal L and Assunção RA. A simulated annealing strategy for the detection of arbitrarily shaped spatial clusters. Computational Statistics and Data Analysis, 2004; 45:269-286.
• Huang L, Kulldorff M and Gregorio D. A spatial scan statistic for survival data. Biometrics, 2007; 63:109-118.
• Huang L, Tiwari R, Zuo J, Kulldorff M and Feuer E. Weighted normal spatial scan statistic for heterogeneous population data. Journal of the American Statistical Association, 2009; 104:886-898.
• Jung I, Kulldorff M and Klassen A. A spatial scan statistic for ordinal data. Statistics in Medicine, 2007; 26:1594-1607. • Jung I, Kulldorff M and Richard OJ. A spatial scan statistic for multinomial data. Statistics in Medicine, 2010; 29:1910-1918. • Kulldorff M. A spatial scan statistic. Communications in Statistics: Theory and Methods, 1997; 26:1481-1496.
• Kulldorff M and Nagarwalla N. Spatial disease clusters: Detection and inference. Statistics in Medicine, 1995; 14:799-810. • Kulldorff M, Huang L, Pickle L and Duczmal L. An elliptic spatial scan statistic. Statistics in Medicine, 2006; 25:3929-3943.
• Kulldorff M, Mostashari F, Duczmal L, Yih K, Kleinman K and Platt R. Multivariate spatial scan statistics for disease surveillance. Statistics in Medicine, 2007; 26:1824-1833.
• Kulldorff M, Huang L and Konty K. A scan statistic for continuous data based on the normal probability model. International Journal of Health Geographics, 2009; 8:58.
• 栗原考次. 階層的空間構造を利用したホットスポットの検出. 計算機統計学, 2003; 15:171-183.
• Kurihara K. Classification of geospatial lattice data and their graphical representation. Classification, Clustering, and Data Mining Applications (Edited by Banks D et al.), Springer, 2004; 251-258.
• Myers WL, Patil GP and Joly K. Echelon approach to areas of concern in synoptic regional monitoring. Environmental and Ecological Statistics, 1997; 4:131-152.
• Patil GP and Taillie C. Upper level set scan statistic for detecting arbitrarily shaped hotspots. Environmental and Ecological Statistics, 2004; 11:183-197.