• 検索結果がありません。

集約的シンボリックデータの非類似度

N/A
N/A
Protected

Academic year: 2021

シェア "集約的シンボリックデータの非類似度"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)

カイ2乗統計量に基づく

集約的シンボリックデータの非類似度

2018年6月15日 統計数理研究所 オープンハウス

【研究の背景】

近年の計算機科学の発展により、大規模かつ複雑な多変量データ集合が 多数出現している。それらを記述、解析する上でデータ構造を柔軟に定義し た枠組みとして

Diday

により提案されたシンボリックデータ

(SD)

があり、それ らを解析する枠組みとしてシンボリックデータ解析

(SDA)

が提唱されている。

最近の大規模多変量データ集合では、連続(実数)変数とカテゴリー変数 が混在する場合が多く、また特徴的な属性に関して自然に分けられた集団 が存在し、それらに関する情報に興味がある場合が少なからず存在する。

この場合、各集団ごとに変数のいくつかの記述統計量(平均、分散、

etc.

)の 集合をデータ と考えて解析する方法が考えられるが、これらのデータを我々 は集約的シンボリックデータ(

Aggregated Symbolic Data, ASD

)と呼ぶ。

連続変数とカテゴリー変数が混在するデータ集合において

2

つの

ASD

間の 非類似度を考える場合、連続変数を離散化してあたかもカテゴリー変数で あるかのように考えることで、全体をカテゴリー変数のみからなるデータ集合 とみなして各集団間の非類似度を一貫した基準で考えられる。本報告では、

連続変数を適当な有限個の区間に分割してそれらの区間をカテゴリー値と するカテゴリー変数とみなし、

2

つずつの変数の分割表に関する

ASD

間の カイ

2

乗統計量を非類似度と考え、その基準を実データに対して適用した例 を示す。

【変数型が混在する大規模データにおける集団の表現】

p

個の連続型変数および

q

個のカテゴリー変数(カテゴリー変数

k

におけるカ テゴリー値の数は 個)のデータ集合

X

のうち、集団

g

におけるデータ行列

を下記のように表す。

個のデータをもつ において、左の

p

列が

p

個の連続変数値、それ以 外が

q

個のカテゴリー変数ごとのダミー変数値である。連続変数およびカテゴ リー変数に対しては、異なる

2

変数間の関係の確率モデルを

2

次モーメントま での範囲で定義する。

2

つのカテゴリー変数の組み合わせに関する非類似度】

から生成された各

ASD g

における異なる

2

つのカテゴリー変数の組み合 わせは分割表として表され、全ての組み合わせに関する分割表をまとめたも のが

Burt

行列として表される。ここでの各セルにおける値 はカテゴリー 変数の組 における各カテゴリー値の組が となる場合の生起数 である。

ASD

および が同じ性質をもつ場合、分割表のセル の出 現個数の期待値の推定量は

と考えられる。一方で

2

つの

ASD

が異なる場合は および を用いてカイ

2

乗統計量を

と考えることができ、これを なる全ての に関し考え総和をとった

Burt

行列における

ASD

間の非類似度と考えられる。

【連続変数を含む組み合わせに関する非類似度】

連続変数

l

については、 なる

を境界値とする

N

個の区間に分割し、各区間をカテゴリー値と して考えると、他の変数との組み合わせについてカテゴリー変数同士の分 割表と同様に考えることができる。すなわち、連続変数同士の組み合わせ

においては集団全体の個数に各領域ごとの出現確率を掛けた値、連続変数 とカテゴリー変数の組み合わせにおいてはカテゴリー変数における各カテゴリ ー値ごとの全体の個数に各区間ごとの出現確率を掛けた値を、分割表のセ ルの個数の近似値として考えることにより、カテゴリー変数同士の組み合わ せの場合と同じくカイ

2

乗統計量の近似値を計算することができる。

連続変数同士の組み合わせにおけるカイ

2

乗統計量を 、連続変数と カテゴリー変数の組み合わせにおけるカイ

2

乗統計量を とすると

および

がそれぞれの組み合わせの全体の非類似度と考えられる。

なお、連続変数の分割数

N

の値の定め方については、適当な範囲内でいくつ かの場合に対する結果を求め、その中で適当なものを選べばよい。

連続変数をカテゴリー化して考えることにより、 は全てカテゴ リー変数同士の組み合わせにおける非類似度と考えられるため、この総和

ASD

間の全体のカイ

2

乗統計量に基づく非類似度と考えることができる。

【不動産情報データへの適用例】

1

はある不動産検索サイトにおける

2013

年時点の東京

23

区の賃貸住宅デ ータ(有効総件数が約

79

万件)の一部である。このデータは

5

種類の連続型変 数および

76

種類のカテゴリー変数を含む。このデータをカテゴリー変数“区”

に関して物件が所在する区別に

23

の集団に分け、各々の

ASD

間の非類似度 を計算して最長距離法による階層的クラスタリングを行った。連続変数の分 割数

N

4

および

5

の場合の結果を図

1

に示す。

1:

不動産検索サイトにおける東京

23

区の賃貸住宅データ(一部)

(a) N=4 (b) N=5

1: 23

区の相互間の非類似度に基づく階層的クラスタリング結果

1

より、いずれの

N

でも

(1)

中央区と港区の組

(2)

千代田区や新宿区など

7

(3)

足立区

(4)

世田谷区や板橋区など

8

(5)

大田区や荒川区など

5

区 の

5

つの クラスターが形成されているとみることができる。

この方法では連続変数の領域を

N

個のカテゴリー値として表すため

N

の値に より結果に差異が起こり得るが、不動産情報データに関してはカテゴリー変数 の数が連続変数の数よりも圧倒的に多いため、カテゴリー変数同士のみから の非類似度から導出される構造が大きく影響し、連続変数を含む部分の構造 があまり影響していないと考えられる。

清水 信夫 データ科学研究系 助教

𝑋𝑋 (𝑔𝑔) 𝑛𝑛 (𝑔𝑔)

𝑔𝑔 1 𝑔𝑔 2

) ,

(

1 2

2 1

k k g

j

s j

) , ( k 1 k 2

𝑋𝑋 (𝑔𝑔) 𝑋𝑋 (𝑔𝑔) =

𝒙𝒙 𝟏𝟏𝟏𝟏 𝒈𝒈 ⋯ 𝒙𝒙 𝟏𝟏𝟏𝟏 𝒈𝒈 𝒙𝒙 𝟏𝟏𝟏𝟏 𝒈𝒈,𝟏𝟏 ⋯ 𝒙𝒙 𝟏𝟏𝒎𝒎 𝒈𝒈,𝟏𝟏 𝟏𝟏 ⋯ 𝒙𝒙 𝟏𝟏𝟏𝟏 𝒈𝒈,𝒒𝒒 ⋯ 𝒙𝒙 𝟏𝟏𝒎𝒎 𝒈𝒈,𝒒𝒒 𝒒𝒒

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

𝒙𝒙 𝒏𝒏 𝒈𝒈 𝒈𝒈 𝟏𝟏 ⋯ 𝒙𝒙 𝒏𝒏 𝒈𝒈 𝒈𝒈 𝟏𝟏 𝒙𝒙 𝒏𝒏 (𝒈𝒈) 𝟏𝟏

𝒈𝒈,𝟏𝟏 ⋯ 𝒙𝒙 𝒏𝒏 (𝒈𝒈) 𝒎𝒎 𝟏𝟏

𝒈𝒈,𝟏𝟏 ⋯ 𝒙𝒙 𝒏𝒏 (𝒈𝒈) 𝟏𝟏

𝒈𝒈,𝒒𝒒 ⋯ 𝒙𝒙 𝒏𝒏 (𝒈𝒈) 𝒎𝒎 𝒒𝒒 𝒈𝒈,𝒒𝒒

𝑚𝑚 𝑘𝑘

𝑋𝑋 (𝑔𝑔)

) , ( j 1 j 2

∑ ∑

= = +

= 1

1 1

) , ( 2 )

( ) (

1 2 1

2 1 2 1 2

1

p

l

p

l l

l l g g g

g

d rr χ

=

<

<

<

<

=

( ) ( )

1 )

( 1 )

( 0

l N l

N l

l h h h

hh ( j l )

) , ( k 1 k 2 2

1 k

k <

∑∑

= =

= p

l q

k

lk g g g

g

d rc

1 1

) , ( 2 )

( ) (

2 1 2

1

χ

) , (

2 g

1

g

2

l

1

l

2

χ

) , (

2 g

1

g

2

lk

χ

) (

) ( ) (

) ( ) (

) (

2 1 2

1 2

1

g , rr g g , rc g g

g

cc d d

d

) (

) ( )

( ) ( )

( ) ( )

(

1 2 1 2 1 2

g

1

g

2

rc g

g rr g

g cc g

g d d d

d = + +

) , , 1 , 0

( j =  N

) , ( j 1 j 2

) ,

(

1 2

2 1

k k g

j j

s

a

参照

関連したドキュメント

「文字詞」の定義というわけにはゆかないとこ ろがあるわけである。いま,仮りに上記の如く

そのような状況の中, Virtual Museum Project を推進してきた主要メンバーが中心となり,大学の 枠組みを超えた非文献資料のための機関横断的なリ ポジトリの構築を目指し,

そればかりか,チューリング機械の能力を超える現実的な計算の仕組は,今日に至るま

これは基礎論的研究に端を発しつつ、計算機科学寄りの論理学の中で発展してきたもので ある。広義の構成主義者は、哲学思想や基礎論的な立場に縛られず、それどころかいわゆ

テューリングは、数学者が紙と鉛筆を用いて計算を行う過程を極限まで抽象化することに よりテューリング機械の定義に到達した。

実際, クラス C の多様体については, ここでは 詳細には述べないが, 代数 reduction をはじめ類似のいくつかの方法を 組み合わせてその構造を組織的に研究することができる

これらの定義でも分かるように, Impairment に関しては解剖学的または生理学的な異常 としてほぼ続一されているが, disability と

、肩 かた 深 ふかさ を掛け合わせて、ある定数で 割り、積石数を算出する近似計算法が 使われるようになりました。この定数は船