コンピュータ応用・演習情報処理システム

(1)

データエンジニアリング・演習

情報処理システム

データマイニング

～データからの自動知識獲得手法～

(2)

1．演習の目的 (1)



多種多様な

膨大な量のデータを解析

し，

企業の経営活動などに活用することが

望まれている．



大規模データベースを有効に活用する，

データマイニング技術

の研究が

脚光を浴びている

(3)

1．演習の目的 (2)



_{POSデータを用いて顧客の購買パターン}

を分析する．

相関ルール抽出

_を体験

(例1)コンビニエンスストアの商品配置 もし,「アイスクリーム」と「缶コーヒー」が 同時に買われる可能性が高い この2つの商品を近くに置くことで，購買意欲を促進させられる

(4)

2.データマイニングとは



大規模データベースを扱うことを前提と

し，必要かつ十分な情報を

高速に得ようとする

_手法



膨大な量

の一般的ルールの中に埋もれて

今まで発見されなかったようなルールを

抽出

データマイニングは，高速性を必要とする

ため，統計手法ほど厳密に解析できない

(5)

3.データマイニング手法の分類

 相関ルールの抽出 おにぎりとお茶が同時に売れるなどの商品間 の相関を発見する．代表的手法として， アプリオリアルゴリズム_がある．  クラスタリング 顧客データから近々自動車を購入しそうな客 のクラスタ(集合)を発見する．  分類ルール クレジットカードに新規入会を希望する顧客 に対して，過去のカード債務者データから，優良顧客・危険顧客に分類して入会の判断を

(6)

4.1 相関ルールの定義 (1)

定義1（相関ルール）

・

商品＝

_アイテム

・

レシート＝

_{トランザクション}

I を全アイテム集合(全商品),

X, Y を I の部分集合と定義．

各トランザクション(レシート)において，

X が成立する時に Y が高い確率で成立する

規則

_{を相関ルールという．}

(7)

定義2

「X ならば，Y である」ことを X → Y と表す．ただし，X, Y⊆ I, X∩ Y = φ である． 例2 「鮭弁当を買う人が，温かいお茶を高い確率で買うこと」は「_{X ={鮭弁当} → Y = {温かいお茶}」}

4.1 相関ルールの定義 (2)

(8)

4.2 相関ルールの評価基準 (1)



数ある相関ルールの中で，実際には

有用なルールだけを抽出したい．

(9)

4.2 相関ルールの評価基準 (2)

支持度 (support)

確信度 (confidence)



相関ルールを評価するための指標

(10)

4.2 相関ルールの評価基準 (3)

定義3（支持度 (support)）

全データベースに対して，X と Y を同時に含むトラ ンザクションがどのくらいの割合を占めるかを表す． ここで n(X) は，X を含むトランザクションの個数を 表す．

支持度が高いほど一般性の高い

ルールであると考えられる

_．

(11)

4.3 相関ルールの評価基準 (4)

例3

(12)

4.3 相関ルールの評価基準 (5)

定義4（確信度 (confidence)）

X を含むトランザクションに対して，X と Y を同時に 含むトランザクションがどのくらいの割合を占めるかを表す．

確信度が高いほど信頼性の

注意： n(I) ではない！

(13)

例4

表1でルール「{お茶}→{新聞}」，ルール「{新聞}→{お茶}」の確信度を計算する．

となり，{お茶}を買った人の67%が{新聞}を， {新聞}を買った人

(14)

5.1 アプリオリアルゴリズム (1)



商品のPOSデータ（表2）から，

購買パターンを抽出



商品が買われた場合を1，買われなかっ

(15)

5.1 アプリオリアルゴリズム (2)

1. i = 1 とする．アイテム1つずつを候補アイテム集合 C_i (ルー ルとして抽出される候補)と呼び，全データベース D を検索し て各候補アイテム集合 C_i の出現回数をカウントし支持度を計算する． 2. 各候補アイテム集合 C_i について，ユーザの定めた基準である最小支持度以上の支持度をもつものをラージアイテム集合 L_i と呼ぶ． 3. ラージアイテム集合 L_i 同士を組み合わせたものを新しく候補 アイテム集合 C_i+1 として出現回数をカウントし支持度を計算する． 4. i := i+1 とする．候補アイテム集合 C_i が空集合になった場合，各パスにおけるラージアイテム集合を出力し，アルゴリズムを

(16)

5.1 アプリオリアルゴリズム (3)

アイテム 1：お茶 2：弁当 3：新聞 4：牛乳 5：コーヒー

(17)

5.2 アルゴリズムの例

ラージアイテム集合 L₂ が次の3つの場合，候補アイテム集合 C₃ はそれぞれ次のようになる． • L₂ = {{1,2}, {2,3}, {1,3}}の場合 _{候補アイテム集合 C}₃ = {1,2,3}が導かれる • L₂ = {{1,2}, {2,5}, {1,5}}の場合 _{候補アイテム集合 C}₃_{= {1,2,5}は導かれない} • L₂ = {{2,3}, {3,5}, {2,5}}の場合 _{候補アイテム集合 C}₃ = {2,3,5}は導かれない

1つ前のラージアイテム集合に部分集合が

(18)

5.3 出力結果の処理 (1)

ルール L の抽出方法

定義5

ラージアイテム L_i, i=1,2,3, から抽出される相関ルール

• L₁ からはルールが作られない

• L₂ ={a,b} からは [a→b], [b→a] の2つが抽出 • L₃ ={a,b,c} からは [a→b,c], [b→a,c], [c→a,b],

(19)

5.3 出力結果の処理 (2)

ルール L の抽出方法

例5

下図の L₂ の中のアイテム集合{1,2}からは相関ルール [{1}→{2}] と [{2}→{1}] が作成される．

(20)

5.3 出力結果の処理 (3)

ルール L の抽出方法

例6 最小確信度80％でルールを抽出するととなり，ルール_{[{1}→{2}]が抽出される．} ＞最小確信度＜最小確信度

(21)

6. 演習課題

 以下のファイルを，授業用WEBページより適当 なディレクトリにダウンロードすること．  apriori.cpp  mushroom.txt  zokusei.txt 授業用WEBページ

http://lab.mgmt.waseda.ac.jp/unix/

(22)

6.1 必須課題 (1)

1. 表3に示すデータベースからアプリオリを用い

て，最小支持度50%でラージアイテム集合を 計算（手計算になる）せよ．

(23)

6.1 必須課題 (2)

2. 1.で求めたラージアイテム集合から最小確信

度60%で相関ルールを抽出せよ．ただし，ラー ジアイテム集合から考えられる全てのパターン を相関ルールとする．

(24)

3. アプリオリアルゴリズムのプログラムを用いて， キノコの種別データを解析せよ．ここで，最小 支持度・最小確信度は各自が定めるものとする． ・アイテムセットの中のアイテム数が多くなるように設定 ・最小支持度，最小確信度の意味を考えること 抽出された相関ルールについて，授業用WEB ページ上のリンクを参照にして，考察せよ． （例：食用キノコ・毒キノコにはそれぞれどのよう な属性があるかなどを考察する）

6.1 必須課題 (3)

(25)

6.2 自由課題

4. アプリオリアルゴリズムを改良しようと考えた以 下の提案を評価しなさい． 候補アイテム集合 C からラージアイテム集合 L を 導く時に，支持度と確信度の両方で絞込みを行った 方が効率の良いアルゴリズムにならないか？ 必須ではないが自由課題の評価は必須課題の評価にプラスする．自由課題を解かないためマイナスされることはない．

(26)

6.3 レポート課題



課題（1）～（4）（ただし，（4）は自由課題で

任意）を行い，レポートにまとめて提出



期限：12月22日（水）12：00



場所：51号館2階レポートBOX



質問は，後藤研究室（51号館15階03室）か，

下記メールアドレスまで

comp_app_q@it.mgmt.waseda.ac.jp

(27)

7.1 ファイルの説明 (1)

 _{apriori.cpp （アプリオリプログラム）} アプリオリのC言語ソースプログラムである．コ ンパイルした後に実行する際，以下の2つの.txt ファイルを同一のフォルダに入れておく必要がある．  _{mushroom.txt（キノコの種別データ）} 今回解析対象となる，キノコの特徴が示されているデータである．データの内容については演 習用の WEB ページで参照できる．ここではアイ テムを1~128までの通し番号で表し，結果につい

(28)

7.1 ファイルの説明 (2)

 _{zokusei.txt（属性値数データ）} キノコの種別データを解析する上で必要になる 補助情報である．特に気にする必要はないが，シミュレーションを実行するためには，このデータ が必要となる．  _{out.txt（出力ファイル）} シミュレーションの結果が出力されるファイルである．出力されたファイル自動的に作成され，シミュレーションを実行するたびに前に実行された 結果は上書きされるため注意すること．

(29)

7.2 プログラムの実行方法

※プログラムで入力する最小支持度，最小確信度は，値を 変えることで結果が異なるため，色々試してみるとよい． 1. apriori.cpp，mushroom.txt，zokusei.txtを同じフォル ダにダウンロード． 2. “apriori.cpp”のコンパイルを行い（警告文は無視して よい），プログラムを実行する． _{$ g++ apriori.cpp -o apriori.out -lm} $ ./apriori.out 3. “apriori.cpp”のコンパイルを行い（警告文は無視して よい），プログラムを実行する．フォルダ内の出力ファイル“out.txt”に結果が出力されるため，ファイル内を参 照する． _{$ emacs out.txt}

コンピュータ応用・演習 情報処理システム

データエンジニアリング・演習

情報処理システム

データマイニング

～データからの自動知識獲得手法～

1．演習の目的 (1)

多種多様な

膨大な量のデータを解析

し，

企業の経営活動などに活用することが

望まれている．

大規模データベースを有効に活用する，

データマイニング技術

の研究が

脚光を浴びている

1．演習の目的 (2)

POSデータを用いて顧客の購買パターン

を分析する．

相関ルール抽出

を体験

2.データマイニングとは

大規模データベースを扱うことを前提と

し，必要かつ十分な情報を

高速に得ようとする

手法

膨大な量

の一般的ルールの中に埋もれて

今まで発見されなかったようなルールを

抽出

データマイニングは，高速性を必要とする

ため，統計手法ほど厳密に解析できない

3.データマイニング手法の分類

4.1 相関ルールの定義 (1)

定義1（相関ルール）

・

商品＝

アイテム

・

レシート＝

トランザクション

I を全アイテム集合(全商品),

X, Y を I の部分集合と定義．

各トランザクション(レシート)において，

X が成立する時に Y が高い確率で成立する

規則

を相関ルールという．

定義2

4.1 相関ルールの定義 (2)

4.2 相関ルールの評価基準 (1)

数ある相関ルールの中で，実際には

有用なルールだけを抽出したい．

4.2 相関ルールの評価基準 (2)

支持度 (support)

確信度 (confidence)

相関ルールを評価するための指標

4.2 相関ルールの評価基準 (3)

定義3（支持度 (support)）

支持度が高いほど一般性の高い

ルールであると考えられる

．

4.3 相関ルールの評価基準 (4)

4.3 相関ルールの評価基準 (5)

定義4（確信度 (confidence)）

確信度が高いほど信頼性の

5.1 アプリオリアルゴリズム (1)

商品のPOSデータ（表2）から，

購買パターンを抽出

商品が買われた場合を1，買われなかっ

5.1 アプリオリアルゴリズム (2)

5.1 アプリオリアルゴリズム (3)

5.2 アルゴリズムの例

1つ前のラージアイテム集合に部分集合が

5.3 出力結果の処理 (1)

ルール L の抽出方法

定義5

5.3 出力結果の処理 (2)

ルール L の抽出方法

5.3 出力結果の処理 (3)

ルール L の抽出方法

6. 演習課題

コンピュータ応用・演習情報処理システム

_{POSデータを用いて顧客の購買パターン}

_を体験

_手法

_アイテム

_{トランザクション}

_{を相関ルールという．}

_．