サイオステクノロジー株式会社

(1)

サイオステクノロジー株式会社

(2)

サイオステクノロジー株式会社 2

設計書

1. 機械学習とは ... 4 1.1. 人工知能と機械学習の歴史 ... 4 1.2. 人工知能の進化と機械学習 ... 4 1.3. 従来の人工知能の限界 ... 5 1.4. 学習する人工知能 ... 6 1.5. 機械学習で強くなった将棋ソフト ... 7 1.6. さらに機械学習で強くなった囲碁ソフト ... 8 1.7. 機械学習とボードゲームの進化 ... 9 1.8. 機械学習が着目された理由 ... 9 1.9. 身近なところの機械学習... 10 1.10. 機械学習とは ... 11 1.11. モデルの作成と適用 ... 11 1.12. 学習段階 ... 12 1.13. 実運用段階 ... 12 1.14. まとめ ... 13 2. 機械学習の分類 ... 14 2.1. クラス分類と回帰とクラスタリング ... 14 2.2. 機械学習の分類 ... 15 2.3. 教師あり学習と教師なし学習 ... 16 2.4. 教師あり学習 : クラス分類と回帰 ... 17 2.5. 教師なし学習 : クラスタリング ... 18 2.6. 機械学習の代表的な手法 ... 19 2.7. 機械学習の分類 ... 20 2.8. 中間的手法 ... 20 2.9. 中間的手法 : 半教師あり学習 ... 21 2.10. 中間的手法 : 強化学習 ... 21 2.11. 中間的手法 : 深層学習 ... 21 2.12. まとめ ... 22 3. モデル作成の基本的な手順 ... 23 3.1. Weka で機械学習を学ぶメリット ... 23 3.2. モデル作成の手順の流れ ... 23 3.3. モデル作成の例題 ... 24 3.4. 3 種類のアヤメ ... 24 3.5. アヤメの「がく」と「花びら」 ... 25 3.6. データの準備 ... 25 3.7. ARFF 形式のアヤメのデータ ... 26 3.8. Weka の起動 ... 26 3.9. KnowledgeFlow の起動 ... 27 3.10. データの読み込み ... 28 3.11. 評価法の設定 ... 35 3.12. ホールドアウト法 ... 35 3.13. 交差確認法 ... 35 3.14. 学習法の設定 ... 38

(3)

サイオステクノロジー株式会社 3

設計書

3.15. k 近傍法 (k-NN 法) ... 39 3.16. 結果の可視化 ... 43 3.17. 評価の指標 ... 48 3.18. 適合率と再現率 ... 48 3.19. 正解率の落とし穴 ... 49 3.20. まとめ ... 49 4. 決定木によるクラス分類 ... 50 4.1. クラス分類のおさらい ... 50 4.2. 学習データの形式の違い ... 50 4.3. 学習データがグループのクラス分類手法 ... 51 4.4. 学習データが数値のクラス分類手法 ... 51 4.5. 学習データの形式の変換 ... 52 4.6. 決定木 ... 52 4.7. 二十の扉 ... 53 4.8. 決定木への修正 ... 54 4.9. まとめ ... 63

(4)

1 機械学習とは 4

設計書

1. 機械学習とは

1.1. 人工知能と機械学習の歴史 1.2. 人工知能の進化と機械学習  第 1 次、第 2 次人工知能ブーム基本的に人間が作った数式や推論ルールに従って、コンピューターが動くというものでした。人工知能と名が付いていますが、実際にはただのプログラムと言ったほうが良いかもしれません。  第 3 次人工知能ブーム人間の知識や経験を必要とせず、コンピューターがデータから直接学習します。与えられたデータからコンピューターが自ら学習するために機械学習が用いられています。  機械学習によって人工知能の機能や役割は劇的に変わりました。

(5)

設計書

1.3. 従来の人工知能の限界 1. 人間が「ネコ」の情報をルール化し、プログラミング 2. ルールに従って「ネコ」を識別  人工知能という名前が付けられていても、実際には人間が作った「ルール」通りに動いているにすぎませんでした。  人間が決めた「ルール」の範囲でしか動きませんでした。  現実社会で人間並みに振る舞うための「ルール」の数は膨大で、教えきれませんでした。  教えた「ルール」が数千・数万に増えると、予期せぬ相互干渉・矛盾が生じ、期待通りに機能しなくなりました。ネコとは、 • 目は 2 つあって丸い • 耳は 2 つあって三角形 • 口は「へ」の字 • ひげがあるこれは「ネコ」? ・人間が着眼点を逐一教える必要がある・漏れなく的確に記述するのは膨大で困難な作業

(6)

設計書

1.4. 学習する人工知能 1. 無造作に大量の画像データを教材として入力 2. 共通の特徴を持つモノを自律的に学習する。人間は名前を教えるだけ。 3. 学習結果に従って「ネコ」を識別  機械学習を利用し、与えられたデータから自ら学習する人工知能が登場しました。  「データ」を教材としてコンピューターが自ら学習します。  コンピューターがどのような機械学習の方式で学習するかは人間が決めますが、具体的な学習はコンピューターが行います。  人間が教えずとも、人間にとって未知のことも含め新たな知識を身につけます。パターンの抽象化それは「ネコ」ですこれは「ネコ」!

(7)

設計書

1.5. 機械学習で強くなった将棋ソフト  将棋ソフトの開発では、長い間、人間が手作業でプログラミングを行ってきました。そのため、開発者の棋力や固定観念に強く影響を受けました。  機械学習を取り入れた「ボナンザ」という将棋ソフトが登場しました。世界コンピューター将棋大会に初出場で初優勝します。  「ボナンザ」は、人間の知識や経験というものを排除し、純粋に 6 万の棋譜データから知識を学習しました。ボナンザ実際に動かしている様子

(8)

設計書

1.6. さらに機械学習で強くなった囲碁ソフト  グーグル子会社が、機械学習の手法の一つである深層学習を利用し「アルファ碁」という囲碁ソフトを開発します。  局面数が桁違いに多い囲碁では、コンピューターがトッププロを破るのは難しいと言われてきましたが、「アルファ碁」が 2016 年 3 月に韓国のトッププロを 4 勝 1 敗で退け、世界に衝撃を与えました。アルファ碁とイ・セドル九段の対決アルファ碁が勝利した第 1 局白:アルファ碁黒:イ・セドル九段

(9)

設計書

1.7. 機械学習とボードゲームの進化 1.8. 機械学習が着目された理由  機械学習は、人工知能の研究から発展しました。  人工知能の研究者たちは、コンピューターがデータから学習できるのではないかと考えました。  人工知能の研究者たちは、それぞれの目的に応じて、統計やその他の手法を総動員して、様々な機械学習の手法を開発してきました。  機械学習によって人工知能の機能や役割は劇的に変わりました。

(10)

設計書

1.9. 身近なところの機械学習  迷惑メールフィルタ

(11)

設計書

1.10. 機械学習とは  機械学習とは、データから学習し、そこに潜む規則を見つけ出すことです。そして新たなデータに対して、学習の結果獲得した規則をあてはめることで、将来を予測することができます。  機械学習のポイントは「データから学習」すること例えば、迷惑メールを分類するために手作業でルールを記述することもできます。機械学習ではこのルールを過去のデータから学習して作成することが、従来のプログラムと大きく異なります。 1.11. モデルの作成と適用  機械学習で学習を行い獲得した規則の集合を「モデル」といいます。機械学習とは、データからモデルを作成することであるともいえます。  機械学習には、学習段階と実運用段階の 2 段階があります。  学習段階学習データからモデルを作成します。  実運用段階学習の結果得られたモデルを、新たなデータに対して適用し予測を行います。

(12)

設計書

1.12. 学習段階 1.13. 実運用段階学習データモデルの作成実データ作成したモデルの評価を行い、モデルの精度が高くなるよう繰り返しパラメーターやモデル作成手法の調整を行う。モデルの評価モデルの適用予測結果学習データモデルの作成実データ実データに対し作成したモデルを適用し、予測を行う。モデルの評価モデルの適用予測結果モデル

(13)

設計書

1.14. まとめ  人工知能の進化と機械学習人間が考えるルールベースの人工知能の限界から、コンピューターが考える機械学習が生まれ、その結果人工知能の分野が劇的に進化しました。  機械学習が着目された理由と機械学習とは何か人工知能の研究の中で、データから学習させるということに着目し、コンピューターが自ら学習する機械学習が発展しました。  機械学習のモデル実際の機械学習とは、学習データから「モデル」を作成することです。機械学習には、モデルを作成する学習段階と、モデルを適用する実運用段階の 2 つがあります。

(14)

2 機械学習の分類 14

設計書

2. 機械学習の分類

2.1. クラス分類と回帰とクラスタリング クラス分類 : 迷惑メールフィルタ 回帰：株価予測クラスタリング：顧客のグルーピング迷惑メールフィルタ OK NG

(15)

設計書

2.2. 機械学習の分類

機械学習

教師なし学習

教師あり学習

回帰

クラスタリング

クラス分類

迷惑メールフィルタ OK NG

(16)

設計書

2.3. 教師あり学習と教師なし学習  教師あり学習は、学習データに正解データが付いています。学習データに正解を手本として与えることで、正解を導く規則をコンピューターが学習する方法です。  教師なし学習は、学習データに正解データが付いていません。何かを学習するということではなく、学習データからその背後にある規則性を見つけ出す方法です。迷惑メールフィルタ OK NG クラス分類回帰クラスタリング

(17)

設計書

2.4. 教師あり学習 : クラス分類と回帰  クラス分類  回帰  正解データが「グループ」で与えられる場合を「クラス分類」といいます。クラス分類は、入力データを正解データで与えられたグループ群のどれかに分類します。  正解データが「数値」の場合を「回帰」といいます。回帰は、入力データから予測される妥当な値を出力します。  典型的なクラス分類の例は、音声や文字の認識、迷惑メールの判定、病気の有無の判定などがあります。  典型的な回帰の例は、販売予測、株価の変動予測などがあります。これは迷惑メール？モデル

Yes

No

明日の株価予測は？モデル

16,000 円

(18)

設計書

2.5. 教師なし学習 : クラスタリング値の類似性に着目して、対象データを複数のグループに分けます。  データから適切なまとまりを作ることでグループを推定する手法を「クラスタリング」といいます。  クラスタリングを実施すると、データがいくつかのグループに集約されます。この集約されたクラスタリングの結果は、未知のデータの特性を把握するために利用します。  クラス分類と似ていますが、クラス分類は正解として予め与えられたグループ群のどれかに分類するのに対して、クラスタリングは正解としてのグループ群がない状態からデータの性質に基づいていくつかのグループに分類します。  典型的なクラスタリングの例は、顧客のセグメント分けなどがあります。

(19)

設計書

2.6. 機械学習の代表的な手法学習データの特徴学習結果の特徴代表的な手法教師あり学習クラス分類決定木ナイーブベイズロジスティック回帰サポートベクトルマシン回帰線形回帰回帰木教師なし学習クラスタリング階層的クラスタリング k-means 法

(20)

設計書

2.7. 機械学習の分類 2.8. 中間的手法  「教師あり学習」「教師なし学習」にあてはまらない手法を「中間的手法」として説明します。  学習データが正解付き・正解なしの混在とみなせるものが「半教師あり学習」と「強化学習」です。  学習手法そのものが教師あり・教師なしの組み合わせとなっているものが「深層学習」です。

機械学習

教師なし学習

教師あり学習

中間的手法

回帰

半教師あり学習

クラスタリング

強化学習

深層学習

クラス分類

迷惑メールフィルタ OK NG

(21)

設計書

2.9. 中間的手法 : 半教師あり学習 2.10. 中間的手法 : 強化学習個々のデータに対して正解は与えられないが、行動を通じた報酬が最大になるように学習する手法を「強化学習」といいます。 2.11. 中間的手法 : 深層学習ニューラルネットワークとは、脳細胞の機能をコンピューター上のシミュレーションで表現することを目指したものです。「深層学習」は、多層のニューラルネットワークを用いた学習手法です。

(22)

設計書

2.12. まとめ  機械学習の様々な手法機械学習には様々な手法があり、「教師あり学習」と「教師なし学習」に大きく分類されます。  教師あり学習と教師なし学習学習データに正解データが付いているものを「教師あり学習」、正解データが付いていないものを「教師なし学習」といいます。教師あり学習は「クラス分類」と「回帰」に分類されます。教師なし学習には「クラスタリング」があります。  中間的手法中間的手法には「半教師あり学習」「強化学習」「深層学習」があります。

(23)

3 モデル作成の基本的な手順 23

設計書

3. モデル作成の基本的な手順

3.1. Weka で機械学習を学ぶメリット

 Weka とは、Java で開発された機械学習用ライブラリ群と GUI を備えた OSS のツールです。

 費用や時間をかけずに手軽にスタートできます。  GUI の簡単操作で機械学習を試すことができ、手法の理解に専念できます。  機械学習のアルゴリズムは既に用意されているので、難しい数学の素養や、高度なプログラミング技能は必要ありません。 3.2. モデル作成の手順の流れ  各ステップで理解しておくべき内容を解説した後で、各ステップの作業を支援してくれるツールを使いながら、具体的なデータでその内容を説明します。  各ステップは以下の 5 つです。データの準備データの読み込み評価法の設定学習法の設定結果の可視化

(24)

設計書

3.3. モデル作成の例題例題として、アヤメのがくと花びらの幅と長さから、アヤメの種類を判定するモデルを作成します。アヤメ(綾目)は、アヤメ科アヤメ属の多年草。ショウブ(菖蒲)とは異なる。 3.4. 3 種類のアヤメ

(25)

設計書

3.5. アヤメの「がく」と「花びら」 sepal : がくの幅・長さ petal : 花びらの幅・長さ 3.6. データの準備  ここでは、Weka に付属のアヤメのデータを利用します。  通常、CSV 形式でデータが用意されることが多いですが、Weka では CSV 形式に詳細なヘッダ情報を 加えた ARFF 形式のファイルをデータとして用います。 データの準備データの読み込み評価法の設定学習法の設定結果の可視化

(26)

設計書

3.7. ARFF 形式のアヤメのデータ

3.8. Weka の起動

 これからアヤメのデータを k 近傍法でクラス分類するモデルを Weka を使って作成します。

 Weka の Knowledge Flow インタフェースを起動します。

@RELATION iris % データセット名

@ATTRIBUTE sepallength REAL % がくの長さ

@ATTRIBUTE sepalwidth REAL % がくの幅

@ATTRIBUTE petallength REAL % 花びらの長さ

@ATTRIBUTE petalwidth REAL % 花びらの幅

@ATTRIBUTE class {Iris-setosa, Iris-versicolor, Iris-virginica} % 3 種類の品種 @DATA 5.1, 3.5, 1.4, 0.2, Iris-setosa 4.9, 3.0, 1.4, 0.2, Iris-setosa 4.7, 3.2, 1.3, 0.2, Iris-setosa 7.0, 3.2, 4.7, 1.4, Iris-versicolor 6.4, 3.2, 4.5, 1.5, Iris-versicolor 6.9, 3.1, 4.9, 1.5, Iris-versicolor 6.3, 3.3, 6.0, 2.5, Iris-virginica 5.8, 2.7, 5.1, 1.9, Iris-virginica 7.1, 3.0, 5.9, 2.1, Iris-virginica

(27)

設計書

3.9. KnowledgeFlow の起動

(28)

設計書

フロー完成図 3.10. データの読み込み  学習データを読み込むための部品をレイアウト画面に配置します。ARFF 形式のファイルを読み込む 部品として、ArffLoader を選択します。  教師あり学習の場合、正解データを表す CSV のカラムを指定する必要があります。そのための部品 として ClassAssigner を追加します。 データの準備データの読み込み評価法の設定学習法の設定結果の可視化

(29)

設計書

ArffLoader をクリックし、アイコンをレイアウトキャンパスに配置する

(30)

設計書

Browse ボタンをクリックする

(31)

設計書

iris.arff ファイルをクリックする

(32)

設計書

OK ボタンをクリックする

(33)

設計書

ArffLoader アイコン上で右クリックし、メニューから dataSet を選択する

(34)

設計書

ClassAssigner アイコン上で右クリックし、メニューから Configure を選択する

(35)

設計書

3.11. 評価法の設定  正解のわからない未知のデータに対してどれだけの正解率が期待できるかが評価のポイントになります。  未知のデータを意図的に作り出して、評価を行います。  学習データの一部を評価用データに使用する方法を「ホールドアウト法」といいます。  学習データが減ってしまう「ホールドアウト法」に対して、減らない方法として「交差確認法」があります。 3.12. ホールドアウト法 3.13. 交差確認法データの準備データの読み込み評価法の設定学習法の設定結果の可視化

(36)

設計書

CrossValidationFoldMaker をクリックして、アイコンをレイアウトキャンパスに配置する

(37)

設計書

カーソルを CrossValidationFoldMaker 上でクリックし、dataSet の線をつなぐ

(38)

設計書

Number of folds に 10 が入力されていることを確認し、OK ボタンをクリックする

3.14. 学習法の設定  学習手法として、「k 近傍法」を使用します。k 近傍法は、入力されたデータに近い学習データを近い順に k 個選び、多数決で所属するクラスを決定します。  k 近傍法で調整すべきパラメータは、近傍としていくつまでの学習データを考えるか、すなわち k の値になります。データの準備データの読み込み評価法の設定学習法の設定結果の可視化

(39)

設計書

3.15. k 近傍法 (k-NN 法)

(40)

設計書

CrossValidationFoldMaker アイコン上で右クリックし、メニューから trainingSet を選択する

(41)

設計書

CrossValidationFoldMaker アイコン上で右クリックし、メニューから testSet を選択する

(42)

設計書

IBk アイコン上で右クリックし、メニューから Configure を選択する

(43)

設計書

3.16. 結果の可視化  学習結果を可視化するには、まずクラス分類の結果を評価する評価部品と、表やグラフとして表示する可視化部品を配置します。  評価部品としては、クラス分類用の評価部品である ClassifierPerformanceEvaluator を使用します。  可視化部品は、TextViewer を使用します。 ClassifierPerformanceEvaluator をクリックして、アイコンをレイアウトキャンパスに配置するデータの準備データの読み込み評価法の設定学習法の設定結果の可視化

(44)

設計書

IBk アイコン上で右クリックし、メニューから batchClassifier を選択する

(45)

設計書

TextViewer をクリックして、アイコンをレイアウトキャンパスに配置する

(46)

設計書

カーソルを TextViewer 上でクリックし、text の線をつなぐ

(47)

設計書

TextViewer アイコン上で右クリックし、メニューから Show results を選択する

(48)

設計書

3.17. 評価の指標  正解率(accuracy) 正解率 = 正解数 / 全データ数 143 / 150 = 0.9533… (約 95.3%)  適合率(precision) モデルが○と推測したデータのうち、正解も○であるデータの割合  再現率(recall) 正解が○であるデータのうち、モデルが○と推測したデータの割合 3.18. 適合率と再現率

(49)

設計書

3.19. 正解率の落とし穴  正解率は最も基本的な指標であり、対象となるモデルの精度を大まかに把握するのに適しています。しかし、弱点もあります。  正解率の落とし穴例えば、迷惑メールの仕分けの例で、評価用データの 5%が迷惑メールだったとします。このとき、モデルがすべてのメールを闇雲に「迷惑メールでない」と判定しても、95%もの高い正解率を示してしまいます。  正解率以外の指標も考慮しないと、精度の良し悪しを見誤ってしまう恐れがあります。 3.20. まとめ  モデル作成の基本的な手順モデルを作成する基本的な手順は、「データの準備」「データの読み込み」「評価法の設定」「学習法の設定」「結果の可視化」の 5 つに分かれます。  k 近傍法 入力されたデータに近い学習データから多数決で所属するクラスを決める手法を「k 近傍法」といいま す。  モデルの評価と指標モデルを評価する指標には、「正解率」「適合率」「再現率」などがあります。

(50)

4 決定木によるクラス分類 50

設計書

4. 決定木によるクラス分類

4.1. クラス分類のおさらい  学習データに正解データが付いているものが「教師あり学習」でした。  「教師あり学習」の中でも正解が数値ではなくグループで与えられるのが「クラス分類」でした。  「クラス分類」は、学習データの与えられ方がグループか数値かで、適用する手法がさらに分かれます。 4.2. 学習データの形式の違い学習データが「グループ」で与えられた例年齢メガネ乱視涙量コンタクト若年近視なし減少なし若年近視なし正常ソフト老眼近視あり減少なし老眼前期遠視なし正常ソフト若年近視あり正常ハード学習データが「数値」で与えられた例がくの長さがくの幅花びらの長さ花びらの幅アヤメの種類 5.1 3.5 1.4 0.2 セトナ 4.9 3.0 1.4 0.2 セトナ 7.0 3.2 4.7 1.4 バーシクル 6.4 3.2 4.5 1.5 バーシクル 6.3 3.3 6.0 2.5 バージニカ

(51)

設計書

4.3. 学習データがグループのクラス分類手法  非統計的手法  決定木  統計的手法：結果に確信度の付与が可能  ナイーブベイズ確信度とはモデルが出力する分類結果に対して、その確からしさを数値で表したもの。例えば病気判定のクラス分類の場合、非統計的手法では病気の有無しか判定できませんが、統計的手法では判定結果に確率がつけられます。 4.4. 学習データが数値のクラス分類手法  非統計的手法  決定木  統計的手法  ナイーブベイズ  ロジスティック回帰  サポートベクトルマシン

(52)

設計書

4.5. 学習データの形式の変換年齢メガネ乱視涙量コンタクト若年近視なし減少なし若年近視なし正常ソフト老眼近視あり減少なし老眼前期遠視なし正常ソフト若年近視あり正常ハードグループで与えられたデータを数値に変換年齢-若年年齢-老眼 年齢-老 眼前期メガネ-近視メガネ-遠視乱視-なし乱視-あり … 1 0 0 1 0 1 0 … 1 0 0 1 0 1 0 … 0 1 0 1 0 0 1 … 0 0 1 0 1 1 0 … 1 0 0 1 0 0 1 … 4.6. 決定木  学習結果のモデル(決定木)を人間が見て理解しやすいという特徴があります。  「決定木」とは、データを分類する質問をノード(節)、分類結果をリーフ(葉)とする木構造です。

(53)

設計書

Weka で作成した決定木 4.7. 二十の扉  「二十の扉」は、出題者が思い浮かべた答えを、解答者が 20 個以内の質問で当てるクイズです。  うまく対象を絞れる質問を初めに持ってくるほうが、答えにたどり着く確率が高まります。

(54)

設計書

4.8. 決定木への修正  アヤメのデータを決定木でクラス分類するモデルを作成します。  k 近傍法で作成したモデルを修正します。「データ準備」から「評価法の設定」までは同じなので、そのまま利用します。「学習法の設定」は、k 近傍法から決定木に変更します。「結果の可視化」として、 決定木を表示する GraphViewer を追加します。 IBk アイコンに注目するデータの準備データの読み込み評価法の設定学習法の設定結果の可視化

(55)

設計書

IBk アイコン上で右クリックし、メニューから Delete を選択する

(56)

設計書

CrossValidationFoldMaker アイコン上で右クリックし、メニューから trainingSet を選択する

(57)

設計書

CrossValidationFoldMaker アイコン上で右クリックし、メニューから testSet を選択する

(58)

設計書

J48 アイコン上で右クリックし、メニューから batchClassifier を選択する

(59)

設計書

実行ボタンをクリックし、ステータスに OK が表示されることを確認する

(60)

設計書

J48 をクリックし、J48 の評価レポートを表示する

(61)

設計書

J48 アイコン上で右クリックし、メニューから graph を選択する

(62)

設計書

実行ボタンをクリックし、ステータスに OK が表示されることを確認する

(63)

設計書

決定木 4.9. まとめ  クラス分類の各手法学習データがグループか数値かで、適用できる手法に違いが出てきます。グループで与えられたデータを数値データに変換する方法があります。  決定木「二十の扉」の考え方が、決定木を作る考え方の基礎にあります。

サイオステクノロジー株式会社