社会情報特講Ⅲ
第2回
先週の感想からA
• 以前買ったパターン認識の本はモチベーションが続 かず、かつ難しくほとんど理解できなかったため、本 講義では理解しやすい講義を期待する。 • 元々理系の授業に興味があったが、文系向けに優し く説明してくれる授業が今まであまりなかったので、 今度こそ理系特にAIといった新しい学問を学ぶこと ができることを期待する。 • 昔、松尾豊著の「人工知能は人間を超えるか」という 本を読んでからこの講義でやるような分野に興味を 持っていたので、さらに理解を深め知識を獲得できる ことをとても期待している。先週の感想からB
• 毎回の授業終わりの感想をしっかり書いて次回の授 業初めに発表されたい。 • 必ず単位を取ります。また最優秀感想文に選ばれる ように毎回の授業でしっかり内容を身につけたい。 • Coffee Breakが3講(オペレーションズリサーチ)と一 緒だったのはびびった。 • 私語がうるさかったら注意してくださるよう、よろしくお 願いします。 • 最近何かびっくりすることはありましたか。社会情報特講Ⅲのスケジュール
第2回4/16 :パターン認識 第3回4/23 :パターン認識の実習(第1実習室) 第4,5回5/7,14:ニューラルネットの基礎 第6回5/21 :ニューラルネットの基礎(第1実習室) 第7,8回5/28,6/4:ニューラルネットの応用 第9回6/11 :ニューラルネットの応用(第1実習室) 第10,11回6/18,25:深層学習の基礎 第12回7/2 :深層学習の基礎(第1実習室) 第13,14回7/9,16:深層学習の応用 第15回7/23:深層学習の応用(第1実習室)パターン認識とは
• 人間が知覚する画像・音声情報をパターンという. • パターン認識とはパターンを複数概念(クラス)の一 つに対応させる処理である。 – 文字認識:手書きの郵便番号を自動認識 – 画像認識:画像から知人の誰かがわかる。 – 音声認識:音を聞き何を言っているかわかる。 • 近年パターン認識が人工知能と融合し、深層学習 などの機械学習により大量データからの識別手法 が可能になった。パターン認識の前処理
• パターン認識システムは下図の構成で実現する。 • 前処理ではカメラやマイクから入力し、アナログ信号をデ ィジタル信号に変換する。 • 特徴抽出は前処理データから識別に役立つ情報を取り 出し、不要な情報を捨てる。 • 文字認識では色や大きさは不要情報で、画像「あ」パタ ーンは記号 「あ」文字に 変換される。パターン認識の識別部
• 識別部は特徴ベクトルを識別辞書のクラス標本ベクト ルと比較し識別する。 • 識別辞書には「あ」の手本ベクトル、「い」の手本ベクト ル、…が格納されている。 • 特徴ベクトルと標本ベクトルは完全一致することはない ので何かの基準で「近い」ものを選ぶ。 • 選ばれた標本ベクトルのクラスが認識結果である。• 入力からパターン認識に役立つ情報を取り出し、変動に 影響されない情報が必要である。 • 同じ音声でも取り出す特徴が全く違う。 – 音声認識では話す内容特徴を話者と無関係に取り出す。 – 話者認識は逆に話者特徴を内容と無関係に取り出す。 • 一つのみの特徴では全クラス分類がうまくいかない。 – 目だけの情報から誰の顔か見分けるのは難しい。 – 人間でも顔の見分けは髪型・輪郭・肌色の複数特徴を使う。
パターン認識の特徴抽出
パターンのベクトル表現
• パターン認識の特徴は以下のd個の特徴からなるd次 元ベクトルで表現する。 x = (x1, x2, . . . , xd)T (1.1) • このd次元空間を特徴空間、xを特徴ベクトルと呼ぶ。 • 特徴ベクトルは特徴空間上の1点で (右図)特徴抽出部の出力になる。 • 特徴ベクトルxは一般に列ベクトルで 表現するが、空間節約のために行 ベクトルで書き転置Tする。パターン認識の標本ベクトル
• 識別部は認識結果を出すので重要である。 • 識別は識別辞書を用い、入力の特徴ベクトルが どのクラスに属するかを判別する。 • 識別辞書には各クラスの標本 ベクトルを格納する。 • C種類の識別クラスの標本ベ クトルをp1,. .,pC とする(右図)。パターン認識の最近傍法
• 入力データの特徴ベクトルをxとし、識別辞書から どのクラスに識別されるか判定する。 • xと各標本ベクトルの距離が最短のクラスを正答 とする。 • この方法を最近傍法とい う。 • 右図では、入力xに最も 近いのは標本ベクトルpi なので、xはクラスiに属 する。標本ベクトルの決め方
• 手書き数字では数人が数字を書き、特徴とクラス(数 字)を記録しこれを学習データと呼ぶ。 • 同クラスのデータはばらつきはあるが特徴空間上で 塊りになるので、標本ベクトルを塊りの中心に選ぶが 必ずしも中心が最適とは限らない。 • 最近傍法は2クラスの場合、入 力xが標本から等距離の線の どちらかを判定する。 • クラス間境界を決める標本ベク トルが不適切ならば右図の間 違った境界線が引かれる。好きなスポーツ選手(その1)
大谷翔平
• 平成25年4月 日本ハ
ムファイターズ入団
• 平成30年4月 大リー
グ・エンゼルス入団
現在24才
大谷翔平のポジション
2刀流
投手(先発)
+
大谷翔平の成績
所属
投手 打率(本塁打)
---1年目 日ハム
3勝0敗 .238( 3)
2年目 日ハム
11勝4敗 .274(10)
3年目 日ハム
15勝5敗 .202( 5)
4年目 日ハム
10勝4敗 .322(22)
5年目 日ハム
3勝2敗 .286( 8)
6年目 エンゼルス
2勝0敗 .367( 3)
(4月15日現在)
大谷君の性格1
1 今までの選手にない性格?
個人スポーツをしている雰囲気がする選手。ス トイックで趣味が野球。野球だけを取り組む真 面目な性格。まさに見た目と同じ。2 意外に昭和っぽい?
考え方は今どき感じ方は昭和的。食うか食わ れるかの悔しさの出し方が肉食。今日やられ たら終わりの感じ。怒ると監督話を聞かず、よ り試合出たい・交代したくないなど我儘だ。大谷君の性格2
3 真面目な性格エピソード
年棒3億+スポンサ料も稼ぐが、お金は両親が 管理し小遣いは月10万。趣味には使わず野球 が趣味。仲間の夕食誘いも飲酒だと断る。4 チキンな性格?
米球団勧誘で名門ヤンキースは侮辱を感じ新 聞は「チキンだ。大都市を恐れた」と書いた。お 金やビックネームに釣られない。5 生意気な性格?
先輩を平気でイジり小ばかにする。生意気でい たずら好き。チームメートと良好な関係。パターン認識の数値例
• 最近傍法を用いてパターン認識の解を求める。 • パターン特徴量を数値ベクトル化する。 • 未知パターンと複数既知パターンの距離が最短 のパターンを求めるクラスとする。 • 既知パターンをA=(x1,y1), B=(x2,y2), C=(x3,y3), 未知パターンをZ=(x,y)とする。 • ZとA,B,C間の距離(の2乗)a,b,cは次式で求め、そ の最小値を求めるクラスとする。 a=(x1-x)2+(y1-y)2 , b=(x2-x)2+(y2-y)2,
c=(x3-x)2+(y
例1a G君が風邪か否か判定
• 右表は風邪A, B, C君と平常D, E, F君の体温と咳回数を示す。 • 具合未知のG(体温38.5咳17回)が 風邪か否かを最近傍法で求めよ。 • 未知のG君の判定 – GとAの距離の2乗:(38.5-38.5)2+(15-17)2=0+4=4 – GとBの距離の2乗:(39.0-38.5)2+(10-17)2=0.25+49=49.25 – GとCの距離の2乗:(38.0-38.5)2+(20-17)2=0.25+9=9.25 – GとDの距離の2乗:(37.5-38.5)2+( 8-17)2=1+81=82 – GとEの距離の2乗:(36.5-38.5)2+( 7-17)2=4+100=104 – GとFの距離の2乗:(36.7-38.5)2+( 5-17)2=3.24+144=147.24 • GはAとの距離4が最小なのでAと同じ風邪と判定。例1b H君が風邪か否か判定
• 具合未知のH(体温36.8咳10回) が風邪か否かを最近傍法を用い 推定する。 • 未知のH君の判定 – HとAの距離の2乗:(38.5-36.8)2+(15-10)2=2.89+25=27.89 – HとBの距離の2乗:(39.0-36.8)2+(10-10)2=4.84+0=4.84 – HとCの距離の2乗:(38.0-36.8)2+(20-10)2=1.44+100=101.44 – HとDの距離の2乗:(37.5-36.8)2+( 8-10)2=0.49+4=4.49 – HとEの距離の2乗:(36.5-36.8)2+( 7-10)2=0.09+9=9.09 – HとFの距離の2乗:(36.7-36.8)2+( 5-10)2=0.01+25=25.01 • HはDとの距離4.49が最小なのでDと同じ平常。例2a 数字認識問題の表現
• 右図の左側に数字0-4 の25次元ベクトル(0 (白)1(黒)の5×5=25) を標本ベクトルとし、右側の入力パターン「1」がどのク ラスに識別されるかを最近傍法を用いて求めよ。 • 標本ベクトルpi(i=0〜4)は25次元で、 p0=(0,1,1,1,0,1,0,0,0,1,1,0,0,0,1,1,0,0,0,1,0,1,1,1,0) p1=(0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0) p2=(0,1,1,1,1,1,0,0,1,0,0,0,1,0,0,0,1,0,0,0,1,1,1,1,1) p3=(0,1,1,1,0,1,0,0,0,1,0,0,1,1,0,1,0,0,0,1,0,1,1,1,0) p4=(0,0,1,0,0,0,1,0,0,0,1,0,0,1,0,1,1,1,1,1,0,0,0,1,0)例2b 数字「1」の認識
• 図の右端の未知ベクト ルxは見た目は「1」だが
正しく識別されるか?
• xとpi(i=0〜4)との距離(の2乗)は以下で計算する D(x,pi) =(x1−pi1)2+(x2−pi2)2+··+(x25−pi25)2
• 要素差は(-1,0,+1)で、2乗は(0,1)なので、距離はx とpiの異なるマス目を数えるだけでよい(右下表)。
• 未知ベクトルxは直感に 反して「4」と識別された。