対象物抽出が不正確な場合における局所的特徴量を用いたパターン分類
2
0
0
全文
(2) 情報処理学会第 76 回全国大会. ることである.以下の条件を満たす特徴量を用いる. 1. 2. 1. 2. 1. 2. 条件3. x , x を対象,M(x , x )を x と x から成る対 象全体とする.対象 x の m 番目の特徴量を em(x)∈[0,1] と表わす.各特徴量 em , m = 1, 2, … M が em(x1,2) = em(x1) ⊕ em(x2) for any x1,2∈ M(x1, x2). (4). を満たすこと.ただし,⊕ は2項演算でなくても良いが交 換,結合則を満たす必要がある.(max 演算など) 例えば,式(5)で定義される BoW 法における相対頻度 em(x)=fm(x) / Nm(x) とその加重平均は,式(4)を満たす. em(x1) ⊕ em(x2) = {Nm(x1)em(x1) + Nm(x2)em(x2)} / {Nm(x1) + Nm(x2)} ただし Nm(x) = Σm fm(x), fm(x) は特徴量の出現回数.(5) また,画像識別における局所的特徴量を用いた Bagof-keypoints 法(BoK 法)においても,式(5)と同様の相 対頻度と加重平均は条件 3 を近似的に満たす. 次に,IC を考慮する場合は,条件2より,クラス w1 と w2 が r1 : r2 の場合は,r1 : r2 の加重平均を用いる.OC は以下のように扱う.OC は具体的にクラス {wK+1, w K+2, … , wL} から成り,それぞれの TD が与えられてい るとする.これらのクラスは分離可能である必要は無い. 共 起 す る 可 能 性 の あ る ク ラ ス 同 士 は TD を 合 成 し multiclass を作る.すべての single-class と multiclass の TD を集合としての合併により,OC の TD を生成する. 最後に分類プロセスは,複数のクラスをまとめ分 類結果を絞り込む方法など,様々なバリエーションが 考えられる.本稿では紙面の都合上割愛する. 5 特徴空間の拡張 BoW 法では,特徴量 em の尤度関数は[0, 1]上の連 続関数ではなく,2値{0, 1}上の関数であり,式(1) で個々の TD の特徴量の相対頻度の加重平均を求め ている.通常通り特徴空間を[0, 1]M とするには,推 定された分布 p(x | wk), k = 1, 2 に対し, p(z | w1,2) = ∫z = ax+(1-a)y p(x | w1) p(y | w2)dz, 0 ≤ a ≤1 (6) によって確率変数を合成する.つまり,尤度関数値のベ クトル p(xm = 1|wk) , m = 1, 2, … M が確定値ではなく確 率分布に従うと解釈し,確率分布の「加重平均」を求 めるように拡張する[1]. 合成された TD で作成されたベイズ識別器は,MC に対処できる BoW 法の拡張となっている.すなわち, 核関数の合成で尤度関数を推定する場合に限れば, 式(6) に従って作った分布と,合成された TD から推定 された分布は同一である. 6 検証実験 文書分類(言語判定)において以下の2つの実 験を実施した.特徴量はいずれも byte 単位の 2gram 列.使用した文書は英語(E),ドイツ語(G),フ ランス語(F),スペイン語(S),イタリア語(I),ポル トガル語(P)のいずれも科学技術関連の新聞記事. 各文書はスペースを含め 450 文字程度.特徴量の重 み付けはせず,特徴量の制約のみ行った.. 2-16. 実験 1 IC + MC の検証 対象クラスは w1:E,w2:G.分類対象は w1 と w2 の比が 0, 0.1, 0.2, … , 1 の 11 通りについて各 10 個.w1 と w2 の TD はそれぞれ 15 文書を用意.クラス w1,2 に対しては, 式(5)によって w1 と w2 の比率が 7:3, 5:5, 3:7 のデータを それぞれ 15 個合成.学習後に尤度関数を重ね合わせた. 考察で触れるが,事前確率は P(w1) = P(w2), P(w1,2) / P(w1) = 1.07 とした.出力を w1,2 = 1, w1 = w2 = 0 として求め た 10 個の対象の平均値を図2(a) に示す. 実験2 IC + OC の検証 対象クラスは w1:E.OC は w0={w2, w 3, … w6}={G,F,S,I,P}. 分類対象は w1 と w0 の比 w1/w0 が 0, 0.1, 0.2,…0.5 の 6 通 りについて各 10 個.TD は w1, w2, w 3, … , w6 からそれ ぞれ 15 文書を用意.クラス w1,0 に対しては,式(5)によ って w1 と wi , i = 2, 3, … 6 の比率が 7:3, 5:5 のデータを それぞれ 15 個合成.学習後に尤度関数を重ね合わせた. 事前確率は P(w1,0) / P(w1) = 1.02 とした.出力を w0 = 1, w1 = 0 として求めた 10 個の対象の平均値を図2(b)に示す. 実験1,2とも,図 1 のような理想通りでは無いものの,各ケ ースへの対応が可能であることが確認される. w0 = 1, w1 = 0. w1,2 = 1, w1 = w2 = 0 1. 1. 出力. 出力. 0. 0 0. 0.5. w1,2のサイズ. 1. w1 or 2のサイズ. 0. 0.5. w0のサイズ w1のサイズ. (a) 実験 1 (b) 実験2 図2 各実験のサイズ比毎の 10 対象の平均値 7 考察および結論 考察:合成や合併によって尤度関数は生成すること が出来るが,事前確率は求めることが出来ない.これら を等確率としてしまうと著しく精度が低下する場合がある. よって本手法ではベイズ識別器よりは,SVM などの decision machine の利用が適している.一方で,class status value が求められるベイズ識別器には,クラスに属 す度合いを数値化することが出来る長所がある. 結論:局所的特徴量を用いることで,パターン分類に おいて対象の抽出が不正確な場合においても,通常の, つまり抽出が正確な場合のパターン分類法に帰着させ ることが可能であり,画像分類への応用が期待される. 参考文献 [1] I. Suzuki, Pattern Classification Using Bag-of-Keypoints for Improper Object Extraction, CINTI 2013, Budapest [2] G.Tsoumakas and I.Katakis, Multi-label classification: an overview, International Journal of Data Warehouse & Mining, 3(3), pp.1–13, 2007. [3] G. Madjarov, D. Kocev, D. Gjorgjevikj, and S. Džeroski, An extensive experimental comparison of methods for multi-label learning, Pattern Recognition, Vol. 45(9), 2012. [4] M. Sahami, S. Dumais, D. Heckerman and E. Horvitz, "A Bayesian approach to filtering junk e-mail", AAAI'98 Workshop on Learning for Text Categorization, 1998. [5] D. A. Forsyth and J. Ponce, Computer Vision: A Modern Approach, 2e, Prentice Hall, 2011.. Copyright 2014 Information Processing Society of Japan. All Rights Reserved..
(3)
関連したドキュメント
3.胆管系腫瘍の病態把握への:BilIN分類の応用
• 1つの厚生労働省分類に複数の O-NET の職業が ある場合には、 O-NET の職業の人数で加重平均. ※ 全 367
実際, クラス C の多様体については, ここでは 詳細には述べないが, 代数 reduction をはじめ類似のいくつかの方法を 組み合わせてその構造を組織的に研究することができる
注)○のあるものを使用すること。
接続対象計画差対応補給電力量は,30分ごとの接続対象電力量がその 30分における接続対象計画電力量を上回る場合に,30分ごとに,次の式
接続対象計画差対応補給電力量は,30分ごとの接続対象電力量がその 30分における接続対象計画電力量を上回る場合に,30分ごとに,次の式
(Ⅰ) 主催者と参加者がいる場所が明確に分かれている場合(例
点検方法を策定するにあたり、原子力発電所耐震設計技術指針における機