だが,直進および斜行のパターンが精度にあまり影響を与えないことがわかった.したがっ て,学習パターンが少なくても車椅子利用者を検出でき,頑健性を示すことができた.また,
適合率とは,正解と予測した件数のうち実際に正解しいてる割合のことで,車椅子利用者の過 検出がどれだけ少ないかを示す.本手法では,過検出は許容するが,駅員に無駄足をさせない ために,少ないに越したことはない.その点,評価(1)(3)の結果を見ると,0.99で適合率は 非常に高いと言える.システムとして,車椅子利用者が検出された場合,それが誤検出である 可能性は低く,信頼性が高い.
最後に,本提案手法における学習データ数に着目する.今回,検出器を作成するために使用 した学習データ数はどれも800である.画像認識における学習データ数は,数千から数万の データ数を要することが多い.例えば,手書き数字の認識では,6万もの学習データが必要と なる.本提案手法における学習データ数が非常に少ないことがわかる.したがって,本提案手 法は他の検出手法に比べて圧倒的に容易に検出器を作成できる.また,学習データ数を増やす ことで,要求条件を十分に満たすことができると考えられる.しかし,少ない学習データ数で も高い精度を得られることは,ある駅にこの提案手法の監視システムを導入する際,非常に短 いリードタイムで済み,大きなメリットになりうる.
以上の評価結果より,本手法は駅ホームを想定した遮蔽がない環境において,直進および斜 行する車椅子利用者の検出は十分可能であることがわかった.しかし,検出漏れの存在によ り,要求条件を十分には満たしていないので,精度の改善の余地があると言える.
第 6 章
結論
本研究では,骨格推定技術であるOpenPoseを用いて,駅ホームにおける車椅子利用者を検 出する手法を提案した.検出には,多層パーセプトロンと呼ばれるニューラルネットワークを 用いて検出器を作成した.学習データとして入力したパラメータは,OpenPoseで取得した画 像上の骨格座標から算出した関節角度や関節間距離の比などである.評価実験では,作成した 検出器の精度を評価した.正解率,適合率,再現率ともに9割以上という高い精度を得ること ができた.また,学習データ数は800という非常に少ないにも関わらず,これほどの精度を得 ることができたため,一般的な画像認識を利用した検出よりも容易に検出器を作成できること がわかる.それに加えて,車椅子利用者の骨格の普遍性が高いということも同時に言える.
今後の課題として挙げられるのは,電動車椅子の検出である.本研究は手動式に限定した検 出手法である.実際には電動車椅子利用者も数多く存在するため,対応する必要がある.ま た,実際の駅ホームでは,多くの人が行き交うため,監視カメラで車椅子利用者の全身を観測 することは難しいと考えられる.したがって,遮蔽状況においてもしっかりと車椅子利用者を 検出できる手法の提案が必要となる.また,車椅子が監視カメラに対して必ずしも,正面を向 いて直進または斜行しているとは限らないため,横向きに走行してたり,後ろを向いて走行し ているケースも十分に検出することが必要となる.次に,より駅ホームの環境に近い環境下で の実験も必要である.今回は,非常に簡易的な環境下での実験のため,汎用性があるかわから ない.実際の駅ホームの幅や奥行き,監視カメラの設置間隔,設置角度を考慮した実験が重要 となる.また,駅ホームに限定せずエレベータ前や改札口付近など様々な場所での検出可能性 があるので,様々な環境下での検出も今後の課題である.また,本研究のメリットである計算 負荷の低減に伴う処理速度の高速化の評価も挙げられる.また,MLPに限らず,他の学習モ デルでの評価を行うことで,より最適な学習モデルを模索する必要性がある.また,画像ベー スで車椅子を検出する従来手法との比較評価も必要である.そして最後に車椅子利用のみなら ず,視覚障害者や酔客,歩きスマホをする人など事故を誘引する可能性が高い人物の検出を可 能とする,駅ホームにおける実用的な映像監視システムの提案が最終的な課題である.
謝辞
本研究を進めるにあたり,ご指導頂きました朝香卓也教授,西辻崇助教,倉元昭季助教に深 くお礼申し上げます.また,本研究に関して議論して下さった朝香研究室の皆様に深謝し,今 後一層の発展を心よりお祈り申し上げます.
参考文献
[1] 内閣府,“平成30年版交通安全白書”
https://www8.cao.go.jp/koutu/taisaku/h30kou haku/pdf/gaiyo/1-1-2.pdf,Dec. 2018.
[2] 国土交通省,“駅ホームにおける安全性向上のための検討会” http://www.mlit.go.jp/common/001157244.pdf,Dec.2018. [3] 内閣府,“平成30年版障害者白書”
https://www8.cao.go.jp/shougai/whitepaper/h30hakusho/zenbun/index-pdf.html, Dec.2018.
[4] 内閣府,“平成30年版高齢社会白書”
https://www8.cao.go.jp/kourei/whitepaper/w-2018/zenbun/30pdf index.html,Dec. 2018.
[5] 電動車いす安全普及協会,“集荷台数の推移”
https://www.den-ankyo.org/society/transition.html,Dec.2018. [6] Panasonic,“パナソニックの交通ソリューション 安心・安全”
https://sol.panasonic.biz/solution/traffic/safety.html,Dec.2018.
[7] Ashish M.,Dr. Niels D.,and Dr. Mubarak S.,“Wheelchair Detection in a Calibrated Environment,”In Proceedings of the 5th Asian Conference on Computer Vision, pp.706-712,2002.
[8] C.-R. Huang,Dr. P.-C. Chung,K.-W. Lin,and S.-C. Tseng,“Wheelchair Detection using cascaded decision tree,”In IEEE Transactions on Information Technology in Biomedicine,vol.14,no.2,pp.292-300,Mar.2010.
[9] Tanikawa U.,Kawanishi Y.,Deguchi D.,Ide I.,Murase H. and Kawai R., “Wheelchair-user Detection Combined with Parts-based Tracking,”In Proceedings of the 12th International Joint Conference on Computer Vision,Imaging and Computer Graphics Theory and Applications (VISIGRAPP),vol.5,pp.165-172,2017.
[10] 柳井啓司,“一般物体認識の現状と今後,”情報処理学会論文誌:コンピュータビジョン・
イメージメディア,vol.48,no.SIG16 (CVIM19),pp.1-24,2007.
[11] 柳井啓司,“一般物体認識における機械学習の利用,”電子情報通信学会技術研究報告,
IBISML,情報論的学習理論と機械学習,vol.110,no.76,pp.103-112,2010.
[12] Turk M. and Pentland,“Eigenfaces for Recognition,”In Cognitive Neuroscience, vol.3,no.1,pp.71-96,1991.
[13] Murase H. and Nayar S. K.,“Visual Learning and Recogni- tion of 3-D Objects from Appearance,”In International Journal of Computer Vision,vol.14,no.9,pp.5-24, 1995.
[14] Schmid C. and Mohr R.,“Local Grayvalue Invariants for Image Retrieval,”In IEEE Transactions on Pattern Analy- sis and Machine Intelligence,vol.19,no.5, pp.530-535,1997.
[15] Lowe D. G.,“Distinctive Image Features from Scale Invariant Keypoints,”In Inter-national Journal of Computer Vision,vol.60,no.2,pp.91-110,2004.
[16] Sivic J. and Zisserman A.,“Video Google: A Text Retrieval Approach to Object Matching in Videos,”In Proc. of IEEE International Conference on Computer Vision, pp.1470-1477,2003.
[17] Csurka G., Bray C., Dance C. and Fan L.,“Visual Categorization with Bags of Keypoints,”In Proc. of ECCV Work- shop on Statistical Learning in Computer Vision,pp.59-74,2004.
[18] Bernhard E. Boser, Isabelle M. Guyon and Vladimir N. Vapnik,“A Training Al-gorithm for Optimal Margin Classifiers,”In Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory,pp.144-152,1992.
[19] Joachims T.,“SVM light” http://svmlight.joachims.org/
[20] Chang C. C. and Lin C. J.,“LIBSVM: A Library for Support Vector Machines”
http://www.csie.ntu.edu.tw/ cjlin/libsvm/,Dec.2018.
[21] Ross G.,Jeff D.,Trevor D.,and Jitendra M.,“Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation,”In Computer Vision and Pattern Recognition (CVPR),2014.
[22] Kaiming H.,Xiangyu Z.,Shaoqing R.,and Jian S.,“Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition,”In European Conference on Computer Vision (ECCV),2014.
[23] Ross G.,“Fast R-CNN,”In International Conference on Computer Vision (ICCV), 2015.
[24] Wei L.,Dragomir A.,Dumitru E., Christian Szegedy,Scott Reed,Cheng-Yang Fu,and Alexander C. Berg,“SSD:Single Shot MultiBox Detector,”In European
Conference on Computer Vision (ECCV),2016.
[25] Joseph R.,Santosh D.,Ross G.,and Ali F.,“You Only Look Once:Unified, Real-Time Object Detection,”In Computer Vision and Pattern Recognition (CVPR), 2016.
[26] Joseph R.,and Ali F.,“YOLO9000:Better,Faster,Stronger,”In Computer Vision and Pattern Recognition (CVPR),2017.
[27] Joseph R.,and Ali F.,“YOLOv3:An Incremental Improvement,”arXiv:1804.02767, 2018.
[28] Shaoqing R.,Kaiming H.,Ross G.,and Jian S.,“Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks,”In Conference on Neural Information Processing Systems (NIPS),2015.
[29] Kaiming H.,Georgia G.,Piotr D.,and Ross G.,“Mask R-CNN,”In International Conference on Computer Vision (ICCV),2017.
[30] TOYOTA,“ナイトビュー”
https://www.toyota.co.jp/jpn/tech/safety/technology/technology file/active/night view.html, Dec.2018.
[31] 日本経済新聞,“年齢と性別を判別して商品をオススメ、JR品川駅にデジタルサイネー ジ搭載の自販機登場”
https://www.nikkei.com/article/DGXNASFK1002A Q0A810C1000000/,Dec. 2018.
[32] NEXT-SYSTEM,“Virtual Fashion”
https://www.next-system.com/kinect/virtualfashion,Dec.2018.
[33] 楠房子,和田久美子,江草遼平,後関政史,足立孝之,溝口博,生田目美紀,稲垣成哲,“ インクルーシブデザインに基づいたインタラックティブな人形劇の開発と実践,”電子情 報通信学会論文誌D,vol.J96-D, no.1, pp.66-69, 2013.
[34] Zhe C.,Tomas S.,Shih-En W.,and Yaser S.,“Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields,”In Computer Vision and Pattern Recognition (CVPR),2017.
[35] Alejandro N.,Zhiao H.,and Jia D.,“Associative Embedding: End-to-End Learning for Joint Detection and Grouping,”In Conference on Neural Information Processing Systems (NIPS),2017.
[36] GitHub,“mmittek/openpose-keras”
https://github.com/mmittek/openpose-keras,Dec.2018. [37] YouTube,“OpenPose:Face Tracking”
https://www.youtube.com/watch?v=vF V6i-h2nY,Dec.2018.
[38] Hossein F.,Amin M.,Hawre H.,and Rainer H.,“Swim Stroke Analytic: Front Crawl Pulling Pose Classification,”In 25th IEEE International Conference on Image Processing (ICIP),2018.
[39] Sang-Ki K.,Jae G.,and Hyedong J.,“Sign Language Recognition with Recurrent Neural Network using Human Keypoint Detection,”In Research in Adaptive and Convergent Systems (RACS),2018.
[40] ISID,“ISID、動 画 か ら 人 の 動 作 や 姿 勢 を 抽 出 す る ソ リ ュ ー シ ョ ン「Act Sense」 の 提 供 を 開 始 〜 カ ー ネ ギ ー メ ロ ン 大 学 の 姿 勢 検 知 技 術「OpenPose」を 採 用 〜” https://www.isid.co.jp/news/release/2018/0627.html,Dec.2018.
[41] Rumelhart,David E.,Geoffrey E.,and Williams R.,“Learning Internal Representa-tions by Error Propagation,”In Parallel Distributed Processing:Explorations in the Microstructure of Cognition,vol.1, chapter 8, pp.318362,MIT Press,Cambridge, MA,1986.
[42] Rosenblatt F.,“The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain,”Psychological Review,vol.65,No.6,1958.
[43] 国土交通省,“第4章 基本寸法等”
http://www.mlit.go.jp/common/001179685.pdf,Dec.2018.
[44] Rza A.,Natalia N.,and Iasonas K.,“DensePose:Dense Human Pose Estimation In The Wild,”arXiv:1802.00434,2018.
[45] Christopher M. Bishop,“Pattern Recognition and Machine Learning (Information Science and Statistics)”,Springer-Verlag Berlin Heidelberg,2006.
[46] Ian G.,Yoshua B.,and Aaron C.,“Deep Learning (Adaptive Computation and Machine Learning)”,MIT PR,2016.
[47] Antonio G.,and Sujit P.,“Deep Learning with Keras”,Packt,2017.
[48] Aurelien G.,“Hands-On Machine Learning with Scikit-Learn and Tensor-Flow:Concepts,Tools,and Techniques to Build Intelligent Systems”,OREILLY ME-DIA,2017.
付録
学習データを表6.1のようなデータの内訳で作成した検出器を用いて,表6.2のような内訳 のテストデータで評価(4)(5)を行なった.結果を以下に示す.
表6.1. 検出器の学習データ数の内訳
検出器(2) 検出器(3) 車椅子利用者のパターン(ア)のデータ数 0 200 車椅子利用者のパターン(イ)のデータ数 400 200 非車椅子利用者のデータ数 400 400
学習データ数の合計 800 800
表6.2.追加2つの評価ケース
評価(4) 評価(5) 車椅子利用者のパターン(ア)のデータ数 0 50 車椅子利用者のパターン(イ)のデータ数 100 50 非車椅子利用者のデータ数 100 100 テストデータ数の合計 200 200
使用する検出器 (2) (3)
表6.3. 評価結果
正解率 適合率 再現率 評価(4) 0.975 0.980 0.970
評価(5) 0.965 1 0.930
図6.1.評価(4)のloss
図6.2.評価(4)のaccuracy