Deep Learningベースの画像認識エンジンのご提案

(1)

Deep Learning

(2)

1. 会社紹介（10分）

2. Deep Learningに関する取組み（40分）

(3)

 東大発ベンチャーとしてスタート

 設立11年

 7年目マザーズ上場

 実用的な画像処理技術が強み

 従業員数60人弱の研究・開発型組織

モルフォ

(4)

 主要事業：B2B向け画像処理技術ソフトウェア・ライセンス事業

 対象市場：国内外の携帯電話端末市場を中心に、デジタルカメラ・画像関連サービス市場等

ビジネスモデル

モ

ル

フ

ォ

半

導

体

製

造

メ

ー

カ

様

組込最終製品が

携帯電話

の場合

携

帯

電

話

端

末

機

器

メ

ー

カ

様

通

信

事

業

者

様

一

般

利

用

者

（

ユ

ー

ザ

）

ソフトウェアの利用許諾や、ソフトウェア開発サポート・保守サポート等の役務提供の流れ

LSIの販売対価端末の開発及び販売等開発費及び端末代金等端末の販売及び通信等の各種サービス端末代金及び通信料等支払い

(5)

モバイルイメージング技術

3S

Shoot

Show

Search

撮る

見る

探す

高速画像ビューワ

手ブレ補正

パノラマ撮影

HDR撮影／WDR補正

ノイズ除去

新たな

付加価値

創出へ

シーン認識

※

タグ付け

※

物体検出

※Deep Learning技術の応用

(6)

 グローバルな成功と実績

 主要な海外取引先

 Samsung, Motorola, LG, HTC, Huawei, Lenovo 等

海外売上高比率は前期80％超

 日本を代表するリーンスタートアップ企業

 アジャイル手法によるスピーディな開発

 柔軟かつ手厚いサポート体制

世界トップレベルのソフトウェア技術力

Sony Mobile Communications アワード受賞

Huawei アワード受賞

(7)

9

スマートフォンでの採用実績例

DIGNO M

Morpho HDR™

PhotoSolid®

MovieSolid®

Morpho Defocus ™

Morpho EffectLibrary ™

Morpho FilerEngine™

PhotoScouter ®

Morpho HDR™

PhotoSolid®

MovieSolid®

Morpho Denoiser ™

Morpho Video Denoiser ™

Morpho Panorama ™

Mopho Panorama GP ™

Optimus G2/ G Pro

Morpho Panorama ™

Galaxy Note 3

Moto G

Morpho HDR™

Morpho Video Denoiser ™

Moto E

Morpho HDR™

Morpho Hyperlapse ™

(8)

モルフォ製品の携帯端末への搭載実績

15億

10億

５億

０ 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

 国内外での搭載ライセンス数は

累計11億ライセンスを超え

て

います。

 特に、

2013年以降だけで５億ライセンス

と急激に伸びています。

(9)

画像処理を前提とした写真撮影

カメラの

物理的・光学的な限界

から生じる課題を

軽減・解決することを目的とした技術

Computational Photography

物理特性

撮像素子サイズ（小）

光学特性

レンズの口径（小）

フラッシュの光量（小）

入光量（小）

シャッタースピード

（遅）

手ブレ発生（多）

スマートフォンカメラ

の課題

ノイズ（多）

感度アップ必要性

（大）

レンズの長さ（短）

_{光学ズーム倍率（小）}

レンズ交換可否（不可）

広角撮影範囲（有限）

スマートフォン搭載カメラの特性

照射範囲（短）

レンズ収差（大）

レンズ組合せ（限定的）

広角レンズ（不可）

手ブレ補正技術

ノイズ除去技術

超解像化技術

パノラマ合成技術

モルフォの課題解決

ソリューション

歪補正（研究開発中）

(10)

動被写体の動きとカメラの動き量を計算可能

モバイルイメージングの根幹

SOFTGYRO

®

③前後ブレ + ④回転ブレ ⑤横ブレ＋ ①回転ブレ ⑥縦ブレ＋ ②回転ブレ動き検出２自由度：①＋② ６自由度：①＋②＋③＋④＋⑤＋⑥

ハードウェア（ジャイロセンサー等）

ソフトウェア（SOFTGYRO®）

容積

✖ 追加部品搭載が

必要

〇追加部品搭載が

不要

コスト

✖ 比較的

高価

〇比較的

安価

ブレ

補正

✖ ２自由度での補正

（右下図：

①

＋

②

）

〇６自由度までの補正が可能

（右下図：

①

＋

②

＋③＋④＋

⑤

＋

⑥

）

(11)

(12)

(13)

(14)

Deep Learningへのアプローチ

 どんなデバイスでも認識

 サーバ側のみで学習

学習

入力データ

NVIDIA DIGITS

＋

Caffe

＋

α

認識

モデル

＋

タブレット

PC

等々

・

・・・

・・

(15)

 Caffeベース

効率的な実装と拡張性

最新の研究成果との比較

 可視化

学習誤差と予測誤差の可視化

学習率の推移

 シンプルなインターフェイス

プラットフォーム依存しない非常に軽い学習インターフェイス

専門的なエンジニアでなくても使える

NVIDIA DIGITS

(16)

Deep Learning 取組み事例

認識器のワンストップ提供

・フォトストレージサービス事業者様向け、自動画像分類（タグ付け）用途

・医療、建設業界向け、画像診断用途

・不正画像フィルター用途

学習環境の提供およびコンサルティング

・フォトストレージサービス事業者様向け、独自自動画像分類用途

・研究開発機関向け

(17)

国内ビジネスパートナー

情報通信産業

（3社）

• フォトストレージ

デジタルカメラ

（１社）

• フォトストレージ

• フォトギャラリー

• ウェブプリント

ウェブ

（３社）

• フォトストレージ

• フィルタリング

• デジタルマーケティング

非ＩＴ産業

（２社）

• 検査

• 診断

(18)

画像とDeep Learning

114, 110, 103, 102, … 114, 106, 104, 102, … 109, 106, 107, 104, … 92, 90, 86, 87, … 81, 82, 80, 73, … . . . . . . . . . . . . . . . .

特徴量抽出

アルゴリズム

.

機械学習

アルゴリズム

猫

(19)

Convolutional Neural Network（LeNet）

人

室内

花

・

convolution

pooling

convolution

pooling

fully connected

(20)

特徴量抽出

Convolution

Pooling

-1 0 1

-2 0 2

-1 0 1

⇒

-1 -2 -1

0 0 0

1 2 1

⇒

• 特定のパターンを抽出

• フィルタの大きさ・ステップ幅次第で次元数を増減できる

• フィルタ数次第でパラメータ数を増減できる

11

20

50

54

4

5

3

77

4

70

20

22

10

20

44

34 • フィルタの大きさ・ステップ幅次第で次元数を減らせる

• 局所的な不変性を得られる

20

77

70

44

10

46

26

30 Max pooling

Average pooling

(21)

一般画像認識

猫

画像認識

物体検出

易しい

問題の難しさ

速い

遅い

計算処理の重さ

セグメンテーション

(22)



高い認識率

と

高速処理

を実現



スマートフォン

上で動作する軽量な認識器から、

サーバ

上で動作する高認識率の認識器まで幅広い用途に対応可能

モルフォの強み

計算コスト

高

(サーバ向け)

低

(ｽﾏｰﾄﾌｫﾝ向け)

認識率

高

低

Deep Learning

従来技術（SVM等）

Google, Microsoft,

Baidu, Facebook etc.

Morpho ｽﾏｰﾄﾌｫﾝ向け

ｼｰﾝ認識ｴﾝｼﾞﾝ

Morphoで

対応可能

認識器アーキテクチャの性能

Deep Learningのシーン認識器をすでに実用化

(23)

どこに写真を保存していますか?

今まで

•SDカード/CD/DVD/Blurayなどのメディア

これから

(24)

(25)

これからは全てを連携する世界

•保存

•画像認識による

タグ付け/分類

•閲覧/検索

•撮影(スマフォ)

•撮影

クラウド

デジタルカメラ

？

(26)

 今まで

時刻データ、GPS情報(ジオタグ)による整理

PCのディレクトリに手動で整理

 これから

整理のAI化（Deep Learning）

顔認識技術によるフェイスタグ

画像認識・時刻データ・GPS情報による自動/半自動タグ付け

複数ストレージをまたがった検索

どのように写真を整理するか?

赤ちゃん

平賀

(27)

(28)

 大量のデータ

 シンプルなモデル/ネットワーク

 効率的な学習・認識

Deep Learning実用化のポイント

ネットワーク

デザイン

学習データ選定

コーディング

学習

検証

_{開発プロセス}

(29)

データと機械学習

認

識

率

Deep Learning

他の機械学習技術

2012年

(30)

 例：シーン認識（画像分類）

1200万画像 x 1000ラベル

 画像アノテーションコスト

データの重要性① ラベルのコスト

画像分類

物体検出

セグメンテーション

＜

x 0.1円 = 12億円！

(31)

 大量ラベルの集め方

一般向け(B2C) ：クラウドソーシングやウェブ

専門家向け(B2B) ：独自のシステム

医療・建設業界などの専門的なデータ

オープンリソース（研究開発目的）：

等

オープンでもNG:

（非商用でもダメ、サービスに貢献する場合のみOK）

データの重要性② データ収集は大変

(32)

マルチラベルアノテーション

● 人

● 男

● 女

● 家族

● 赤ちゃん

● 食事

● ステーキ

● 皿

● 屋内

● 魚

● お吸い物

・・・

(33)

(34)

効率的なアノテーションアルゴリズム

アルゴリズム概要

1. 自動的に質問を選択（大きなカテゴリから小さいものへ）

2. カテゴリ特性(Hierarchy, Sparsity, Correlation)を利用して質問を絞る

3. すべての画像が終わるまで繰り返す

Amazon Mechanical Turkを使い、2万枚・２００カテゴリのラベル付けで

コストは6分の１に

(35)

 現状

データのパワーゲームだが、効率化の余地はまだまだある

アノテーションコストの軽減

データの前処理による補完

難しいのはどれだけの学習データが必要かの判断

 将来

ここ数年は、半自動・半教師学習によるデータ収集の効率化

少ないラベルと、沢山のラベルなしデータの利用など

それより先は、ほぼ全自動・教師なし学習による完全自律型の学習になる可能性が高い

大量のデータ：まとめ

(36)

層の深さとパラメータ数

シンプルなモデル

2012年 AlexNet

15層

TOP5最少エラー率16.4%

約6000万パラメータ

2014年 GoogLeNet

40層

TOP5最少エラー率6.7%

約700万パラメータ

(37)

特徴量抽出と認識のパラメータ量比較

シンプルなモデル

全結合層（約96%）

特

徴

量

抽

出

特徴量抽出

_（約15%）

全結合層

AlexNet2012 合計約6000万パラメータ

GoogLeNet2014 合計約700万パラメータ

(38)

Network-In-Network: よりシンプルな層を重ねることでより非線形に

シンプルなモデル

[Lin+,CoRR2013]・NUS

inception

Linear convolution layer

Network-in-network

(39)

Parametric Rectified Linear Unit: マイナス信号も考慮する線形活性化関数

シンプルなモデル

Dropout: 過学習対策として非常に効果的

[He+,CoRR2015]・Microsoft

ReLU

PReLU

[Srivastava+,JMLR2014]

(40)

 ひとつひとつはシンプルだが、まだまだ決定すべきパラメータが多い

Convolutionフィルタの数・大きさ・ステップ幅

Poolingフィルタの大きさ・ステップ幅

層の深さ

特徴量抽出・全結合層の厚み

初期化の方法

Dropoutの割合

などなど

デバイスに応じた、問題に応じたモデルのデザインが成功条件

シンプルなモデル：まとめ

(41)

 High Performance Computingの必要性

急増する学習時間

PC１台＋Titan Black GPU1枚で1000カテゴリ画像認識を学習するのに学習画像1千万枚を

超えると1週間以上は確実・・・

理想的にはサーバ側で複数台のPC・GPUを使って効率化

学習の効率化

・・

(42)

②

①

学習効率化①：データ分散

特徴量抽出層

全結合層

画像１

画像２

同期

W

各バッチごとの画像セットを分散

同じPC上の異

①

(43)

学習効率化①：データ分散

全結合層

画像１

画像２

同期

W

各バッチごとの画像セットを分散

特徴量抽出層

(44)

学習効率化②：モデル分散

モデル自体を分散

①

②

全結合層

画像１

W

異なるPC上で

特徴量抽出層

(45)

学習効率化②：モデル分散

モデル自体を分散

全結合層

画像１

W

特徴量抽出層

(46)

①

②

学習効率化③：データ＋モデル分散

全結合層

画像１

画像２

モデルも、各バッチごとの画像セットも分散

異なるPC上で

𝑾

_{𝒄𝒐𝒏𝒗}

𝑾

𝟏 _𝒇𝒄

𝑾

_{𝒄𝒐𝒏𝒗}

𝑾

𝟐 _𝒇𝒄

同期

[Krizhevsky,CoRR2014]・Google

特徴量抽出層

(47)

学習効率化：まとめ

少

多

モデルの大きさ

大

小

データ

分散

モデル

＋

データ

分散

モデル

分散

分散効率

が低い

学習の分散効率化 → 研究開発の効率化

(48)

 【学習】バッチ正規化

[Ioffe+,CoRR2015]・Google

学習効率を最大14倍高速化

 【認識】複数モデルを統合し簡易化

[Hinton+,CoRR2015]・Google

(49)

 実用に基づいた研究開発

 多種多様な認識タスク

 よりシンプルで効率的なインターフェイス

学習・認識を高速化・効率化

より多彩な認識タスクへの対応

特定物体認識、物体検出に対応

画像とテキスト情報を合わせて学習・認識

（例：画像＋Exif情報）

今後の取組み

(50)

(51)

会社概要

（2015年1月29日現在）

社名

株式会社モルフォ（ Morpho, Inc. ）

設立年月日

2004年5月26日

資本金

852,870千円

事業内容

画像処理技術の研究開発および製品開発ならびにライセンシング

所在地

東京都千代田区西神田3-8-1 千代田ファーストビル東館12階

役員

代表取締役

平

賀

督

基

常務取締役

染谷謙太朗

取

締

役

漆

山

正

幸

社外取締役

木

下

耕

太

社外監査役（常勤）能

勢

征

児

社外監査役

上

原

将

人（公認会計士）

社外監査役

平

野

高

志（弁護士）

最高技術顧問

東京大学名誉教授

國

井

利

泰

従業員数

59名

主要株主

株式会社NTTドコモ

平賀督基

主要取引銀行

三菱東京UFJ銀行

みずほ銀行

(52)

 ✉ m-info-sales[at]morphoinc.com

 ☎ +81 3 3288 3240



📠 +81 3 3288 3340

Deep Learningベースの 画像認識エンジンのご提案

Deep Learning

1. 会社紹介（10分）

2. Deep Learningに関する取組み（40分）

 東大発ベンチャーとしてスタート

 設立11年

 7年目マザーズ上場

 実用的な画像処理技術が強み

 従業員数60人弱の研究・開発型組織

モルフォ

 主要事業：B2B向け画像処理技術ソフトウェア・ライセンス事業

 対象市場：国内外の携帯電話端末市場を中心に、デジタルカメラ・画像関連サービス市場等

ビジネスモデル

モ

ル

フ

ォ

半

導

体

製

造

メ

ー

カ

様

組込最終製品が

携帯電話

の場合

携

帯

電

話

端

末

機

器

メ

ー

カ

様

通

信

事

業

者

様

一

般

利

用

者

（

ユ

ー

ザ

）

ソフトウェアの利用許諾や、ソフトウェア開発サポート・保守サポート等の役務提供の流れ

モバイルイメージング技術

3S

Shoot

Show

Search

撮る

見る

探す

高速画像ビューワ

手ブレ補正

パノラマ撮影

HDR撮影／WDR補正

ノイズ除去

新たな

付加価値

創出へ

シーン認識

※

タグ付け

※

物体検出

※Deep Learning技術の応用

Deep Learningベースの画像認識エンジンのご提案