CNN
を用いた魚群音響画像に基づく魚種推定
Estimation of Fish Species Based on Echo Sounder Image
using CNN
平間 友大
† 横山 想一郎 † 山下 倫央 † 川村 秀憲 †
†Yudai Hirama †Soichiro Yokoyama †Tomohisa Yamashita †Hidenori Kawamura
鈴木 恵二
‡ 和田 雅昭 ‡
‡Keiji Suzuki ‡Masaaki Wada
北海道大学大学院情報科学研究科
†
†Graduate School of Information Science and Technology Hokkaido University
公立はこだて未来大学
‡
‡Future University Hakodate
概 要
近年、漁業の乱獲などによって水産資源の枯渇が問題となっており、魚種ごとの資源管理が課題とされている。し かし、受動的漁法である定置網漁法において、漁獲量を調整することが難しい。そこで、本研究は定置網漁場に 設置された魚群探知機によって得られる音響画像を用いて、Deep Learning による定置網内の魚種・漁獲量推定の アプローチを行い、推定モデルの有効性を検証する。1
はじめに
日本の漁獲量は 1989 年以降減少を続けており、水産 資源の乱獲や枯渇が問題となっている。乱獲によって 個体数が減れば卵を産む母数が減ることに繋がるため、 小さい個体に関しては逃がせるよう漁獲網の網目を大 きくしたり、獲る魚種を選ぶなど漁業者ごとに対策が 行われている。また、魚種ごとに漁獲量を制限する基 準を設けた TAC(漁獲可能量制度)による水産資源の 管理体制を整えられてきた。しかし、定置網漁法といっ た受動的漁法に関しては魚種を選ぶことができず、網 をあげる(網起こし)までどんな魚がどれくらい入っ ているのかわからないのが現状である(図 1)。2017 年 には北海道の定置網漁法によって産卵前の太平洋クロ マグロ(30kg 以下の個体をメジマグロと呼ぶ)の漁獲 量が国際規定で定められた基準を越えているなど、水 産資源の管理が課題になっている。そこで、定置網漁 場に魚群探知機を設置し、定置網に入った魚を可視化 する取り組みが行われている。魚群探知機から得られ る音響画像から魚種を認識するシステムを開発するこ 連絡先 北海道大学情報科学研究科 Email: [email protected] とで、水産資源管理に役立てることができると考えら れる。さらに、網起こし前に魚種・漁獲量を推定する ことで船員の調整や運送コストの最適化などのメリッ トも見込まれる。 図 1: 定置網漁場のイメージ図2
関連研究
コンピュータを用いた漁業の予測や判別手法に関し ての研究が行われている。その一つに、ビデオカメラを 用いた魚種判別がある [1]。この研究では、水の濁りや 光の条件が揃わなければ十分な精度が得られない。つ まり、光が重要なビデオカメラを用いた方法は、環境に 大きく左右されることがわかる。DIDSON と呼ばれる 2重周波数を用いた魚群探知機は光や水の濁りの影響 を受けにくく、ビデオカメラのような高品質なデータを 作成できる。DIDSON を採用した魚種判別研究 [2] は、 環境を人工的に作成し、特定の角度からの魚影を判別 した研究である。この研究では単一魚種を横から映し たデータのみの判別であり、実地適用には課題がある。 この DIDSON を用いた実地フィールドでの研究がある [3]。この研究では、判別手法としてニューラルネット ワークが最も誤分類率が低いことがわかっている。 しかし、DIDSON を水産資源の管理に用いるには、 問題がある。DIDSON が発射する 1.1MHZ と 1.8MHZ の周波数は、通常の魚群探知機の周波数 50-200KHZ よ りも高周波数である。高周波数の音波により水中分解 能の高い画像を得られるが、高周波数の音波は低周波 数よりも短い範囲しか音波が届かない性質をもつ。つ まり、狭い範囲のデータしか得られないため、水中の 様子を把握しづらいといった課題がある。 そこで本研究では、実地フィールドに設置された低 周波数の魚群探知機の音響画像から、魚種判を行うた めの手法を提案する。3
定置網漁業の魚群探知機と音響データ
北海道函館市木直漁港の定置網漁場に設置された魚 群探知機からデータをサーバーに送信するシステムが 開発されている [4]。この定置網の外周は約 150m であ り、魚群探知機は網上に設置されている(図 2)(図 3)。 この魚群探知機は 3 秒ごとに音波を発射し、その時 刻と受信した反射の強度を含めたデータを 24 時間サー バーに蓄積している。海中の様子を深さ 0.2343m 間隔 で捉え、反応強度を 256 階調で表す。音響データはこ の反応強度と音波発射時刻をまとめたものである。音 響データを画像化(音響画像)する際、反応強度を画 素値と捉え、255 を白色、0 を黒色のグレースケールと した。(図 4)のグレー画像が音響画像であり、魚の泳 ぐ速さや習性が魚影に現れていることがわかる。 現状では 2015-16 年の 243 日分の音響画像と、獲れ た魚種と漁獲量(漁獲リスト)が記録されている。こ の期間内に観測された魚種は、36 種類である。漁獲リ ストを参考にすると1日に平均 12 魚種が漁獲されてお り、各魚種が混ざって定置網内にいることが予想され る。音響画像から魚種を特定する際、複数の魚種が映っ ていることを踏まえ、システムを構成する必要がある。 図 2: 北海道函館市木直漁港にある定置網漁場 図 3: 定置網漁場に設置された魚群探知機 図 4: 魚種ごとの音響画像の特徴4
提案手法
本手法では DeepLearning 手法の一つ、畳み込みニ ューラルネットワーク(Convolutional neural network, CNN)を用いる [5]。音響画像を入力とし、その画像に 映っている魚種を出力とする教師あり学習を行い、テ スト画像に対して魚種判別を行う推定モデルを作成す る。学習に必要な入力画像のセグメント化とアノテー ションを行うが、アノテーションにコストがかかるた め、予備実験による CNN の精度を検証後、1魚種のみ の検出に特化した推定モデルを作成する本実験を行う。 予備実験では、漁獲量の多かったサケ、ブリ、イワシ、 イカ、メジマグロの 5 魚種を判別対象とする。本実験 では、近年問題となっているメジマグロを判別する推 定モデルを作成し、実用化を踏まえた評価を行う。 4.1 畳み込みニューラルネットワーク(CNN) CNN とは、教師あり学習によって自動で特徴設計を 行いクラス分類や回帰分析を行う機械学習手法の一つ である。CNN は畳み込み層とプーリング層による画像 の特徴抽出、ニューラルネットワークによる各特徴の重 み付けを行い出力値を計算する構造を持っており、学 習には大量のデータを必要とすることが一般的である。 本研究では音響画像から魚種を判別することを目的と するため、音響画像を入力、判別対象の各魚種の存在 確率を出力し、最も高いものを選択する。 図 5: 畳み込みニューラルネットワーク 4.2 教師データの作成 4.2.1 予備実験 漁獲リストを用いて、音響画像にラベル付けを行う。 243 日分の漁獲リストを分析し、1 日に複数の魚種が漁 獲されていることが分かっている。予備実験では問題 をシンプルにし、アノテーションコストを低減するた めに 1 回の魚種判別で 1 魚種を判別する CNN を作成 する。1 魚種を教師データとして抽出するために、漁 獲リストから 1 日の漁獲量の中で、1 魚種の占める漁 獲量割合が最大の日を 1 日選択する。さらに、魚群探 知機が同魚種を捉えている可能性の高い 0 時から網起 こしの午前 4 時までを入力データとして用いる。 4.2.2 本実験 予備実験では使用する音響画像は時間帯を指定して 抽出するが、本実験ではメジマグロが映ったと思われ る音響画像が少ないため、目視による抽出を行う。全 漁獲データ 243 日中、メジマグロの漁獲があるのは 25 日である。その中でも目視可能な 300kg 以上の漁獲の ある音響画像 10 日間を対象とし、アノテーションを行 う。また、メジマグロではない負例の音響画像は、メ ジマグロの漁獲がない日からランダムで抽出する。 4.3 音響画像のセグメント化 4.3.1 予備実験 0 時から午前 4 時までの音響画像は、横 4600 ×縦 165 ピクセルとなる。入力データとして扱うために、音響 画像をセグメント化する必要がある。本実験では、横 25 ×縦 165 ピクセルに加工した(図 6)。現実の情報 に例えると 75 秒間、水深約 39 メートルの範囲の海中 の様子を捉えたものとなる。これを 1 枚の画像とし、1 つのラベル付けをする(図 7)。音響データにエラーが ある時間帯は画像化しない。生成した画像枚数は、サ ケ 380 枚, ブリ 384 枚、イワシ 384 枚、イカ 384 枚、マ グロ 335 枚の 1868 枚である。このうち 1500 枚を学習 データとし、残り 368 枚をテストデータとする。 4.3.2 本実験 4.3.1 予備実験と同じセグメント方法を用いる。ただ し、本実験で扱うメジマグロの音響画像枚数が少ない ため、セグメントのスライド幅を 1 ピクセルとし、重 なるようにセグメントを行う(図 6)。生成したセグメ ント後の画像は約 3 万枚である。負例に用いる音響画 像も同数になるよう生成する。
5
実験
5.1 CNN の構造とパラメータ設定 CNN の構築と学習には、フレームワーク「Chainer」 を使用した。モデル構造には (表 1) の通りである。Dropout 率は 0.5、活性化関数 (Relu) を用い、出力層はソフト マックス関数を用いて判別した。 予備実験として1魚種のみ映った音響画像を抽出し、 学習とテストを行う。魚種ごとの音響画像の特徴を CNN が学習できるか各最適化手法ごとに精度を比較し、ど の手法が有用か明らかにする。その後、本実験ではメ ジマグロの学習を予備実験で最も良い最適化手法を用 いて、推定モデルを作成する。10 日間のアノテーショ ン済みメジマグロ教師データのうち、学習と検証を4 分割交差検証によって決定し、精度検証を行う。図 6: 音響画像のセグメント方法 表 1: 畳み込み層の構造とパラメータ フィルターサイズ スライド幅 畳み込み層 1 2 × 2 1 畳み込み層 2 3 × 3 1 プーリング層 1 2 × 2 2 プーリング層 2 3 × 3 2 表 2: 全結合層の構造とパラメータ ユニット数 入力層 2000 中間層 1 1024 中間層 2 512 出力層(予備実験) 5 出力層(本実験) 2 5.2 結果 5.2.1 予備実験 最適化手法ごとの精度の比較検証のため、平均と標 準偏差を求めた(表 3)。さらに最も平均精度の高い最 図 7: 学習用に抽出した音響画像 適化手法を用いて学習後の CNN をモデル化し、テス トデータ 368 枚をこのモデルに判別させた時の F 値を (表 4)に示す。各数値は小数点第5位以下切り捨てで ある。 表 4: RMSpropGraves 手法モデルの 5 種の F 値 種類 サケ ブリ イワシ イカ メジマグロ F値 0.9435 0.9198 0.9622 0.9499 0.9408 表 3: 最適化手法ごとの精度検証
Adam[6] SGD RMSpropGraves[7] RMSprop AdaDelta[8] AdaGrad[9] MomentumSGD NesterovAG[10]
平均精度 0.9487 0.925 0.9594 0.1818 0.9546 0.9473 0.7431 0.7405
5.2.2 本実験 各 Epoch ごとの学習損失とテスト精度の推移が(図 8)である。2epoch 時に約 86 %の正解率を示した。こ の時の推定モデルを用いて、検証データの判別を行なっ た時の混合行列が(表 5)である。誤判別した音響画像 の主な例を(図 9)(図 10)に示す。 図 8: 学習損失と正答率の推移 表 5: 検証データを判別した時の混合行列 判別結果:メ ジマグロなし 判別結果:メ ジマグロあり メジマグロの 漁獲がない日 の画像 5,584 3,256 メジマグロの 漁獲がある日 の画像 3,939 4,899 図 9: メジマグロの漁獲量がない日の音響画像に対して メジマグロがいると判定した画像例 5.3 考察と今後の展望 予備実験から、音響画像に映った魚種ごとの特徴を CNN によって判別できることがわかった。また、RM-SpropGraves 手法が音響画像を用いた魚種判別に最も有 用であることが分かった。本実験で行なったメジマグ ロの推定モデルで誤判別した画像の特徴として、メジ マグロとは関係のない海面付近の”泡”や、音響画像に 図 10: メジマグロの漁獲量がある日の音響画像に対し てメジマグロがいないと判定した画像例 時折映る”定置網”が含まれていることがわかった。こ れらの反応が強く、メジマグロの特徴を CNN が抽出で きなかったと考えられる。今後の展望として、教師デー タに様々なパターンの負例を学習させることで”泡”や” 定置網”とそこに含まれる魚影の違いを判別し、テスト を行い推定モデルの検証を行う。
6
まとめ
本研究では、定置網内に設置された魚群探知機のデー タから CNN を用いて魚種判別する手法を提案した。音 響データを画像化し、セグメントして学習に用いること で、予備実験では平均 94 %の正答率を得た。また、判 別には RMSpropGraves 手法が有用であることも分かっ た。本実験ではメジマグロを対象として目視でデータ のセグメント、アノテーションを行い、作成した推定 モデルを用いて 211 日分の音響画像を判別、評価を行 なった。誤判別した画像を分析し、メジマグロと関係 のない特徴を抽出していることがわかった。今後はこ れらを除去し、判別精度の向上を狙う。また、漁業者 の方にデータのアノテーションを協力いただき、より 正確な教師データの作成を行う予定である。謝辞
本研究は、公益財団法人北海道科学技術総合振興セン ター「地域産学官 AI/IoT 実証モデル委託事業」の支援 により実施しています。ここに記して謝意を表します。参考文献
[1] Zion, Boaz, et al. ”Real-time underwater sorting of edible fish species.” Computers and Electronics in Agriculture 56.1 (2007): 34-45.
[2] Langkau, M. C., et al. ”Can acoustic shadows iden-tify fish species? A novel application of imaging
sonar data.” Fisheries Management and Ecology 19.4 (2012): 313-322.
[3] Mueller, Anna-Maria, Tim Mulligan, and Peter K. Withler. ”Classifying sonar images: can a computer-driven process identify eels?.” North American Jour-nal of Fisheries Management 28.6 (2008): 1876-1886.
[4] Saville, Ramadhona, Katsumori Hatanaka, and Masaaki Wada. “ICT application of real-time moni-toring and estimation system for set-net fishery.” Pro-ceedings of OCEANS’15 MTS/IEEE Washington, 2015, 5 pages.
[5] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. “Imagenet classification with deep convolu-tional neural networks.” Advances in Neural Infor-mation Processing Systems. 2012.
[6] Kingma, Diederik, and Jimmy Ba. “Adam: A method for stochastic optimization.” arXiv preprint arXiv:1412.6980 (2014).
[7] Graves, Alex. “Generating sequences with recurrent neural networks.” arXiv preprint arXiv:1308.0850 (2013).
[8] Zeiler, Matthew D. “ADADELTA: An adaptive learn-ing rate method.” arXiv preprint arXiv:1212.5701 (2012).
[9] Duchi, John, Elad Hazan, and Yoram Singer. “Adap-tive subgradient methods for online learning and stochastic optimization.” Journal of Machine Learn-ing Research 12.Jul (2011): 2121-2159.
[10] Bengio, Yoshua, Nicolas Boulanger-Lewandowski, and Razvan Pascanu. “Advances in optimizing re-current networks.” 2013 IEEE International Confer-ence on Acoustics, Speech and Signal Processing (ICASSP), IEEE, 2013.