CNNを用いた魚群音響画像に基づく魚種推定

(1)

CNN

を用いた魚群音響画像に基づく魚種推定

Estimation of Fish Species Based on Echo Sounder Image

using CNN

平間友大

_{† 横山想一郎 † 山下倫央 † 川村秀憲 †}

†Yudai Hirama †Soichiro Yokoyama †Tomohisa Yamashita †Hidenori Kawamura

鈴木恵二

_{‡ 和田雅昭 ‡}

‡Keiji Suzuki ‡Masaaki Wada

北海道大学大学院情報科学研究科

_†

†Graduate School of Information Science and Technology Hokkaido University

公立はこだて未来大学

_‡

‡Future University Hakodate

概要

近年、漁業の乱獲などによって水産資源の枯渇が問題となっており、魚種ごとの資源管理が課題とされている。しかし、受動的漁法である定置網漁法において、漁獲量を調整することが難しい。そこで、本研究は定置網漁場に設置された魚群探知機によって得られる音響画像を用いて、Deep Learning による定置網内の魚種・漁獲量推定のアプローチを行い、推定モデルの有効性を検証する。

1 はじめに

日本の漁獲量は 1989 年以降減少を続けており、水産資源の乱獲や枯渇が問題となっている。乱獲によって個体数が減れば卵を産む母数が減ることに繋がるため、小さい個体に関しては逃がせるよう漁獲網の網目を大きくしたり、獲る魚種を選ぶなど漁業者ごとに対策が行われている。また、魚種ごとに漁獲量を制限する基準を設けた TAC（漁獲可能量制度）による水産資源の管理体制を整えられてきた。しかし、定置網漁法といった受動的漁法に関しては魚種を選ぶことができず、網をあげる（網起こし）までどんな魚がどれくらい入っているのかわからないのが現状である（図 1）。2017 年には北海道の定置網漁法によって産卵前の太平洋クロマグロ（30kg 以下の個体をメジマグロと呼ぶ）の漁獲量が国際規定で定められた基準を越えているなど、水産資源の管理が課題になっている。そこで、定置網漁場に魚群探知機を設置し、定置網に入った魚を可視化する取り組みが行われている。魚群探知機から得られる音響画像から魚種を認識するシステムを開発するこ連絡先北海道大学情報科学研究科 Email: [email protected] とで、水産資源管理に役立てることができると考えられる。さらに、網起こし前に魚種・漁獲量を推定することで船員の調整や運送コストの最適化などのメリットも見込まれる。図 1: 定置網漁場のイメージ図

(2)

2

3 定置網漁業の魚群探知機と音響データ

北海道函館市木直漁港の定置網漁場に設置された魚群探知機からデータをサーバーに送信するシステムが開発されている [4]。この定置網の外周は約 150m であり、魚群探知機は網上に設置されている（図 2）（図 3）。この魚群探知機は 3 秒ごとに音波を発射し、その時刻と受信した反射の強度を含めたデータを 24 時間サーバーに蓄積している。海中の様子を深さ 0.2343m 間隔で捉え、反応強度を 256 階調で表す。音響データはこの反応強度と音波発射時刻をまとめたものである。音響データを画像化（音響画像）する際、反応強度を画素値と捉え、255 を白色、0 を黒色のグレースケールとした。（図 4）のグレー画像が音響画像であり、魚の泳ぐ速さや習性が魚影に現れていることがわかる。現状では 2015-16 年の 243 日分の音響画像と、獲れた魚種と漁獲量（漁獲リスト）が記録されている。この期間内に観測された魚種は、36 種類である。漁獲リストを参考にすると１日に平均 12 魚種が漁獲されており、各魚種が混ざって定置網内にいることが予想される。音響画像から魚種を特定する際、複数の魚種が映っていることを踏まえ、システムを構成する必要がある。図 2: 北海道函館市木直漁港にある定置網漁場図 3: 定置網漁場に設置された魚群探知機図 4: 魚種ごとの音響画像の特徴

(3)

4 提案手法

本手法では DeepLearning 手法の一つ、畳み込みニューラルネットワーク（Convolutional neural network, CNN）を用いる [5]。音響画像を入力とし、その画像に映っている魚種を出力とする教師あり学習を行い、テスト画像に対して魚種判別を行う推定モデルを作成する。学習に必要な入力画像のセグメント化とアノテーションを行うが、アノテーションにコストがかかるため、予備実験による CNN の精度を検証後、１魚種のみの検出に特化した推定モデルを作成する本実験を行う。予備実験では、漁獲量の多かったサケ、ブリ、イワシ、イカ、メジマグロの 5 魚種を判別対象とする。本実験では、近年問題となっているメジマグロを判別する推定モデルを作成し、実用化を踏まえた評価を行う。 4.1 畳み込みニューラルネットワーク（CNN） CNN とは、教師あり学習によって自動で特徴設計を行いクラス分類や回帰分析を行う機械学習手法の一つである。CNN は畳み込み層とプーリング層による画像の特徴抽出、ニューラルネットワークによる各特徴の重み付けを行い出力値を計算する構造を持っており、学習には大量のデータを必要とすることが一般的である。本研究では音響画像から魚種を判別することを目的とするため、音響画像を入力、判別対象の各魚種の存在確率を出力し、最も高いものを選択する。図 5: 畳み込みニューラルネットワーク 4.2 教師データの作成 4.2.1 予備実験漁獲リストを用いて、音響画像にラベル付けを行う。 243 日分の漁獲リストを分析し、1 日に複数の魚種が漁獲されていることが分かっている。予備実験では問題をシンプルにし、アノテーションコストを低減するために 1 回の魚種判別で 1 魚種を判別する CNN を作成する。1 魚種を教師データとして抽出するために、漁獲リストから 1 日の漁獲量の中で、1 魚種の占める漁獲量割合が最大の日を 1 日選択する。さらに、魚群探知機が同魚種を捉えている可能性の高い 0 時から網起こしの午前 4 時までを入力データとして用いる。 4.2.2 本実験予備実験では使用する音響画像は時間帯を指定して抽出するが、本実験ではメジマグロが映ったと思われる音響画像が少ないため、目視による抽出を行う。全漁獲データ 243 日中、メジマグロの漁獲があるのは 25 日である。その中でも目視可能な 300kg 以上の漁獲のある音響画像 10 日間を対象とし、アノテーションを行う。また、メジマグロではない負例の音響画像は、メジマグロの漁獲がない日からランダムで抽出する。 4.3 音響画像のセグメント化 4.3.1 予備実験 0 時から午前 4 時までの音響画像は、横 4600 ×縦 165 ピクセルとなる。入力データとして扱うために、音響画像をセグメント化する必要がある。本実験では、横 25 ×縦 165 ピクセルに加工した（図 6）。現実の情報に例えると 75 秒間、水深約 39 メートルの範囲の海中の様子を捉えたものとなる。これを 1 枚の画像とし、1 つのラベル付けをする（図 7）。音響データにエラーがある時間帯は画像化しない。生成した画像枚数は、サケ 380 枚, ブリ 384 枚、イワシ 384 枚、イカ 384 枚、マグロ 335 枚の 1868 枚である。このうち 1500 枚を学習データとし、残り 368 枚をテストデータとする。 4.3.2 本実験 4.3.1 予備実験と同じセグメント方法を用いる。ただし、本実験で扱うメジマグロの音響画像枚数が少ないため、セグメントのスライド幅を 1 ピクセルとし、重なるようにセグメントを行う（図 6）。生成したセグメント後の画像は約 3 万枚である。負例に用いる音響画像も同数になるよう生成する。

5 実験

5.1 CNN の構造とパラメータ設定 CNN の構築と学習には、フレームワーク「Chainer」を使用した。モデル構造には (表 1) の通りである。Dropout 率は 0.5、活性化関数 (Relu) を用い、出力層はソフトマックス関数を用いて判別した。予備実験として１魚種のみ映った音響画像を抽出し、学習とテストを行う。魚種ごとの音響画像の特徴を CNN が学習できるか各最適化手法ごとに精度を比較し、どの手法が有用か明らかにする。その後、本実験ではメジマグロの学習を予備実験で最も良い最適化手法を用いて、推定モデルを作成する。10 日間のアノテーション済みメジマグロ教師データのうち、学習と検証を４分割交差検証によって決定し、精度検証を行う。

(4)

図 6: 音響画像のセグメント方法表 1: 畳み込み層の構造とパラメータフィルターサイズスライド幅畳み込み層 1 2 × 2 1 畳み込み層 2 3 × 3 1 プーリング層 1 2 × 2 2 プーリング層 2 3 × 3 2 表 2: 全結合層の構造とパラメータユニット数入力層 2000 中間層 1 1024 中間層 2 512 出力層（予備実験） 5 出力層（本実験） 2 5.2 結果 5.2.1 予備実験最適化手法ごとの精度の比較検証のため、平均と標準偏差を求めた（表 3）。さらに最も平均精度の高い最図 7: 学習用に抽出した音響画像適化手法を用いて学習後の CNN をモデル化し、テストデータ 368 枚をこのモデルに判別させた時の F 値を（表 4）に示す。各数値は小数点第５位以下切り捨てである。表 4: RMSpropGraves 手法モデルの 5 種の F 値種類サケブリイワシイカメジマグロ F値 0.9435 0.9198 0.9622 0.9499 0.9408 表 3: 最適化手法ごとの精度検証

Adam[6] SGD RMSpropGraves[7] RMSprop AdaDelta[8] AdaGrad[9] MomentumSGD NesterovAG[10]

平均精度 0.9487 0.925 0.9594 0.1818 0.9546 0.9473 0.7431 0.7405

(5)

5.2.2 本実験各 Epoch ごとの学習損失とテスト精度の推移が（図 8）である。2epoch 時に約 86 ％の正解率を示した。この時の推定モデルを用いて、検証データの判別を行なった時の混合行列が（表 5）である。誤判別した音響画像の主な例を（図 9）（図 10）に示す。図 8: 学習損失と正答率の推移表 5: 検証データを判別した時の混合行列判別結果：メジマグロなし判別結果：メジマグロありメジマグロの漁獲がない日の画像 5,584 3,256 メジマグロの漁獲がある日の画像 3,939 4,899 図 9: メジマグロの漁獲量がない日の音響画像に対してメジマグロがいると判定した画像例 5.3 考察と今後の展望予備実験から、音響画像に映った魚種ごとの特徴を CNN によって判別できることがわかった。また、RM-SpropGraves 手法が音響画像を用いた魚種判別に最も有用であることが分かった。本実験で行なったメジマグロの推定モデルで誤判別した画像の特徴として、メジマグロとは関係のない海面付近の”泡”や、音響画像に図 10: メジマグロの漁獲量がある日の音響画像に対してメジマグロがいないと判定した画像例時折映る”定置網”が含まれていることがわかった。これらの反応が強く、メジマグロの特徴を CNN が抽出できなかったと考えられる。今後の展望として、教師データに様々なパターンの負例を学習させることで”泡”や” 定置網”とそこに含まれる魚影の違いを判別し、テストを行い推定モデルの検証を行う。

6 まとめ

本研究では、定置網内に設置された魚群探知機のデータから CNN を用いて魚種判別する手法を提案した。音響データを画像化し、セグメントして学習に用いることで、予備実験では平均 94 ％の正答率を得た。また、判別には RMSpropGraves 手法が有用であることも分かった。本実験ではメジマグロを対象として目視でデータのセグメント、アノテーションを行い、作成した推定モデルを用いて 211 日分の音響画像を判別、評価を行なった。誤判別した画像を分析し、メジマグロと関係のない特徴を抽出していることがわかった。今後はこれらを除去し、判別精度の向上を狙う。また、漁業者の方にデータのアノテーションを協力いただき、より正確な教師データの作成を行う予定である。

謝辞

本研究は、公益財団法人北海道科学技術総合振興センター「地域産学官 AI/IoT 実証モデル委託事業」の支援により実施しています。ここに記して謝意を表します。

参考文献

[1] Zion, Boaz, et al. ”Real-time underwater sorting of edible fish species.” Computers and Electronics in Agriculture 56.1 (2007): 34-45.

[2] Langkau, M. C., et al. ”Can acoustic shadows iden-tify fish species? A novel application of imaging

(6)

sonar data.” Fisheries Management and Ecology 19.4 (2012): 313-322.

[3] Mueller, Anna-Maria, Tim Mulligan, and Peter K. Withler. ”Classifying sonar images: can a computer-driven process identify eels?.” North American Jour-nal of Fisheries Management 28.6 (2008): 1876-1886.

[4] Saville, Ramadhona, Katsumori Hatanaka, and Masaaki Wada. “ICT application of real-time moni-toring and estimation system for set-net fishery.” Pro-ceedings of OCEANS’15 MTS/IEEE Washington, 2015, 5 pages.

[5] Krizhevsky, Alex, Ilya Sutskever, and Geoﬀrey E. Hinton. “Imagenet classification with deep convolu-tional neural networks.” Advances in Neural Infor-mation Processing Systems. 2012.

[6] Kingma, Diederik, and Jimmy Ba. “Adam: A method for stochastic optimization.” arXiv preprint arXiv:1412.6980 (2014).

[7] Graves, Alex. “Generating sequences with recurrent neural networks.” arXiv preprint arXiv:1308.0850 (2013).

[8] Zeiler, Matthew D. “ADADELTA: An adaptive learn-ing rate method.” arXiv preprint arXiv:1212.5701 (2012).

[9] Duchi, John, Elad Hazan, and Yoram Singer. “Adap-tive subgradient methods for online learning and stochastic optimization.” Journal of Machine Learn-ing Research 12.Jul (2011): 2121-2159.

[10] Bengio, Yoshua, Nicolas Boulanger-Lewandowski, and Razvan Pascanu. “Advances in optimizing re-current networks.” 2013 IEEE International Confer-ence on Acoustics, Speech and Signal Processing (ICASSP), IEEE, 2013.

CNNを用いた魚群音響画像に基づく魚種推定

CNN

を用いた魚群音響画像に基づく魚種推定

Estimation of Fish Species Based on Echo Sounder Image

using CNN

平間 友大

† 横山 想一郎 † 山下 倫央 † 川村 秀憲 †

†Yudai Hirama †Soichiro Yokoyama †Tomohisa Yamashita †Hidenori Kawamura

鈴木 恵二

‡ 和田 雅昭 ‡