医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-006-08
畳み込みニューラルネットワークを用いた
マンモグラフィの自動読影システムの構築
Autodetection of Mammography Using Convolutional Neural Network
井上謙一
1Kenichi Inoue
11
湘南記念病院 乳がんセンター
1Shonan Memorial Hospital, Breast Cancer Center
Abstract: [Background] Image recognition challenge has been widely studied worldwide, using machine learning. We evaluated whether each imaging findings of breast cancer can be discriminated from mammography screening images using deep learning. [Material and Method] Mammography images were cropped at the area of the breast lesions and labeled either malignancy present or absent. Benign images were also added by automatically cropping the mammography by 10×8 images, and labeled as malignancy absent. Two types of convolutional neural networks were constructed based on either AlexNet model or ResNet model to train with images cropped from mammography. With this trained model, whole area of mammography images was scanned and colorize red to detect breast cancer. [Result] A total of 47282 cropped images were collected. Accuracy, sensitivity and specificity were evaluated with test dataset. The result showed 96.6% of accuracy, 93.9% of sensitivity, and 99.2% of specificity using AlexNet model, and 95.2% of accuracy, 94.7% of sensitivity, and 95.7% of specificity using ResNet model. [Discussion] Deep learning successfully learned the features of breast cancer using either AlexNet or ResNet. Accuracy was slight higher in ResNet model. Using trained model, mammography images were also successfully scanned to automatically detect breast cancer. [Conclusion] Deep learning provides excellent accuracy to extract the features of breast cancer from mammography, and successful scanning to detect breast cancer automatically. Autodetection system using deep learning could contribute to improve the efficiency of mammography screening system, leading to improvement of overall survival.
背景
昨今のコンピュータの発展と人工知能(AI)の飛躍 的な精度の向上に伴い、様々な業務における自動化 が進んできた。第 4 次産業革命とも呼ばれる AI の登 場によって、どの分野においても今までの業務内容 が大きく変わりつつあり、医療業界も他の分野に遅 れてではあるが既に研究が始まっている。 その中でも最近注目を集めているニューラルネッ トワークをベースとするディープラーニングは、 日々新たな技法が開発・改良されている。畳み込み ニューラルネットワークは主に画像認識に用いられ、 画像内の共通する特徴を自動的に認識、学習するこ とができる。 今回我々は、マンモグラフィ画像を自動的に切り 出し、乳癌の特徴的所見をまとめて学習させること で良悪性を判断させ、その診断精度を計測すること で、コンピュータ支援診断の有用性を検討した。ま た、それを応用したマンモグラフィの自動読影シス テムも構築したので併せて提案する。対象と方法
当院で撮影されたマンモグラフィ画像で、要精査 となる所見である、FAD(非対称性陰影)、腫瘤、構築 の乱れ、石灰化のいずれかを認めた画像を対象とし た。所見毎に、FAD 265 画像(悪性 161、良性 104)、 腫瘤 454 画像(悪性 311、良性 143)、構築の乱れ 172 画像(悪性 140、良性 32)、石灰化 1009 画像(悪性 374、 良性 635)の合計 1900 画像を対象とした。画像を1768×2200 ピクセルに拡大・縮小して揃えた後、そ れぞれの画像から、所見のある領域を中心に 256× 256 ピクセルと正方形に手動で切り出し、乳癌が描 出されている画像は癌ありとして、良性病変が描出 されている画像は癌なしとして 2 種類に分類した。 それに加え、病的所見を認めない正常もしくは明 ら か な 良 性 の マ ン モ グ ラ フ ィ 画 像 を 同 じ く 1768×2200 ピクセルに拡大・縮小した後に、縦 10 枚 ×横 8 枚の合計 80 枚に自動的に分割した。すなわち、 256×256 ピクセルの分割画像として縦横どちらも 隣の画像と 40 ピクセルずつ重なるようにしながら 切り出した。その内乳腺が写っていない背景のみの 画像は自動的に除外し、切り出し画像のデータを作 成した(図 1)。 図 1. マンモグラフィの分割方法 縦 10 枚×横 8 枚=計 80 枚に分割し、背景部分は除去する 所見毎に、FAD 104 画像、腫瘍 180 画像、構築の乱 れ 43 画像、石灰化 427 画像の合計 754 画像から、切 り出し画像 21740 枚を作成し、癌なしのデータとし て加えた。前述の 1900 画像と合わせ、更に左右反転 画像も自動作成し、最終的に合計 47280 枚の画像を 得た。 これらの画像データを、訓練用画像とテスト用画 像に 80:20 にランダムに振り分けた。ただし、この ままでは癌ありのデータ数と癌なしのデータ数が著 しく異なるため、data imbalance が生じる。もともと 医用画像はマンモグラフィに限らず悪性腫瘍のない 部分が殆どで、悪性部分のデータ量は圧倒的に少な いため、バランスを保つように悪性部分のデータを 増やすことは難しいことが想定される。 そこで、新しくアルゴリズムを考案した。即ち、 テスト用画像と、訓練用画像の癌ありデータは通常 通り固定とし、訓練用画像の癌なしデータのみを適 宜入れ替えて繰り返し学習させることで、過学習を 抑えながら全ての画像を学習させる方法を用いた (特許申請中)(図 2)。 図 2. CNN の学習方法 テスト用画像と、訓練用画像の癌ありの画像は固定とし、癌なし の訓練用画像を入れ替えながら学習 実際にニューラルネットワークに入力・学習させ る前の前処理は正規化(normalization)を用いた。 それら訓練用画像を、畳み込みニューラルネット ワークに入力し、学習させた後にテスト用画像で実 際にテストし、正診率を計測した。畳み込みニュー ラルネットワークのネットワーク構成は、基本形で ある AlexNet モデルと、残差を学習させる ResNet で それぞれ学習させた。AlexNet は、畳み込み層とプ ーリング層のペア 5 層の中間層および 1 層の全結合 層を組み込んだ。今回の検討で用いるマンモグラフ ィ画像はカラーではなくグレイスケール画像である こと、乳房のレントゲン写真に限定しており実社会 と比較してそれほどバラエティに富んでいないこと から、ResNet もあまり深くせず畳み込み層 13 層と した。学習させる際は、ミニバッチ法を用いた。活 性化関数は ReLu 関数2)を用いた。全結合層は 1 層と し、出力層は softmax 関数で算出し、癌ありの確率 が癌なしの確率よりも高い場合に癌ありと判定、そ うでない場合を癌なしと判定させた。損失関数は交 差エントロピー誤差で算出し、Adam の確率的勾配 降下法3)で最小化させた。また、batch normalization5) も導入した。AlexNet モデルの畳み込みニューラル ネットワークに対しては、dropout4)も導入した。そ の他、ハイパーパラメータを様々な組み合わせで学 習させ、最適なパラメータを探索した。 畳み込みニューラルネットワークの実装方法は、 Python(ver3.5)を用い、Google 社が公開している人工 知能ライブラリである TensorFlow を用いてプログラ ムを組んだ。
結果
学習結果 AlexNet モデルで学習させる際に、初回はイテレ ーションを 1000 回とし、過学習を抑えるため、癌な しの訓練データを入れ替えるたびに学習回数を 100 ずつ減少させた。結果、正診率は 96.6%であった(図 3)。その時の感度は 93.9%、特異度は 99.2%、陽性的 中率(PPV)は 99.2%、陰性的中率(NPV)は 94.2%とな った。 図 3. AlexNet モデルで学習させた時の学習曲線 同様に ResNet モデルで学習させた結果、正診率 95.2%(図 4)、感度 94.7%、特異度 95.7%、PPV95.6%、 NPV94.7%となった。 図 4. ResNet モデルで学習させた時の学習曲線 偽陽性・偽陰性となった画像の内訳を AlexNet モ デルで検討した。偽陽性となった 18 画像を集計した ところ、石灰化 10 画像、構築の乱れ 2 画像、FAD2 画像、腫瘍 4 画像であった。癌なし画像の内訳は、 石灰化 24710 画像、構築の乱れ 2328 画像、FAD6622 画像、腫瘍 11648 画像であり、各所見別の総枚数と の比率で考えると、所見別でほぼ同じ程度の偽陽性 の程度となった。 偽陰性となった 14 画像の内訳は、石灰化 7 画像、 構築の乱れ 1 画像、FAD 5 画像、腫瘍 1 画像となっ た。癌あり画像の内訳は、石灰化 746 画像、構築の 乱れ 280 画像、FAD322 画像、腫瘍 622 画像であり、 腫瘍を形成する癌は殆ど拾えている一方、FAD と判 定された悪性腫瘍の拾い上げの精度が低かった。こ の FAD 5 画像の元マンモグラフィ画像を検討すると、 いずれも不均一高濃度以上の濃度をもったマンモグ ラフィの中に埋もれるような形で FAD を認めてお り、周囲とのコントラストが付けづらく、もともと 評価が困難な症例だったと思われた。 マンモグラフィのスキャン 切り出し画像に対し、十分な精度をもって乳癌画像 の特徴を学習することができた。しかしこれはあく まで分割した切り出し画像の精度であり、マンモグ ラフィ自体の精度とは異なる。そのため、今回はこ の学習結果を用いてマンモグラフィを自動判定させ るアルゴリズムを考案した。即ち、マンモグラフィ 画像の一部を 256×256 ピクセルで切り出し、学習済 みの畳み込みニューラルネットワークを用いて自動 判定させる。もし癌ありと判定したら、その領域を 赤く光らせる。その後その範囲から少し右にずらし た範囲をまた切り出し、同様に判定させる。こうし てマンモグラフィ画像を左上から右下までくまなく 調べ上げるスキャン方法(sliding window)を用いた (図 5) 。 図 5. sliding window 物体検出アルゴリズムの手法としては一般的には bounding box6)という矩形で領域を囲むことが主な手 法ではあるが、マンモグラフィの場合、例えば区域 性の病変だと囲む範囲が無駄に大きくなってしまい、 病変の範囲の推定が必ずしも適切ではないと判断し、 今回は矩形で囲まずその都度光らせる手法を採用し た。この方法で適宜赤く光らせていくと、悪性腫瘍 が存在する領域はどんどん赤色が重なり強く光るよ うになる。そうすることで多様な形状の悪性腫瘍に 対しても対応できる(特許申請中)。今回、学習済み モデルを用いてマンモグラフィをスキャンさせたと ころ、乳癌が描出されている部位を正しく赤く光らせることができた(図 6) 。そうして将来このシステ ムを用いて読影医が読影する際も、赤く光っている 部位に関心を向けることで所見の見落としを防ぐこ とができる。 図 6. 自動判定結果例
考察
マンモグラフィを用いた乳癌検診においては、読 影者の読影能力やくせがあり、それが読影精度に反 映されるため、現在では二人の読影医が時間差で読 影する二次読影という方法を行うことで所見の見落 としや拾いすぎを抑制し、読影結果の精度管理を行 っている。 全国のマンモグラフィ読影の精度を推し量る指標 としては、例えば全国レベルで行われた 40 代女性に 対する乳癌検診の臨床試験である J-START 試験7)に おいて、コントロール群での感度は 77.0%、特異度 91.4%であった。もともと日本人女性は dense breast が多いといった事情はあるが、特異度と比べて感度 が低いということは、今後、乳癌の見逃しが問題と なってくることが予想される。従って精度を高く保 つためには読影医が読影精度を各自高め続けておく ことが重要であるが、現実的に全国の読影医全員が 高い精度を保ち続けることは時間的にも資源的にも 困難である。そこで、読影者の能力に左右されない、 読影を支援するシステムを構築した。 今回の検討では畳み込みニューラルネットワーク を用いて、マンモグラフィの分割した画像データに 対して癌あり・なしというラベルを紐づけ、教師あ り学習をさせた。ディープラーニングは学習する画 像が多いほど精度が改善することが知られており、 乳癌の特徴を抽出するため、癌なしの画像データも 大量に用意しその違いを学習させた。ただし data imbalance の問題があるため、独自のアルゴリズムで 対応したところ、最終的に AlexNet モデルで 96%、 ResNet モデルで 99%の正診率を達成することができ た。また、その学習モデルから、マンモグラフィ画 像をスキャンするプログラムも作成し、乳癌の可能 性が高い部位を赤く光らせるアラーム機能を持たせ ることができた。 これを画像診断のコンピュータ支援診断ツールと して活用することで、読影の習熟度に左右されずに 精度が改善し、全体として全国規模で検診精度の底 上げが期待できる。読影医一人で二次読影分の精度 を確保でき、人件費の抑制や効率化にも繋がる。 ただし、随時精度を高められるということは、間 違った学習をさせてしまうことで逆に精度を下げて しまう懸念もある。それを防ぐためには、アップデ ートする度に適宜精度管理を行う必要があり、マン モグラフィにおけるファントム画像評価のような、 品質の精度管理を行うための統一基準を策定する必 要があると思われる。 今回の研究は当院のみのデータを用いた単施設で の研究結果であり、この学習モデルを全国の医療機 関でそのまま利用することはできない。そこで今回 の結果を受けて、多施設でも使用に耐えうる頑健性 のある学習モデルを作成できることを証明するため、 神奈川県内の乳癌診療に携わる、特定非営利活動法 人 神奈川乳癌研究グループ KBOG (Kanagawa Breast Oncology Group) による多施設共同研究を開始した。 「畳み込みニューラルネットワークを用いた、マン モグラフィの自動読影判定に関する多施設共同研究」 通称 KBOG1701 試験で、多施設で撮影したマンモグ ラフィの画像データを収集しまとめて学習させるこ とで、異なる施設の異なるマンモグラフィ装置でも その有用性が証明できることを目指し現在登録中で ある。結語
今回の検討では、ディープラーニングを用いてマ ンモグラフィの自動判定を、十分に高い数値をもっ て達成することができた。また、それを利用してマ ンモグラフィ画像をスキャンし自動判定するシステ ムも構築した。今後はより精度を高め、その実用性 を検証し、乳癌検診に応用することで効率の良い乳 癌検診・診断を実現することが可能となり、ひいて は乳癌による死亡率を減少させ得ると考えられる。参考文献
[1] 井上謙一、川崎あいか、小清水佳和子: ディープラー ニングを用いたマンモグラフィの所見別画像判定に 関する初期検討. 乳癌の臨床 第 32 巻第 6 号, (2017) [2] Maas AL, Hannun AY, Ng AY: Rectifier NonlinearitiesImprove Neural Network Acoustic Models. Proceedings of the 30th International Conference on Machine Learning, Atlanta, Georgia, USA, (2013)
Optimization. arXiv:1412.6980, (2014)
[4] Srivastava N, Hinton G, Krizhevsky A, et al: Dropout: A Simple Way to Prevent Neural Networks from Overfitting. The Journal of Machine Learning Research, 15(Jun): 1929−1958, (2014)
[5] Ioffe S, Szegedy C: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. arXiv:1502.03167 (2015)
[6] R Girshick. Fast R-CNN. arXiv preprint
arXiv:1504.08083, (2015)
[7] Ohuchi N, Suzuki A, Sobue T, et al: Sensitivity and
specifi city of mammography and adjunctive
ultrasonography to screen for breast cancer in the Japan Strategic Anti-cancer Randomized Trial (J-START): a randomised controlled trial. Lancet, Jan 23; 387 (10016): 341-348, (2016)