原
著
パノラマエックス線画像による変形性顎関節症の診断における
深層学習システムの有用性
野澤 道仁1) 有地 淑子1) 福田 元気1) 木瀬 祥貴1) 内藤 宗孝1) 西山 雅子1) 小木 信美2) 勝又 明敏3) 有地榮一郎1) 抄録 目的:パノラマエックス線画像による変形性顎関節症の診断に深層学習システムを適用して,その診断能 (診断精度および診断一致率)を明らかにし,有用性を検証することを目的とした。 方法:変形性顎関節症を疑い CT 検査を実施した症例のうち,CT 画像で下顎頭に変形が確認された 138 関節(92 症例)のパノラマエックス線画像と,上顎洞炎を疑って CT 検査を行い,その結果下顎頭に変形が確認されなかっ た 138 関節のパノラマエックス線画像を対象とした。深層学習システムはネットワークとして AlexNet を使用して 構築し,5 分割交差検証およびデータ拡張の手法を用いて作成した学習モデルの診断精度(感度,特異度,正診率) を算出した。また ROC 曲線から曲線下の面積(AUC)を求めた。比較のために 3 人の歯科放射線医および 3 人の臨 床研修歯科医が同一画像の評価を行った。さらに診断一致率(κ 値)も算出した。 結果:深層学習システムの感度は 84.5%,特異度は 66.2%,正診率は 75.4%,AUC は 0.76 であった。AUC は深層 学習システムと歯科放射線医が臨床研修歯科医より有意に大きな値を示した。深層学習システムによる診断一致率 (κ 値)は 0.84 で,歯科放射線医(0.55)および臨床研修歯科医(0.31)の観察者内一致率よりも高かった。観察者 間一致率は歯科放射線医で 0.47,臨床研修歯科医で 0.21 であった。 結論:パノラマエックス線画像による変形性顎関節症の診断について,深層学習システムを適用したところ,そ の診断精度は歯科放射線医と同等であり,診断の一致率は歯科放射線医や臨床研修歯科医よりも優れていた。した がって,深層学習システムは診断支援としての使用が十分に可能であり,その有用性が示された。 (日顎誌 2020;32:55−64) キーワード 深層学習,変形性顎関節症,画像診断,パノラマエックス線画像緒
言
顎関節症の世界的な診断基準である Diagnostic Crite-ria for Temporomandibular Disorders(DC/TMD)1)を基 にして,2013 年に日本顎関節学会が発表した顎関節症の 病態分類の 1 つに変形性顎関節症がある2)。これは下顎 頭の変形を伴い,関節組織の破壊を特徴とする退行性関 節障害と定義されている。診断基準は関節雑音の既往が あり,顎運動時にクレピタスを認めることとされる。し かし診察のみでは感度,特異度がそれぞれ 55%,61% と低く2),確定診断には CT や MRI を含む画像診断が必 要とされている。診断につながる画像所見は DC/TMD では erosion,osteophyte,subchondral cyst,generalized sclerosis の 4 所見,日本顎関節学会の基準ではこれらに atrophy が追加されている3)。 一次医療機関では下顎頭の形態評価のほとんどがパノ ラマエックス線画像やいわゆるパノラマ顎関節撮影法(4 1) 愛知学院大学歯学部歯科放射線学講座(主任:有地榮一郎教授) 2) 愛知学院大学歯学部顎口腔外科学講座(主任代行:長尾 徹教授) 3) 朝日大学歯学部口腔病態医療学講座歯科放射線学分野(主任:勝又明敏教授) 受付日:2020 年 4 月 20 日╱受理日:2020 年 5 月 20 日 連絡先:野澤道仁,愛知学院大学歯学部歯科放射線学講座(〒464−8651 名古屋市千種区末盛通2−11)分画)で行われていると考えられる。パノラマ顎関節撮 影法は開口位で撮影されることと下顎頭の長軸に平行に エックス線が入射するため,下顎頭の骨変化の評価に適 した撮影法であり4),変形性顎関節症の正診率は 75∼ 82% とされ5−7),比較的良好な結果である。観察者内の診 断一致率もわれわれの以前の報告では,κ値は 0.61 と CT と同等の一致率と評価されている8)。しかし通常のパ ノラマエックス線画像による正診率は高いものでも 71.4% とされ比較的低い5,6,9−15)(表 1)。また,観察者間の 診断一致率については Ahmad らが非常に低い一致率(κ =0.16)を報告している12)。つまり通常のパノラマエック ス線画像のみを用いた変形性顎関節症の診断能は高いと は言えないのが現状である。原因としては,エックス線 が下顎頭長軸に対して斜入されるため,画像上で形態の 歪みが生じることや,関節結節などが下顎頭に重複し骨 表面の形態が不鮮明になることが挙げられている6)。本 邦では顎関節症の患者数は約 1,900 万人と推定されてお り3),撮影の煩雑さを考慮すると,パノラマ顎関節撮影よ りも通常のパノラマエックス線撮影が多くの患者に実施 されていると考えられる。 畳み込みニューラルネットワーク(CNN:Convolu-tion Neural Network)を利用して構築された深層学習シ ステムによる人工知能の利用に関しては,医療の分野で も多くの研究が行われ,それを搭載した画像診断支援シ ステムが急速に開発されてきている16)。深層学習システ ムによって作成された学習モデルでは画像分類(診断)や 物体検出が可能となり,パノラマエックス線画像におい ても,下顎第一大臼歯における過剰根の診断17)や透過性 病変の検出18)などに応用されている。しかし顎関節症を 対象とした報告はわれわれの知るかぎりではこれまでに ない。通常のパノラマエックス線画像で変形性顎関節症 の診断をする際に深層学習が診断補助として利用できれ ば,経験の浅い読影者にとっては有益なものとなる。 以上より,本研究の目的は通常のパノラマエックス線 画像を用いた変形性顎関節症の診断において,深層学習 システムの有用性を検証することとした。そのために, 深層学習システムによる診断能と 5 年以上の顎関節疾患 の読影経験を有する歯科放射線医および卒後 1 年未満の 臨床研修歯科医による診断能を比較検討した。
対象と研究方法
本研究は愛知学院大学歯学部倫理委員会の承認を得て 実施した(No.496)。なお,ヘルシンキ宣言の精神を遵守 して行った。 1.対象 対象は,2009 年 4 月から 2019 年 5 月の間に愛知学院 大学歯学部附属病院において変形性顎関節症を疑い,パ ノラマエックス線画像と CT を撮影した患者のうち,CT 画像で下顎頭に変形ありと診断された 92 症例(男性 23 症例,女性 69 症例;平均年齢 53.3 歳,17∼86 歳)である。 このうち片側に骨変化が確認された症例が 46 例,両側に 観察された症例が 46 例で,合計 138 関節のパノラマエッ クス線画像が選択されたが,これらは顎関節学会指導医 1 名を含む歯科放射線医 3 名が別々に CT 画像を評価 し,その結果 3 名全員が骨変化ありと診断したものであ る。 CT 画像の評価においては, 以前の報告8)に従って, erosion,osteophyte,subchondral cyst,generalized scle-rosis のうち少なくとも一つの所見がある場合に骨変化 ありとした。なお,atrophy に関しては 2018 年に新たに 追加された所見のため,今回は評価対象に加えなかった。 対照として,同期間に上顎洞炎を疑いパノラマエック ス線画像と CT を撮影した症例から,CT において下顎 頭に変形のない症例を同様に 3 名の歯科放射線医の一致 によって選択した。顎関節数,年齢分布,男女比は変形 性顎関節症患者と同等となるように選択した(平均年齢 55.3 歳,21∼82 歳)。 パノラマエックス線撮影は Veraviewepocs X550(モ リタ製作所,京都)を使用し,安静咬合位で行い,撮影 条件は 75 kV,8 mA,16.2 s とした。イメージングプレー ト方式のデジタル画像装置(REGIUS MODEL 2,コニカ ミノルタ,東京)を使用して,ピクセルサイズ 0.0875× 0.0875 mm の画像を得た。CT 装置は Asteion(キヤノン メディカルシステムズ,栃木)を使用し,撮影条件は 120 kV,100 mA,スライス厚 0.5 mm,FOV 200 mm(=ピ クセルサイズ 0.39 mm)とした。骨条件(ウィンドウ値 900 HU,ウィンドウ幅 4500 HU)の画像で骨変化を判定 した。 2.深層学習システムの構成 深層学習システムは Ubntu ver.16.04.2 の動作システ ムと GPU として,NDIVIA Geforce GXT 1080Ti を使用 し て 構 築 さ れ た。ネ ッ ト ワ ー ク は DIGITS Library ver. 5.0 ( NVIDIA ; http://developer.nvidia.com/ digits)に提供されている AlexNet を用い,Caffe のフ レームワークを使用した。AlexNet は 5 層の畳み込み層 と 3 層の全結合層を有する CNN で,比較的単純なもの とされている19)。 画像データベースから JPEG フォーマットでダウン ロードされたパノラマエックス線画像を使用して,100 ×100 ピクセルの正方形の画像パッチを切り出した。画表 1 パノラ マ エックス線画像に お ける変形性顎関 節 症の診 断 能 発行年 文献 (No.) 著者 (筆頭著者) 関 節 数 評価所見 評価 者数 ゴール ド スタン ダー ド 診 断 精度 診 断 一致率( κ 値) 感度 特異度 正診率 観 察者間 観 察者内 1995 5 覚道健治 60 erosion,osteophyte 27 断 層 71.4% 1996 9 Dahlström L 140 osteophyte, flattening, erosion 2 断 層 16 - 60% 71 - 95% 0.40 - 0.65 0.60 - 0.79 2006 10 Schmitter M 76 deformation 3 MRI 94.0% 45.0% 0.19 2007 11 Honey OB 37 erosion 10 Dried mandible 64.4% 0.72 2009 12 Ahmad M 1435 erosion,osteophyte, cyst *1 ,sclerosis *2 3 C T 26.2% 99.3% 0.16 2009 13 Hintze H 159 flattening,defect,osteophyte 3 Dried mandible 4 50% 91 - 99% 0.29 - 1.0 2015 6 雨宮俊彦 38 2 CBCT 43.0% 80.0% 58.0% 2016 14 Kaimal S 1410 erosion,osteophyte, cyst *1 ,sclerosis *2 3 C T 12.1 - 33.3% 99.7 - 100% 2018 15 Im YG 55 erosion, osteophyte, flattening 2 CBCT 10.7 - 59.5% 68.8 - 96.7% 48.1% 0.42 - 0.48 0.71 - 0.93 2020 本研究 野澤道仁 276 erosion,osteophyte, cyst *1 ,sclerosis *2 3 *3 CT 72.9% 70.0% 71.5% 0.47 0.55 2020 本研究 野澤道仁 276 erosion,osteophyte, cyst *1 ,sclerosis *2 3 *4 CT 69.8% 55.6% 62.7% 0.21 0.31 2020 本研究 野澤道仁 276 erosion,osteophyte, cyst *1 ,sclerosis *2 AlexNet CT 84.5% 66.2% 75.4% 0.83 *1 :subchondral cyst *2 :generalized sclerosis *3 :歯科放射線医 *4 :臨床研修歯科医
図 1 切り出した下顎頭(100×100 pixel) Osoteophyte が確認できる。 図 2 5 分割交差検証法 カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ ࢸࢫࢺࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ ࢸࢫࢺࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ ࢸࢫࢺࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ ࢸࢫࢺࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ ࢸࢫࢺࢹ࣮ࢱ Ꮫ⩦ࣔࢹࣝ Ꮫ⩦ࣔࢹࣝ Ꮫ⩦ࣔࢹࣝ Ꮫ⩦ࣔࢹࣝ Ꮫ⩦ࣔࢹࣝ $ % & ' ( ࢚࣏ࢵࢡࡢカ⦎ ࢹ࣮ࢱࢭࢵࢺ ࢹ࣮ࢱࢭࢵࢺ( ࡼࡿࢸࢫࢺ ࢹ࣮ࢱࢭࢵࢺ' ࡼࡿࢸࢫࢺ ࢹ࣮ࢱࢭࢵࢺ& ࡼࡿࢸࢫࢺ ࢹ࣮ࢱࢭࢵࢺ% ࡼࡿࢸࢫࢺ ࢹ࣮ࢱࢭࢵࢺ$ ࡼࡿࢸࢫࢺ ⤖ᯝ ⤖ᯝ ⤖ᯝ ⤖ᯝ ⤖ᯝ デ᩿⤖ᯝ ྜィ ࣮࣍ࣝࢻ㸰 ࣮࣍ࣝࢻ㸱 ࣮࣍ࣝࢻ㸲 ࣮࣍ࣝࢻ㸳 ࣮࣍ࣝࢻ㸯 像パッチの上縁を下顎窩の上縁に一致させ,下顎頭が画 像パッチの中心に位置するように切り出した(図 1)。切 り出しには Adobe Photoshop CS6(アドビシステムズ, 東京)を用いた。 3.学習モデルの作成と診断精度の評価 本研究では限られたデータによって学習モデルを作成 する際に使用される 5 分割交差検証の方法を用いた(図 2)。切り出した 276 画像パッチをほぼ均等な数になるよ うに無作為に 5 分割し,それぞれのグループに骨変化あ りと骨変化なしの症例を同数含むようにした。これらの うち 80%(4 グループ)を訓練データとして学習モデルを 作成し,残りの 1 グループをテストデータとし,これを 作成された学習モデルに適用すると判定結果がテスト データのそれぞれの画像パッチについて,確信度(0∼ 100%)とともに出力される。この結果で骨変化ありの確 信度が 50% 以上の場合に,学習モデルが陽性と判断した ものとした。訓練データとテストデータの組み合わせを 変えて,それぞれ 100 エポックの学習を 5 回行い,その 結果として得られた真陽性数,真陰性数,偽陽性数,偽 陰性数を記録した。以上の 5 分割交差検証法による学習 とテストを 3 回繰り返し,それらの合計としての真陽性 数,真陰性数,偽陽性数,偽陰性数を算出し,正診率, 感度,特異度を求めた。
訓練データは画像編集ソフトウエア(Infran View Ver 4.44;http://www.Infranview.com)を 用 い て 約 10000 画像パッチまでデータを拡張した後に学習を行った。 データ拡張では明るさ,鮮鋭度,コントラストなどの変 更や左右の反転などの処理が実施される。これは学習時 のデータ不足を補う方法で画像になんらかの処理を施し データ量を拡張する方法である19)。
学習モデルに対する Receiver Operating Characteris-tics(ROC)解析は以下のような方法で行った。テスト データの画像パッチを作成された学習モデルに適用する と判定の確信度が示されるが,この骨変化ありの確信度 を 4 段階(0∼25%,26∼50%,51∼75% および 76∼100%) に分割して,それぞれの境界値をカットオフ値としたと きの感度,特異度を計算して ROC 曲線を作成し曲線下 の面積(AUC)を算出した。以上の計算は 3 回繰り返し た結果のすべてを用いて行った。 4.観察者による診断精度の評価 下顎頭の骨変化の有無について,テストデータと同一 の画像を用いて,経験年数 5 年以上の歯科放射線医 3 名 と,卒後 1 年未満の臨床研修歯科医 3 名が評価した。事 前に DC/TMD で定義された画像所見12)と,深層学習に は使用していないパノラマエックス線画像と CT を対比 させた画像を実例として示して,キャリブレーションを 行った後に実際の評価を行った。評価は 1:骨変化あり, 2:おそらく骨変化あり,3:おそらく骨変化なし,4:骨 変化なし,の 4 段階で行い,1,2 を陽性,3,4 を陰性と して,感度,特異度および正診率を計算した。また ROC 曲線を作成し,AUC を算出した。以上の計算は歯科放射 線医,臨床研修歯科医それぞれの 3 名分を統合して行っ た。
表 2―1 深層学習システムによる診断結果(関節数) 1 回目 2 回目 3 回目 計 真陽性 115/276 117/276 118/276 350/828 真陰性 87/276 93/276 94/276 274/828 偽陽性 51/276 45/276 44/276 140/828 偽陰性 23/276 21/276 20/276 64/828 表 2―2 歯科放射線医による診断結果(関節数) 歯科放射線医 1 歯科放射線医 2 歯科放射線医 3 計 真陽性 84/276 109/276 109/276 302/828 真陰性 107/276 93/276 90/276 290/828 偽陽性 31/276 45/276 48/276 124/828 偽陰性 54/276 29/276 29/276 112/828 表 2―3 臨床研修歯科医による診断結果(関節数) 臨床研修歯科医 1 臨床研修歯科医 2 臨床研修歯科医 3 計 真陽性 92/276 120/276 77/276 289/828 真陰性 88/276 55/276 87/276 230/828 偽陽性 50/276 83/276 51/276 184/828 偽陰性 46/276 18/276 61/276 125/828 5.診断の一致率について 深層学習システムについては 3 回行った結果を用いて 1 回目と 2 回目,2 回目と 3 回目および 1 回目と 3 回目の κ 値を算出し,その平均を一致率とした。診断精度と同様 に確信度が 50% 以上の場合を陽性として,一致数を求 め,κ値を計算した。 歯科放射線医,臨床研修歯科医に関しては,上記 4.の 評価を 1 か月の間隔を置いて 2 回行った結果から観察者 内および観察者間のκ値を計算した。4 段階の判定の 1, 2 を陽性,3,4 を陰性として,一致数を求めた。観察者 内については 1 回目と 2 回目のκ値を 3 人について算 出し,それらの平均を観察者内一致率とした。観察者間 については 1 回目,2 回目それぞれについて 2 人の組み 合わせによるκ値を算出し,すべてのκ値の平均を観察 者間一致率とした。κ値の評価は以前の報告20)に従って, <0.2:slight,0.2≦,<0.4:fair,0.4≦,<0.6:moderate, 0.6≦,<0.8:substantial,0.8≦,<1.0:almost perfect とした。 6.統計的解析 AUC の差の検定はχ2テストを用いて行い,危険率 5% 未満を有意差ありとした。解析にはエクセル統計 Ver.2.03(社会情報サービス,東京)を使用した。
結
果
深層学習システム,歯科放射線医および臨床研修歯科 医の判定結果を表 2 に示す。感度,特異度,正診率,AUC を表 3 に示す。深層学習システムの正診率は 75.4% で歯 科放射線医(71.5%),臨床研修歯科医(62.7%)より高値 であった。また,感度は高く(84.5%),特異度は低い (66.2%)結果であった。 ROC 曲線を図 3 に示す。AUC の値は,深層学習システ ムは 0.76,歯科放射線医は 0.77,臨床研修歯科医は 0.67 であった。χ2検定で深層学習システムと臨床研修歯科医 (p<0.001),歯科放射線医と臨床研修歯科医(p<0.001) の間で有意差がみられた。 診断一致数を骨変化ありの場合と骨変化なしの場合に 分けて表 4 に示す。深層学習システムの診断一致率はκ =0.84(almost perfect)であった。観察者内一致率は歯科 放射線医でκ=0.55(moderate),臨床研修歯科医でκ= 0.31(fair)であった。観察者間一致率は歯科放射線医で κ=0.47(moderate),臨床研修医でκ=0.21(fair)であっ図 3 ROC 曲線 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Sensi ƟǀŝƚLJ 1-SpeciĮciƚLJ 深層学習システム ṑ⛉ᨺᑕ⥺་ ⮫ᗋ◊ಟṑ⛉་ 表 3 深層学習システムおよび観察者の診断精度 観察者 正診率 感度 特異度 AUC 深層学習システム 75.4 84.5 66.2 0.76 ┐│ │ │ ┘ * 歯科放射線医 71.5 72.9 70.0 0.77 ┐ │ ┘* 臨床研修歯科医 62.7 69.8 55.6 0.67 *p<0.001 で有意差あり
AUC:area under the receiver operating characteristic curve
た。
考
察
診断支援を目的として人工知能をパノラマエックス線 画像に応用する研究は近年急速に増加してきている。わ れ わ れ の 施 設 で も,い く つ か の 研 究 を 発 表 し て き た17,18,21)。これらの研究では単純な構造とされる AlexNet を含むいくつかのネットワークを利用してきたが,Alex-Net の診断能は他のネットワークに比較して同等かそれ 以上と評価されている。たとえば,下顎第一大臼歯の遠 心過剰根の有無の診断では AlexNet の AUC は 0.87 で GoogLeNet の 0.85 との間に有 意 差 は な く 同 等 で あ っ た17)。パノラマエックス線画像などのグレースケールの 画像には比較的単純なネットワークでも十分な診断精度 が得られると思われる。Fukuda らの報告22)によると,下 顎智歯と下顎管との関係についてパノラマエックス線画 像上で接触の有無を判定する場合には,比較的大きな画 像(140×140 pixels)を使用すると,AlexNet とファイン チューニングを利用した VGG-16 とでは,AUC は Alex-Net のほうが有意に高くなるという結果を得た。転移学 習やファインチューニングは種々の方法で提供されてい る学習済みのモデルを新しく構築するネットワークに組 み込んで利用するもので,画像の識別にはよく利用され る方法である。しかしエックス線透過性のみに基づく単 純なグレースケールの画像には適さない場合もあると考 えられる。以上より,今回の研究ではネットワークとし て AlexNet を用いた。しかし,将来的には他のネット ワークも使用してみるべきであり,さらに転移学習や ファインチューニングでもその内容によっては診断能の 向上が期待できるかもしれない。 ある装置やシステムの診断能を評価する際には,正し く診断できるかどうかという診断の精度を評価すること と同時に,誰がいつ診断しても同様の結果が得られると いう診断の一致率(再現性)の評価も重要となる。まず AlexNet による変形性顎関節症の診断精度については, AUC が 0.76 と歯科放射線医による診断精度(AUC: 0.77)と同等であったが,感度が高く,スクリーニングと して有用となる可能性がある。これまでの報告と比較し ても,正診率は最も高いとされる覚道の報告5)に匹敵す る。さらに AUC は臨床研修歯科医(0.67)より有意に高 く,診断支援としては十分な効果が期待できると考えら れる。特異度はやや低いが,過去の報告における診断精 度の違いは,どのような骨変化を取り上げるかにも依存 すると思われる。さらに訓練データを増やすことや,今 後のネットワークの改良によってより高精度な診断の達 成が期待できる。しかし,一般的に人工知能の学習過程 では,どのような所見を取り上げて学習モデルを作成し ているのかは示されず,人工知能の診断過程を明らかに するには症例ごとに詳細な検討が必要になると思われ る。図 4 に参考となる症例を示す。 今回使用したシステムでは,それぞれのテストデータ について真陽性率と偽陽性率が表示されるので,それを そのまま ROC 解析に使用することができる。つまりす べてのデータを用いて ROC 曲線を作成することがで き,より詳細な解析が可能となる可能性がある。しかし, 今回は観察者(歯科放射線医および臨床研修歯科医)と の比較に主眼を置いたので,あえて確信度で 4 段階に分 ける方法を用いて AUC を求めた。 次に診断の一致率については,過去の報告では観察者表 4―1 深層学習システムによる診断の一致数(関節数)とκ 値 骨変化あり 骨変化なし 計 κ 値 κ 値平均(一致率) 1 回目 vs 2 回目 111/138 80/138 191/276 0.82 0.84 2 回目 vs 3 回目 115/138 84/138 199/276 0.88 1 回目 vs 3 回目 113/138 77/138 190/276 0.81 表 4―2 歯科放射線医による診断の一致数(関節数)とκ 値 骨変化あり 骨変化なし 計 κ 値 κ 値平均 (一致率) 観察者内一致 歯科放射線医 1 1 回目 vs 2 回目 71/138 89/138 160/276 0.50 0.55 歯科放射線医 2 1 回目 vs 2 回目 88/138 83/138 171/276 0.55 歯科放射線医 3 1 回目 vs 2 回目 91/138 86/138 177/276 0.61 観察者間一致 歯科放射線医 1 vs 歯科放射線医 2 1 回目 74/138 79/138 153/276 0.38 0.47 2 回目 84/138 88/138 172/276 0.55 歯科放射線医 2 vs 歯科放射線医 3 1 回目 91/138 68/138 159/276 0.43 2 回目 81/138 87/138 168/276 0.47 歯科放射線医 1 vs 歯科放射線医 3 1 回目 75/138 78/138 153/276 0.45 2 回目 82/138 93/138 175/276 0.51 表 4―3 臨床研修歯科医による診断の一致数(関節数)とκ 値 骨変化あり 骨変化なし 計 κ 値 κ 値平均 (一致率) 観察者内一致 臨床研修歯科医 1 1 回目 vs 2 回目 73/138 66/138 139/276 0.41 0.31 臨床研修歯科医 2 1 回目 vs 2 回目 99/138 32/138 131/276 0.24 臨床研修歯科医 3 1 回目 vs 2 回目 66/138 55/138 121/276 0.28 観察者間一致 臨床研修歯科医 1 vs 臨床研修歯科医 2 1 回目 83/138 42/138 125/276 0.25 0.21 2 回目 76/138 50/138 126/276 0.24 臨床研修歯科医 2 vs 臨床研修歯科医 3 1 回目 71/138 42/138 113/276 0.22 2 回目 75/138 44/138 119/276 0.22 臨床研修歯科医 1 vs 臨床研修歯科医 3 1 回目 58/138 58/138 116/276 0.20 2 回目 70/138 52/138 122/276 0.15 内一致率は高いものではほぼ完璧な一致率を示している が,低いものもありかなりのばらつきがみられる(表 1)。 今回の結果では,歯科放射線医でも観察者内一致率のκ 値は 0.55 と比較的低く,臨床研修歯科医ではさらに低い 値であった。これに対して,AlexNet では 0.84 と高い値 を示し,人工知能を用いることで常に安定した診断を提 供できることが明らかとなった。今後は他のネットワー クにも同じテストデータを適用してネットワーク間の一 致率を明らかにすることで,各ネットワークの特徴を明 らかにできる可能性があると思われる。Fukuda らは,下 顎智歯と下顎管の関係について,AlexNet,GoogLeNet および VGG-16 の間で診断の一致率を比較しているが, 比較的小さな画像(70×70pixels)を使用した場合にはκ 値はどの組み合わせでも 0.8 以上と高い一致率を示して いる22)。歯科放射線医,臨床研修歯科医ともに観察者間一 致率は観察者内一致率よりもさらに低く,変形性顎関節 症の診断を異なる時間に異なる観察者が行う場合には注 意が必要となることを示唆しているが,深層学習システ ムによる診断の再現性は高く,この問題の解決には有用 と思われる。 今回の研究は,一施設における研究であり症例数も少 なく,使用したパノラマエックス線装置も一機種であり, 結果を一般化することは困難と思われる。しかし,少な い症例数でもある程度の診断能を得たことは今後に期待
図 4 症例 A:変形のある症例(osteophyte)で歯科放射線 医は誤ったが,人工知能は正しく診断できた症例。症 例 B:変形のない症例で歯科放射線医は正しく診断で きたが,人工知能は誤って診断した症例 A B CT 䝟䝜䝷䝬䜶䝑䜽䝇⥺⏬ീ をもたせるものと考えられる。さらに異なるパノラマ装 置によって得られた画像を多くの施設から収集すること で診断能の向上が可能になると思われる。
結
語
パノラマエックス線画像による診断に深層学習を利用 した人工知能を適用して,変形性顎関節症の診断能を検 証した。その結果,診断精度は歯科放射線医と同等であ り,診断の一致率は歯科放射線医や臨床研修歯科医より も優れていた。深層学習システムは診断支援としての効 果が十分に期待できることが明らかとなった。 本論文に関して,開示すべき利益相反状態はない。 文 献1)Schiffman E, Ohrbach R, Truelove E, Look J, Anderson G, Goulet JP, et al. Diagnostic Criteria for Temporomandibular Disorders (DC/TMD) for Clinical and Research Applica-tions:Recommendations of the International RDC/TMD Consortium Network and Orofacial Pain Special Interest Group. J Oral Facial Pain Headache 2014;28:6−27. 2)矢谷博文.<世界の潮流から考えるこれからの顎関節症治療: 分類,診断基準の変革がもたらすもの>新たに改訂された日本 顎関節学会による顎関節症の病態分類(2013 年)と診断基準. 日顎誌 2015;27:76−86. 3)日本顎関節学会.顎関節症治療の指針 2018.東京:日本顎関節 学会;2018.33 頁. 4)五十嵐千浪.パノラマ 4 分割像での変形性顎関節症の画像診 断.日顎誌 2017;29:85−91. 5)覚道健治.顎関節症Ⅳ型におけるスクリーニング法としての回 転パノラマ X 線撮影法の診断的価値とその問題点.歯医学誌 1995;14:43−7. 6)雨宮俊彦.下顎頭骨変形の診断精度:デジタル方式パノラマ エックス線撮影,顎関節 4 分割パノラマエックス線撮影および 3.0 tesla MRI とコーンビーム CT の 比 較.日 大 歯 学 2015; 89:57−62. 7)荒木和之,本田和也,岡野友宏,遠藤 敦,金子福和,舟橋逸 雄,他.顎関節 4 分割パノラマ画像による骨変化の検出:小照 射野歯科用コーンビーム CT 画像を基準として.歯放 2007; 47:121−5.
8)Nozawa M, Ogi N, Ariji Y, Kise Y, Nakayama M, Nishiyama M, et al. Reliability of diagnostic imaging for degenerative dis-eases with osseous changes in the temporomandibular joint with special emphasis on subchondral cyst. Oral Radiol 2020; 36:156−62.
9)Dahlström L, Lindvall AM. Assessment of temporomandibu-lar joint disease by panoramic radiography:reliability and validity in relation to tomography. Dentomaxillofac Radiol 1996;25:197−201.
10)Schmitter M, Gabbert O, Ohlmann B, Hassel A, Wolff D, Ram-melsberg P, et al. Assessment of the reliability and validity of panoramic imaging for assessment of mandibular condyle morphology using both MRI and clinical examination as the gold standard. Oral Surg Oral Med Oral Pathol Oral Radiol Endod 2006;102:220−4.
11)Honey OB, Scarfe WC, Hilgers MJ, Klueber K, Silveira AM, Haskell BS, et al. Accuracy of cone-beam computed tomogra-phy imaging of the temporomandibular joint:comparisons with panoramic radiology and linear tomography. Am J Or-thod Dentofacial Orthop 2007;132:429−38.
12)Ahmad M, Hollender L, Anderson Q, Kartha K, Ohrbach R, Truelove EL, et al. Research Diagnostic Criteria for Temporo-mandibular Disorders (RDC/TMD):Development of image analysis criteria and examiner reliability for image analysis. Oral Surg Oral Med Oral Pathol Oral Radiol Endod 2009; 107:844−60.
13)Hintze H, Wiese M, Wenzel A. Comparison of three radio-graphic methods for detection of morphological temporoman-dibular joint changes:panoramic, scanographic and
to-mographic examination. Dentomaxillofac Radiol 2009;38: 134−40.
14)Kaimal S, Ahmad M, Kang W, Nixdorf D, Schiffman EL. Diag-nostic accuracy of panoramic radiography and MRI for detect-ing signs of TMJ degenerative joint disease. Gen Dent 2018; 66:34−40.
15)Im YG, Lee JS, Park JI, Lim HS, Kim BG, Kim JH. Diagnostic accuracy and reliability of panoramic temporomandibular joint (TMJ) radiography to detect bony lesions in patients with TMJ osteoarthritis. J Dent Sci 2018;13:396−404. 16)LeCun Y, Bengio Y, Hinton G. Deep learning. Nature 2015;
521:436−44.
17)Hiraiwa T, Ariji Y, Fukuda M, Kise Y, Nakata K, Katsumata A, et al. A deep-learning artificial intelligence system for as-sessment of root morphology of the mandibular first molar on panoramic radiography. Dentomaxillofac Radiol 2019;48: 20180218.
18)Ariji Y, Yanashita Y, Kutsuna S, Muramatsu C, Fukuda M,
Kise Y, et al. Automatic detection and classification of radiolu-cent lesions in the mandible on panoramic radiographs using a deep learning object detection technique. Oral Surg Oral Med Oral Pathol Oral Radiol 2019;128:424−30.
19)寺本篤司.ディープラーニング.藤田広志,編.医用画像ディー プラーニング入門.第 1 版.東京:オー ム 社;2019.34−6 頁.
20)Landis JR, Koch GG. The measurement of observer agree-ment for categorical data. Biometrics 1977;33:159−74. 21)Murata M, Ariji Y, Ohashi Y, Kawai T, Fukuda M, Funakoshi
T, et al. Deep-learning classification using convolutional neural network for evaluation of maxillary sinusitis on panoramic ra-diography. Oral Radiol 2019;35:301−7.
22)Fukuda M, Ariji Y, Kise Y, Nozawa M, Kuwada C, Funakoshi F, et al. Comparison of three deep learning neural networks for classifying the relationship between the mandibular third molar and the mandibular canal on panoramic radiographs. Oral Surg Oral Med Oral Pathol Oral Radiol 2020 ; in press.
Use of a deep learning system for diagnosis of degenerative disease
of the temporomandibular joint on panoramic radiographs
Michihito NOZAWA1) , Yoshiko ARIJI1) , Motoki FUKUDA1) , Yoshitaka KISE1) , Munetaka NAITOH1) , Masako NISHIYAMA1) , Nobumi OGI2) , Akitoshi KATSUMATA3)
and Eiichiro ARIJI1) 1)
Department of Oral and Maxillofacial Radiology, School of Dentistry, Aichi Gakuin University (Chief:Prof.Eiichiro ARIJI) 2)
Department of Oral and Maxillofacial Surgery, School of Dentistry, Aichi Gakuin University (Acting chief:Prof. Tohru NAGAO)
3)
Department of Oral Radiology, School of Dentistry, Asahi University (Chief:Prof. Akitoshi KATSUMATA)
Abstract Objective: The aim of this study was to apply a deep learning system to the diagnosis of degenera-tive disease of the temporomandibular joint (TMJ) on panoramic radiographs and to clarify its diagnostic per-formance (precision and consistency).
Methods: Panoramic radiographs of 138 TMJs in 92 patients suspected of having degenerative disease of the TMJ and verified for presence of condylar osseous changes on computed tomography (CT) were evaluated. As controls, 138 panoramic radiographs were selected from patients who underwent CT and panoramic radiogra-phy for suspected maxillary sinusitis and were confirmed to have no condylar osseous changes. A deep learning system was constructed using AlexNet. Learning models were created with a five-fold cross-validation method and data augmentation technique, and the precisions (sensitivity, specificity, accuracy) were determined to-gether with area under receiver-operating characteristic curve (AUC) values. The same values were determined by three oral and maxillofacial radiologists and three dental residents. Diagnostic consistencies expressed by kappa values for the deep learning system, radiologists, and residents were also verified.
Results: Sensitivity, specificity, accuracy, and AUC of the deep learning system were 84.5%, 66.2%, 75.4%, and 0.76, respectively. Significant differences in AUC values were found between the deep learning system and resi-dents, and between the radiologists and residents. Consistency of the deep learning system was almost perfect with a kappa value of 0.84 and superior to the intraobserver consistencies of 0.55 for radiologists and 0.31 for resi-dents. Interobserver consistencies were 0.47 for radiologists and 0.21 for resiresi-dents.
Conclusions: For diagnosis of degenerative joint disease of the TMJ on panoramic radiographs, the deep learn-ing system showed equivalent precision to radiologists, but superior consistency compared with both radiolo-gists and residents. Accordingly, the deep learning system has potential as an effective diagnostic support.
( J. Jpn. Soc. TMJ 2020;32:55−64 ) Key words deep learning, degenerative disease of temporomandibular joint, diagnostic imaging, panoramic
radiograph