パノラマエックス線画像による変形性顎関節症の診断における深層学習システムの有用性

(1)

原

著

パノラマエックス線画像による変形性顎関節症の診断における

深層学習システムの有用性

野澤道仁1） _{有地淑子}1） _{福田元気}1）木瀬祥貴1） _{内藤宗孝}1） _{西山雅子}1）小木信美2） _{勝又明敏}3） _{有地榮一郎}1） 抄録目的：パノラマエックス線画像による変形性顎関節症の診断に深層学習システムを適用して，その診断能 （診断精度および診断一致率）を明らかにし，有用性を検証することを目的とした。方法：変形性顎関節症を疑い CT 検査を実施した症例のうち，CT 画像で下顎頭に変形が確認された 138 関節（92 症例）のパノラマエックス線画像と，上顎洞炎を疑って CT 検査を行い，その結果下顎頭に変形が確認されなかった 138 関節のパノラマエックス線画像を対象とした。深層学習システムはネットワークとして AlexNet を使用して構築し，5 分割交差検証およびデータ拡張の手法を用いて作成した学習モデルの診断精度（感度，特異度，正診率）を算出した。また ROC 曲線から曲線下の面積（AUC）を求めた。比較のために 3 人の歯科放射線医および 3 人の臨床研修歯科医が同一画像の評価を行った。さらに診断一致率（κ 値）も算出した。結果：深層学習システムの感度は 84.5%，特異度は 66.2%，正診率は 75.4%，AUC は 0.76 であった。AUC は深層学習システムと歯科放射線医が臨床研修歯科医より有意に大きな値を示した。深層学習システムによる診断一致率（κ 値）は 0.84 で，歯科放射線医（0.55）および臨床研修歯科医（0.31）の観察者内一致率よりも高かった。観察者間一致率は歯科放射線医で 0.47，臨床研修歯科医で 0.21 であった。結論：パノラマエックス線画像による変形性顎関節症の診断について，深層学習システムを適用したところ，その診断精度は歯科放射線医と同等であり，診断の一致率は歯科放射線医や臨床研修歯科医よりも優れていた。したがって，深層学習システムは診断支援としての使用が十分に可能であり，その有用性が示された。（日顎誌 2020；32：55−64） キーワード深層学習，変形性顎関節症，画像診断，パノラマエックス線画像

緒

言

顎関節症の世界的な診断基準である Diagnostic Crite-ria for Temporomandibular Disorders（DC/TMD）１）_を基にして，2013 年に日本顎関節学会が発表した顎関節症の病態分類の 1 つに変形性顎関節症がある２）_{。これは下顎} 頭の変形を伴い，関節組織の破壊を特徴とする退行性関節障害と定義されている。診断基準は関節雑音の既往があり，顎運動時にクレピタスを認めることとされる。しかし診察のみでは感度，特異度がそれぞれ 55%，61% と低く２）_{，確定診断には CT や MRI を含む画像診断が必} 要とされている。診断につながる画像所見は DC/TMD では erosion，osteophyte，subchondral cyst，generalized sclerosis の 4 所見，日本顎関節学会の基準ではこれらに atrophy が追加されている３）_。一次医療機関では下顎頭の形態評価のほとんどがパノラマエックス線画像やいわゆるパノラマ顎関節撮影法（4 1）愛知学院大学歯学部歯科放射線学講座（主任：有地榮一郎教授） 2）愛知学院大学歯学部顎口腔外科学講座（主任代行：長尾徹教授） 3）朝日大学歯学部口腔病態医療学講座歯科放射線学分野（主任：勝又明敏教授）受付日：2020 年 4 月 20 日╱受理日：2020 年 5 月 20 日連絡先：野澤道仁，愛知学院大学歯学部歯科放射線学講座（〒４６４−８６５１名古屋市千種区末盛通２−１１）

(2)

分画）で行われていると考えられる。パノラマ顎関節撮影法は開口位で撮影されることと下顎頭の長軸に平行にエックス線が入射するため，下顎頭の骨変化の評価に適した撮影法であり４）_{，変形性顎関節症の正診率は 75∼} 82% とされ５−7）_{，比較的良好な結果である。観察者内の診} 断一致率もわれわれの以前の報告では，κ値は 0.61 と CT と同等の一致率と評価されている８）_{。しかし通常のパ} ノラマエックス線画像による正診率は高いものでも 71.4% とされ比較的低い５，６，９−15）_{（表 1）。また，観察者間の} 診断一致率については Ahmad らが非常に低い一致率（κ =0.16）を報告している１２）_{。つまり通常のパノラマエック} ス線画像のみを用いた変形性顎関節症の診断能は高いとは言えないのが現状である。原因としては，エックス線が下顎頭長軸に対して斜入されるため，画像上で形態の歪みが生じることや，関節結節などが下顎頭に重複し骨表面の形態が不鮮明になることが挙げられている６）_。本邦では顎関節症の患者数は約 1,900 万人と推定されており３）_{，撮影の煩雑さを考慮すると，パノラマ顎関節撮影よ} りも通常のパノラマエックス線撮影が多くの患者に実施されていると考えられる。畳み込みニューラルネットワーク（CNN：Convolu-tion Neural Network）を利用して構築された深層学習システムによる人工知能の利用に関しては，医療の分野でも多くの研究が行われ，それを搭載した画像診断支援システムが急速に開発されてきている１６）_{。深層学習システ} ムによって作成された学習モデルでは画像分類（診断）や物体検出が可能となり，パノラマエックス線画像においても，下顎第一大臼歯における過剰根の診断１７）_や透過性病変の検出１８）_{などに応用されている。しかし顎関節症を} 対象とした報告はわれわれの知るかぎりではこれまでにない。通常のパノラマエックス線画像で変形性顎関節症の診断をする際に深層学習が診断補助として利用できれば，経験の浅い読影者にとっては有益なものとなる。以上より，本研究の目的は通常のパノラマエックス線画像を用いた変形性顎関節症の診断において，深層学習システムの有用性を検証することとした。そのために，深層学習システムによる診断能と 5 年以上の顎関節疾患の読影経験を有する歯科放射線医および卒後 1 年未満の臨床研修歯科医による診断能を比較検討した。

対象と研究方法

本研究は愛知学院大学歯学部倫理委員会の承認を得て実施した（No.496）。なお，ヘルシンキ宣言の精神を遵守して行った。 1．対象 対象は，2009 年 4 月から 2019 年 5 月の間に愛知学院大学歯学部附属病院において変形性顎関節症を疑い，パノラマエックス線画像と CT を撮影した患者のうち，CT 画像で下顎頭に変形ありと診断された 92 症例（男性 23 症例，女性 69 症例；平均年齢 53.3 歳，17∼86 歳）である。このうち片側に骨変化が確認された症例が 46 例，両側に観察された症例が 46 例で，合計 138 関節のパノラマエックス線画像が選択されたが，これらは顎関節学会指導医 1 名を含む歯科放射線医 3 名が別々に CT 画像を評価し，その結果 3 名全員が骨変化ありと診断したものである。 CT 画像の評価においては，以前の報告８）_{に従って，} erosion，osteophyte，subchondral cyst，generalized scle-rosis のうち少なくとも一つの所見がある場合に骨変化ありとした。なお，atrophy に関しては 2018 年に新たに追加された所見のため，今回は評価対象に加えなかった。対照として，同期間に上顎洞炎を疑いパノラマエックス線画像と CT を撮影した症例から，CT において下顎頭に変形のない症例を同様に 3 名の歯科放射線医の一致によって選択した。顎関節数，年齢分布，男女比は変形性顎関節症患者と同等となるように選択した（平均年齢 55.3 歳，21∼82 歳）。パノラマエックス線撮影は Veraviewepocs X550（モリタ製作所，京都）を使用し，安静咬合位で行い，撮影条件は 75 kV，8 mA，16.2 s とした。イメージングプレート方式のデジタル画像装置（REGIUS MODEL 2，コニカミノルタ，東京）を使用して，ピクセルサイズ 0.0875× 0.0875 mm の画像を得た。CT 装置は Asteion（キヤノンメディカルシステムズ，栃木）を使用し，撮影条件は 120 kV，100 mA，スライス厚 0.5 mm，FOV 200 mm（＝ピクセルサイズ 0.39 mm）とした。骨条件（ウィンドウ値 900 HU，ウィンドウ幅 4500 HU）の画像で骨変化を判定した。 2．深層学習システムの構成 深層学習システムは Ubntu ver.16.04.2 の動作システムと GPU として，NDIVIA Geforce GXT 1080Ti を使用して構築された。ネットワークは DIGITS Library ver. 5.0 （ NVIDIA ； http://developer.nvidia.com/ digits）に提供されている AlexNet を用い，Caffe のフレームワークを使用した。AlexNet は 5 層の畳み込み層と 3 層の全結合層を有する CNN で，比較的単純なものとされている１９）_。画像データベースから JPEG フォーマットでダウンロードされたパノラマエックス線画像を使用して，100 ×100 ピクセルの正方形の画像パッチを切り出した。画

(3)

表 1 パノラマエックス線画像における変形性顎関節症の診断能発行年文献（No.）著者（筆頭著者）関節数評価所見評価者数ゴールドスタンダード診断精度診断一致率（ κ 値）感度特異度正診率観察者間観察者内 1995 5 覚道健治 60 erosion，osteophyte 27 断層 71.4% 1996 9 Dahlström L 140 osteophyte， flattening， erosion 2 断層 16 - 60% 71 - 95% 0.40 - 0.65 0.60 - 0.79 2006 10 Schmitter M 76 deformation 3 MRI 94.0% 45.0% 0.19 2007 11 Honey OB 37 erosion 10 Dried mandible 64.4% 0.72 2009 12 Ahmad M 1435 erosion，osteophyte， cyst ＊1 ，sclerosis ＊2 3 C T 26.2% 99.3% 0.16 2009 13 Hintze H 159 flattening，defect，osteophyte 3 Dried mandible 4 50% 91 - 99% 0.29 - 1.0 2015 6 雨宮俊彦 38 2 CBCT 43.0% 80.0% 58.0% 2016 14 Kaimal S 1410 erosion，osteophyte， cyst ＊1 ，sclerosis ＊2 3 C T 12.1 - 33.3% 99.7 - 100% 2018 15 Im YG 55 erosion， osteophyte， flattening 2 CBCT 10.7 - 59.5% 68.8 - 96.7% 48.1% 0.42 - 0.48 0.71 - 0.93 2020 本研究野澤道仁 276 erosion，osteophyte， cyst ＊1 ，sclerosis ＊2 3 ＊3 CT 72.9% 70.0% 71.5% 0.47 0.55 2020 本研究野澤道仁 276 erosion，osteophyte， cyst ＊1 ，sclerosis ＊2 3 ＊4 CT 69.8% 55.6% 62.7% 0.21 0.31 2020 本研究野澤道仁 276 erosion，osteophyte， cyst ＊1 ，sclerosis ＊2 AlexNet CT 84.5% 66.2% 75.4% 0.83 ＊1 ：subchondral cyst ＊2 ：generalized sclerosis ＊3 ：歯科放射線医＊4 ：臨床研修歯科医

(4)

図 1 切り出した下顎頭（100×100 pixel） Osoteophyte が確認できる。 図 2 5 分割交差検証法 カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ ࢸࢫࢺࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ ࢸࢫࢺࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ ࢸࢫࢺࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ ࢸࢫࢺࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ カ⦎ࢹ࣮ࢱ ࢸࢫࢺࢹ࣮ࢱ Ꮫ⩦ࣔࢹࣝ Ꮫ⩦ࣔࢹࣝ Ꮫ⩦ࣔࢹࣝ Ꮫ⩦ࣔࢹࣝ Ꮫ⩦ࣔࢹࣝ $ % & ' ( ࢚࣏ࢵࢡࡢカ⦎ ࢹ࣮ࢱࢭࢵࢺ ࢹ࣮ࢱࢭࢵࢺ( ࡟ࡼࡿࢸࢫࢺ ࢹ࣮ࢱࢭࢵࢺ' ࡟ࡼࡿࢸࢫࢺ ࢹ࣮ࢱࢭࢵࢺ& ࡟ࡼࡿࢸࢫࢺ ࢹ࣮ࢱࢭࢵࢺ% ࡟ࡼࡿࢸࢫࢺ ࢹ࣮ࢱࢭࢵࢺ$ ࡟ࡼࡿࢸࢫࢺ ⤖ᯝ ⤖ᯝ ⤖ᯝ ⤖ᯝ ⤖ᯝ デ᩿⤖ᯝ ྜィ ࣮࣍ࣝࢻ㸰 ࣮࣍ࣝࢻ㸱 ࣮࣍ࣝࢻ㸲 ࣮࣍ࣝࢻ㸳 ࣮࣍ࣝࢻ㸯像パッチの上縁を下顎窩の上縁に一致させ，下顎頭が画像パッチの中心に位置するように切り出した（図 1）。切り出しには Adobe Photoshop CS6（アドビシステムズ，東京）を用いた。 3．学習モデルの作成と診断精度の評価 本研究では限られたデータによって学習モデルを作成する際に使用される 5 分割交差検証の方法を用いた（図 2）。切り出した 276 画像パッチをほぼ均等な数になるように無作為に 5 分割し，それぞれのグループに骨変化ありと骨変化なしの症例を同数含むようにした。これらのうち 80%（4 グループ）を訓練データとして学習モデルを作成し，残りの 1 グループをテストデータとし，これを作成された学習モデルに適用すると判定結果がテストデータのそれぞれの画像パッチについて，確信度（0∼ 100％）とともに出力される。この結果で骨変化ありの確信度が 50％以上の場合に，学習モデルが陽性と判断したものとした。訓練データとテストデータの組み合わせを変えて，それぞれ 100 エポックの学習を 5 回行い，その結果として得られた真陽性数，真陰性数，偽陽性数，偽陰性数を記録した。以上の 5 分割交差検証法による学習とテストを 3 回繰り返し，それらの合計としての真陽性数，真陰性数，偽陽性数，偽陰性数を算出し，正診率，感度，特異度を求めた。

訓練データは画像編集ソフトウエア（Infran View Ver 4.44；http://www.Infranview.com）を用いて約 10000 画像パッチまでデータを拡張した後に学習を行った。データ拡張では明るさ，鮮鋭度，コントラストなどの変更や左右の反転などの処理が実施される。これは学習時のデータ不足を補う方法で画像になんらかの処理を施しデータ量を拡張する方法である１９）_。

学習モデルに対する Receiver Operating Characteris-tics（ROC）解析は以下のような方法で行った。テストデータの画像パッチを作成された学習モデルに適用すると判定の確信度が示されるが，この骨変化ありの確信度を 4 段階（0∼25%，26∼50%，51∼75% および 76∼100%）に分割して，それぞれの境界値をカットオフ値としたときの感度，特異度を計算して ROC 曲線を作成し曲線下の面積（AUC）を算出した。以上の計算は 3 回繰り返した結果のすべてを用いて行った。 4．観察者による診断精度の評価 下顎頭の骨変化の有無について，テストデータと同一の画像を用いて，経験年数 5 年以上の歯科放射線医 3 名と，卒後 1 年未満の臨床研修歯科医 3 名が評価した。事前に DC/TMD で定義された画像所見１２）_{と，深層学習に} は使用していないパノラマエックス線画像と CT を対比させた画像を実例として示して，キャリブレーションを行った後に実際の評価を行った。評価は 1：骨変化あり， 2：おそらく骨変化あり，3：おそらく骨変化なし，4：骨変化なし，の 4 段階で行い，1，2 を陽性，3，4 を陰性として，感度，特異度および正診率を計算した。また ROC 曲線を作成し，AUC を算出した。以上の計算は歯科放射線医，臨床研修歯科医それぞれの 3 名分を統合して行った。

(5)

表 2―1 深層学習システムによる診断結果（関節数） 1 回目 2 回目 3 回目計真陽性 115/276 117/276 118/276 350/828 真陰性 87/276 93/276 94/276 274/828 偽陽性 51/276 45/276 44/276 140/828 偽陰性 23/276 21/276 20/276 64/828 表 2―2 歯科放射線医による診断結果（関節数） 歯科放射線医 1 歯科放射線医 2 歯科放射線医 3 計真陽性 84/276 109/276 109/276 302/828 真陰性 107/276 93/276 90/276 290/828 偽陽性 31/276 45/276 48/276 124/828 偽陰性 54/276 29/276 29/276 112/828 表 2―3 臨床研修歯科医による診断結果（関節数） 臨床研修歯科医 1 臨床研修歯科医 2 臨床研修歯科医 3 計真陽性 92/276 120/276 77/276 289/828 真陰性 88/276 55/276 87/276 230/828 偽陽性 50/276 83/276 51/276 184/828 偽陰性 46/276 18/276 61/276 125/828 5．診断の一致率について 深層学習システムについては 3 回行った結果を用いて 1 回目と 2 回目，2 回目と 3 回目および 1 回目と 3 回目の κ 値を算出し，その平均を一致率とした。診断精度と同様に確信度が 50％以上の場合を陽性として，一致数を求め，κ値を計算した。歯科放射線医，臨床研修歯科医に関しては，上記 4．の評価を 1 か月の間隔を置いて 2 回行った結果から観察者内および観察者間のκ値を計算した。4 段階の判定の 1， 2 を陽性，3，4 を陰性として，一致数を求めた。観察者内については 1 回目と 2 回目のκ値を 3 人について算出し，それらの平均を観察者内一致率とした。観察者間については 1 回目，2 回目それぞれについて 2 人の組み合わせによるκ値を算出し，すべてのκ値の平均を観察者間一致率とした。κ値の評価は以前の報告２０）_{に従って，} ＜0.2：slight，0.2≦，＜0.4：fair，0.4≦，＜0.6：moderate， 0.6≦，＜0.8：substantial，0.8≦，＜1.0：almost perfect とした。 6．統計的解析 AUC の差の検定はχ2_{テストを用いて行い，危険率} 5％未満を有意差ありとした。解析にはエクセル統計 Ver.2.03（社会情報サービス，東京）を使用した。

結

果

深層学習システム，歯科放射線医および臨床研修歯科医の判定結果を表 2 に示す。感度，特異度，正診率，AUC を表 3 に示す。深層学習システムの正診率は 75.4% で歯科放射線医（71.5%），臨床研修歯科医（62.7%）より高値であった。また，感度は高く（84.5%），特異度は低い（66.2%）結果であった。 ROC 曲線を図 3 に示す。AUC の値は，深層学習システムは 0.76，歯科放射線医は 0.77，臨床研修歯科医は 0.67 であった。χ2_{検定で深層学習システムと臨床研修歯科医} （p＜0.001），歯科放射線医と臨床研修歯科医（p＜0.001）の間で有意差がみられた。診断一致数を骨変化ありの場合と骨変化なしの場合に分けて表 4 に示す。深層学習システムの診断一致率はκ =0.84（almost perfect）であった。観察者内一致率は歯科放射線医でκ=0.55（moderate），臨床研修歯科医でκ= 0.31（fair）であった。観察者間一致率は歯科放射線医で κ=0.47（moderate），臨床研修医でκ=0.21（fair）であっ

(6)

図 3 ROC 曲線 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Sensi ƟǀŝƚǇ 1-SpeciĮciƚǇ 深層学習システム ṑ⛉ᨺᑕ⥺་ ⮫ᗋ◊ಟṑ⛉་ 表 3 深層学習システムおよび観察者の診断精度 観察者正診率感度特異度 AUC 深層学習システム 75.4 84.5 66.2 0.76 ┐_│ │ │ ┘ ＊歯科放射線医 71.5 72.9 70.0 0.77 ┐ │ ┘＊臨床研修歯科医 62.7 69.8 55.6 0.67 ＊p＜0.001 で有意差あり

AUC：area under the receiver operating characteristic curve

た。

考

察

診断支援を目的として人工知能をパノラマエックス線画像に応用する研究は近年急速に増加してきている。われわれの施設でも，いくつかの研究を発表してきた１７，１８，２１）_{。これらの研究では単純な構造とされる AlexNet} を含むいくつかのネットワークを利用してきたが，Alex-Net の診断能は他のネットワークに比較して同等かそれ以上と評価されている。たとえば，下顎第一大臼歯の遠心過剰根の有無の診断では AlexNet の AUC は 0.87 で GoogLeNet の 0.85 との間に有意差はなく同等であった１７）_{。パノラマエックス線画像などのグレースケールの} 画像には比較的単純なネットワークでも十分な診断精度が得られると思われる。Fukuda らの報告２２）_{によると，下} 顎智歯と下顎管との関係についてパノラマエックス線画像上で接触の有無を判定する場合には，比較的大きな画像（140×140 pixels）を使用すると，AlexNet とファインチューニングを利用した VGG-16 とでは，AUC は Alex-Net のほうが有意に高くなるという結果を得た。転移学習やファインチューニングは種々の方法で提供されている学習済みのモデルを新しく構築するネットワークに組み込んで利用するもので，画像の識別にはよく利用される方法である。しかしエックス線透過性のみに基づく単純なグレースケールの画像には適さない場合もあると考えられる。以上より，今回の研究ではネットワークとして AlexNet を用いた。しかし，将来的には他のネットワークも使用してみるべきであり，さらに転移学習やファインチューニングでもその内容によっては診断能の向上が期待できるかもしれない。ある装置やシステムの診断能を評価する際には，正しく診断できるかどうかという診断の精度を評価することと同時に，誰がいつ診断しても同様の結果が得られるという診断の一致率（再現性）の評価も重要となる。まず AlexNet による変形性顎関節症の診断精度については， AUC が 0.76 と歯科放射線医による診断精度（AUC： 0.77）と同等であったが，感度が高く，スクリーニングとして有用となる可能性がある。これまでの報告と比較しても，正診率は最も高いとされる覚道の報告５）_に匹敵する。さらに AUC は臨床研修歯科医（0.67）より有意に高く，診断支援としては十分な効果が期待できると考えられる。特異度はやや低いが，過去の報告における診断精度の違いは，どのような骨変化を取り上げるかにも依存すると思われる。さらに訓練データを増やすことや，今後のネットワークの改良によってより高精度な診断の達成が期待できる。しかし，一般的に人工知能の学習過程では，どのような所見を取り上げて学習モデルを作成しているのかは示されず，人工知能の診断過程を明らかにするには症例ごとに詳細な検討が必要になると思われる。図 4 に参考となる症例を示す。今回使用したシステムでは，それぞれのテストデータについて真陽性率と偽陽性率が表示されるので，それをそのまま ROC 解析に使用することができる。つまりすべてのデータを用いて ROC 曲線を作成することができ，より詳細な解析が可能となる可能性がある。しかし，今回は観察者（歯科放射線医および臨床研修歯科医）との比較に主眼を置いたので，あえて確信度で 4 段階に分ける方法を用いて AUC を求めた。次に診断の一致率については，過去の報告では観察者

(7)

表 4―1 深層学習システムによる診断の一致数（関節数）とκ 値骨変化あり骨変化なし計 κ 値 κ 値平均（一致率） 1 回目 vs 2 回目 111/138 80/138 191/276 0.82 0.84 2 回目 vs 3 回目 115/138 84/138 199/276 0.88 1 回目 vs 3 回目 113/138 77/138 190/276 0.81 表 4―2 歯科放射線医による診断の一致数（関節数）とκ 値骨変化あり骨変化なし計 κ 値 κ 値平均（一致率）観察者内一致歯科放射線医 1 1 回目 vs 2 回目 71/138 89/138 160/276 0.50 0.55 歯科放射線医 2 1 回目 vs 2 回目 88/138 83/138 171/276 0.55 歯科放射線医 3 1 回目 vs 2 回目 91/138 86/138 177/276 0.61 観察者間一致歯科放射線医 1 vs 歯科放射線医 2 1 回目 74/138 79/138 153/276 0.38 0.47 2 回目 84/138 88/138 172/276 0.55 歯科放射線医 2 vs 歯科放射線医 3 1 回目 91/138 68/138 159/276 0.43 2 回目 81/138 87/138 168/276 0.47 歯科放射線医 1 vs 歯科放射線医 3 1 回目 75/138 78/138 153/276 0.45 2 回目 82/138 93/138 175/276 0.51 表 4―3 臨床研修歯科医による診断の一致数（関節数）とκ 値骨変化あり骨変化なし計 κ 値 κ 値平均（一致率）観察者内一致臨床研修歯科医 1 1 回目 vs 2 回目 73/138 66/138 139/276 0.41 0.31 臨床研修歯科医 2 1 回目 vs 2 回目 99/138 32/138 131/276 0.24 臨床研修歯科医 3 1 回目 vs 2 回目 66/138 55/138 121/276 0.28 観察者間一致臨床研修歯科医 1 vs 臨床研修歯科医 2 1 回目 83/138 42/138 125/276 0.25 0.21 2 回目 76/138 50/138 126/276 0.24 臨床研修歯科医 2 vs 臨床研修歯科医 3 1 回目 71/138 42/138 113/276 0.22 2 回目 75/138 44/138 119/276 0.22 臨床研修歯科医 1 vs 臨床研修歯科医 3 1 回目 58/138 58/138 116/276 0.20 2 回目 70/138 52/138 122/276 0.15 内一致率は高いものではほぼ完璧な一致率を示しているが，低いものもありかなりのばらつきがみられる（表 1）。今回の結果では，歯科放射線医でも観察者内一致率のκ 値は 0.55 と比較的低く，臨床研修歯科医ではさらに低い値であった。これに対して，AlexNet では 0.84 と高い値を示し，人工知能を用いることで常に安定した診断を提供できることが明らかとなった。今後は他のネットワークにも同じテストデータを適用してネットワーク間の一致率を明らかにすることで，各ネットワークの特徴を明らかにできる可能性があると思われる。Fukuda らは，下顎智歯と下顎管の関係について，AlexNet，GoogLeNet および VGG-16 の間で診断の一致率を比較しているが，比較的小さな画像（70×70pixels）を使用した場合にはκ 値はどの組み合わせでも 0.8 以上と高い一致率を示している２２）_{。歯科放射線医，臨床研修歯科医ともに観察者間一} 致率は観察者内一致率よりもさらに低く，変形性顎関節症の診断を異なる時間に異なる観察者が行う場合には注意が必要となることを示唆しているが，深層学習システムによる診断の再現性は高く，この問題の解決には有用と思われる。今回の研究は，一施設における研究であり症例数も少なく，使用したパノラマエックス線装置も一機種であり，結果を一般化することは困難と思われる。しかし，少ない症例数でもある程度の診断能を得たことは今後に期待

(8)

図 4 症例 A：変形のある症例（osteophyte）で歯科放射線 医は誤ったが，人工知能は正しく診断できた症例。症例 B：変形のない症例で歯科放射線医は正しく診断できたが，人工知能は誤って診断した症例 ⑕౛A ⑕౛B CT 䝟䝜䝷䝬䜶䝑䜽䝇⥺⏬ീ をもたせるものと考えられる。さらに異なるパノラマ装置によって得られた画像を多くの施設から収集することで診断能の向上が可能になると思われる。

結

語

パノラマエックス線画像による診断に深層学習を利用した人工知能を適用して，変形性顎関節症の診断能を検証した。その結果，診断精度は歯科放射線医と同等であり，診断の一致率は歯科放射線医や臨床研修歯科医よりも優れていた。深層学習システムは診断支援としての効果が十分に期待できることが明らかとなった。本論文に関して，開示すべき利益相反状態はない。文献

1）Schiffman E, Ohrbach R, Truelove E, Look J, Anderson G, Goulet JP, et al. Diagnostic Criteria for Temporomandibular Disorders (DC/TMD) for Clinical and Research Applica-tions：Recommendations of the International RDC/TMD Consortium Network and Orofacial Pain Special Interest Group. J Oral Facial Pain Headache 2014；28：6−27. 2）矢谷博文．＜世界の潮流から考えるこれからの顎関節症治療：分類，診断基準の変革がもたらすもの＞新たに改訂された日本顎関節学会による顎関節症の病態分類（2013 年）と診断基準．日顎誌 2015；27：76−86. 3）日本顎関節学会．顎関節症治療の指針 2018．東京：日本顎関節学会；2018．33 頁. 4）五十嵐千浪．パノラマ 4 分割像での変形性顎関節症の画像診断．日顎誌 2017；29：85−91. 5）覚道健治．顎関節症Ⅳ型におけるスクリーニング法としての回転パノラマ X 線撮影法の診断的価値とその問題点．歯医学誌 1995；14：43−7. 6）雨宮俊彦．下顎頭骨変形の診断精度：デジタル方式パノラマエックス線撮影，顎関節 4 分割パノラマエックス線撮影および 3.0 tesla MRI とコーンビーム CT の比較．日大歯学 2015； 89：57−62. 7）荒木和之，本田和也，岡野友宏，遠藤敦，金子福和，舟橋逸雄，他．顎関節 4 分割パノラマ画像による骨変化の検出：小照射野歯科用コーンビーム CT 画像を基準として．歯放 2007； 47：121−5.

8）Nozawa M, Ogi N, Ariji Y, Kise Y, Nakayama M, Nishiyama M, et al. Reliability of diagnostic imaging for degenerative dis-eases with osseous changes in the temporomandibular joint with special emphasis on subchondral cyst. Oral Radiol 2020； 36：156−62.

9）Dahlström L, Lindvall AM. Assessment of temporomandibu-lar joint disease by panoramic radiography：reliability and validity in relation to tomography. Dentomaxillofac Radiol 1996；25：197−201.

10）Schmitter M, Gabbert O, Ohlmann B, Hassel A, Wolff D, Ram-melsberg P, et al. Assessment of the reliability and validity of panoramic imaging for assessment of mandibular condyle morphology using both MRI and clinical examination as the gold standard. Oral Surg Oral Med Oral Pathol Oral Radiol Endod 2006；102：220−4.

11）Honey OB, Scarfe WC, Hilgers MJ, Klueber K, Silveira AM, Haskell BS, et al. Accuracy of cone-beam computed tomogra-phy imaging of the temporomandibular joint：comparisons with panoramic radiology and linear tomography. Am J Or-thod Dentofacial Orthop 2007；132：429−38.

12）Ahmad M, Hollender L, Anderson Q, Kartha K, Ohrbach R, Truelove EL, et al. Research Diagnostic Criteria for Temporo-mandibular Disorders (RDC/TMD)：Development of image analysis criteria and examiner reliability for image analysis. Oral Surg Oral Med Oral Pathol Oral Radiol Endod 2009； 107：844−60.

13）Hintze H, Wiese M, Wenzel A. Comparison of three radio-graphic methods for detection of morphological temporoman-dibular joint changes：panoramic, scanographic and

(9)

to-mographic examination. Dentomaxillofac Radiol 2009；38： 134−40.

14）Kaimal S, Ahmad M, Kang W, Nixdorf D, Schiffman EL. Diag-nostic accuracy of panoramic radiography and MRI for detect-ing signs of TMJ degenerative joint disease. Gen Dent 2018； 66：34−40.

15）Im YG, Lee JS, Park JI, Lim HS, Kim BG, Kim JH. Diagnostic accuracy and reliability of panoramic temporomandibular joint (TMJ) radiography to detect bony lesions in patients with TMJ osteoarthritis. J Dent Sci 2018；13：396−404. 16）LeCun Y, Bengio Y, Hinton G. Deep learning. Nature 2015；

521：436−44.

17）Hiraiwa T, Ariji Y, Fukuda M, Kise Y, Nakata K, Katsumata A, et al. A deep-learning artificial intelligence system for as-sessment of root morphology of the mandibular first molar on panoramic radiography. Dentomaxillofac Radiol 2019；48： 20180218.

18）Ariji Y, Yanashita Y, Kutsuna S, Muramatsu C, Fukuda M,

Kise Y, et al. Automatic detection and classification of radiolu-cent lesions in the mandible on panoramic radiographs using a deep learning object detection technique. Oral Surg Oral Med Oral Pathol Oral Radiol 2019；128：424−30.

19）寺本篤司．ディープラーニング．藤田広志，編．医用画像ディープラーニング入門．第 1 版．東京：オーム社；2019．34−6 頁.

20）Landis JR, Koch GG. The measurement of observer agree-ment for categorical data. Biometrics 1977；33：159−74. 21）Murata M, Ariji Y, Ohashi Y, Kawai T, Fukuda M, Funakoshi

T, et al. Deep-learning classification using convolutional neural network for evaluation of maxillary sinusitis on panoramic ra-diography. Oral Radiol 2019；35：301−7.

22）Fukuda M, Ariji Y, Kise Y, Nozawa M, Kuwada C, Funakoshi F, et al. Comparison of three deep learning neural networks for classifying the relationship between the mandibular third molar and the mandibular canal on panoramic radiographs. Oral Surg Oral Med Oral Pathol Oral Radiol 2020 ; in press.

(10)

Use of a deep learning system for diagnosis of degenerative disease

of the temporomandibular joint on panoramic radiographs

Michihito NOZAWA1) , Yoshiko ARIJI1) , Motoki FUKUDA1) , Yoshitaka KISE1) , Munetaka NAITOH1) , Masako NISHIYAMA1) , Nobumi OGI2) , Akitoshi KATSUMATA3)

and Eiichiro ARIJI1) 1)

Department of Oral and Maxillofacial Radiology, School of Dentistry, Aichi Gakuin University (Chief：Prof.Eiichiro ARIJI) 2)

Department of Oral and Maxillofacial Surgery, School of Dentistry, Aichi Gakuin University (Acting chief：Prof. Tohru NAGAO)

3)

Department of Oral Radiology, School of Dentistry, Asahi University (Chief：Prof. Akitoshi KATSUMATA)

Abstract Objective: The aim of this study was to apply a deep learning system to the diagnosis of degenera-tive disease of the temporomandibular joint (TMJ) on panoramic radiographs and to clarify its diagnostic per-formance (precision and consistency).

Methods: Panoramic radiographs of 138 TMJs in 92 patients suspected of having degenerative disease of the TMJ and verified for presence of condylar osseous changes on computed tomography (CT) were evaluated. As controls, 138 panoramic radiographs were selected from patients who underwent CT and panoramic radiogra-phy for suspected maxillary sinusitis and were confirmed to have no condylar osseous changes. A deep learning system was constructed using AlexNet. Learning models were created with a five-fold cross-validation method and data augmentation technique, and the precisions (sensitivity, specificity, accuracy) were determined to-gether with area under receiver-operating characteristic curve (AUC) values. The same values were determined by three oral and maxillofacial radiologists and three dental residents. Diagnostic consistencies expressed by kappa values for the deep learning system, radiologists, and residents were also verified.

Results: Sensitivity, specificity, accuracy, and AUC of the deep learning system were 84.5%, 66.2%, 75.4%, and 0.76, respectively. Significant differences in AUC values were found between the deep learning system and resi-dents, and between the radiologists and residents. Consistency of the deep learning system was almost perfect with a kappa value of 0.84 and superior to the intraobserver consistencies of 0.55 for radiologists and 0.31 for resi-dents. Interobserver consistencies were 0.47 for radiologists and 0.21 for resiresi-dents.

Conclusions: For diagnosis of degenerative joint disease of the TMJ on panoramic radiographs, the deep learn-ing system showed equivalent precision to radiologists, but superior consistency compared with both radiolo-gists and residents. Accordingly, the deep learning system has potential as an effective diagnostic support.

（ J. Jpn. Soc. TMJ 2020；32：55−64 ） Key words deep learning, degenerative disease of temporomandibular joint, diagnostic imaging, panoramic

radiograph