• 検索結果がありません。

分析トレーニング用DPCデータ作成ロジックの開発

N/A
N/A
Protected

Academic year: 2021

シェア "分析トレーニング用DPCデータ作成ロジックの開発"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

分析トレーニング用 DPC データ作成ロジックの開発

村松 圭司1)(Muramatsu Keiji) 得津  慶1)(Tokutsu Kei)   大谷  誠2)(Otani Makoto)  1)産業医科大学医学部公衆衛生教室 2)産業医科大学情報管理センター 要旨:本研究では、DPC データ分析の練習に用いるため、DPC データのうち様式 1 のダミーデータ を作成するロジックを開発した。ダミーデータを集計した際に現実的な値となるよう厚生労働省の DPC 公開データの集計結果を参考とした。開発したロジックを用いて規模の異なる 2 つのデータ ベースを生成し、性別について二群の比率の差の検定を行った。規模の小さいデータベースでは有 意な差が認められたが、規模の大きいものでは実際の値と優位な差は認められなかった。 キーワード:DPC データ、様式 1、ダミーデータ

1 .はじめに

 既存のデータを二次利用した医療に関する研究の推進が求められている。厚生労働省は、平成 23 年よりレセプト情報・特定健診等情報データベース(NDB)の研究者への提供を開始した1)。また、 平成 29 年にはデータヘルス改革推進本部を設置し、健康・医療・介護のビッグデータを研究利用す るためのプラットフォームを構築することとし、現在は DPC データベース等の国が有する他のデー タベースとの連結や個人単位化される被保険者番号を活用した医療等分野の情報連結の仕組みの検討 が行われている2)、3)  NDB は粒度が細かく、ほぼ悉皆な、世界最大級の医療データベースであり、臨床研究や医療経済 研究等に用いることが可能であるが、その利用の状況に課題がある。平成 30 年度に公表された成果 物は 48 件あるが、そのうち論文は 15 編、英語論文は 12 編であった4)。これは提供開始から 5 年間で 掲載された英語論文 9 編を上回る本数であるが、平成 30 年度の英語論文のうち 7 編は同一申請者に よるものであり、NDB を用いた研究者は依然として少ないことが推測される5)。DPC データの研究 利用は、研究者らが独自に医療機関から提供を受け構築した大規模データベースを用いた研究が行わ れており、年間約 70 本の英語論文が掲載され、NDB と比較して多くの研究が行われている。しかし、 NDB 同様小数の研究グループから多くの論文が投稿されており、研究利用の裾野を広げることが課 題となっている。  NDB や DPC データの利活用が促進しない理由として、利用申出の承諾からデータ入手までの期間 が長いことやデータ入手からデータハンドリング完了までの期間が長いことが指摘されている5) 分析トレーニング用 DPC データ作成ロジックの開発(村松・得津・大谷)

(2)

方法を採用することが困難である。この問題を解決するため、本研究の先行研究である「NDB デー タ利活用促進に向けた教育資源の開発に関する研究」において練習用データセットの開発が行われ た6)。一方で、DPC データについては規模も含め厚生労働省が有する DPC データベースに類似した 練習用データセットの整備はこれまで行われていない。  そこで、本研究では DPC データを研究や医療機関内でのマネジメントに活用するための分析に活 用する練習を行うため、DPC データのうち様式 1 のダミーデータを作成するロジックを開発するこ とを目的とした。

2 .方法

2.1 DPC 公開データの入手  ダミーデータ生成過程の概要を図 1 に示す。はじめに、様式 1 のダミーデータを作成するに当たり、 作成した様式 1 を集計した結果が DPC 公開データで明らかとなっている実際の症例数等に類似した ものとなるよう、DPC 公開データを参考とした。研究期間中に利用可能であった最新の平成 29 年度 の退院調査の結果をデータベース化した7)。データベース化の対象は、参考資料 2 の「(6)診断群分 類毎の集計」及び各主要診断群(MDC)別に分割されている「(8)疾患別手術別集計」とした。 2.2 空の様式 1 テーブルの作成  データベース上に、「DPC 導入の影響評価に係る調査」実施説明資料を参考に、平成 29 年度版様 式 1 レイアウトの空のテーブルを作成した8)。その際、本来のデータ形式であるヘッダ・ペイロード 方式では作成が困難であると考え、平成 26 年以前のいわゆる「横持ち」状態で作成した。 2.3 医療機関・傷病分類・手術別の様式 1 ダミーデータ発生ロジックの開発  医療機関・傷病分類・手術別に件数を集計した際に、厚生労働省が公開している DPC データの参 図 1 ダミーデータ生成過程の概要

(3)

考資料 2「(8)疾患別手術別集計」と同一になるように空の様式 1 テーブルにダミーデータを発生さ せるロジックを開発した。ロジック開発に用いる傷病分類は患者数の多い「040080 肺炎等」とした。 2.4 医療機関・傷病分類・手術別の診断群分類付与ロジックの開発  全ての医療機関において傷病分類・手術別の診断群分類の割合が同一であったと仮定し、参考資料 2 の「(6)診断群分類毎の集計」を用いて傷病分類・手術別に各診断群分類が占める割合を計算し、 各様式 1 のダミーデータに診断群分類を付与するロジックを開発した。 2.5 診断群分類別の様式 1 項目データ発生ロジックの開発  参考資料 2 の「(6)診断群分類毎の集計」で明らかとなっている項目別の件数を用いて様式 1 の調 査項目のデータを発生させるロジックを開発した。性別を例にとると、診断群分類別に性別件数が明 らかとなっているので、全医療機関の様式 1 を集計した際にその性比と類似した結果となるようなロ ジックとした。 2.6 ダミーデータ生成ロジックの検証  DPC データ分析のトレーニングを行う際には、必ずしも国の保有する全数データと同じ規模のデー タベースは必要ない。一方で、規模が小さすぎると出現しない値が発生したり、集計しても公開デー タに近似しなくなったりする可能性がある。そこで、ダミーデータのデータベースの規模がダミーデー タの集計値と公開データの値とずれを生む可能性について試行的に検証するため、公開データの約 1/2000 スケールのものと約 1/20 スケールのものを作成し 2 群の比率の差の検定を行った。検証対象 の変数には性比を用いた。統計解析には Stata(Ver. 15.1)を用いた。

結果

 傷病分類が「040080 肺炎等」の症例数は 278,479 件で、男性は 160,802 件(58%)であった。 1/2000 スケールのデータベースを作成するため、表 1 に 1/2,000 スケールのダミーデータと DPC 公 開データとの性比の比較について示す。2 医療機関のみの情報を用いて、全てのダミーデータ発生ロ ジックに従ってデータを発生及び加工し、153 件(0.055%)のデータを発生させ、男性は 105 件(69%) であった。公開データとの差は 10.9%(95% 信頼区間 = 3.5%-18.2%,p=0.006)であった。表 2 に 1/20 スケールのダミーデータと DPC 公開データとの性比の比較について示す。1/20 スケールのデー タベースを作成するため、Ⅰ群(現在の大学病院本院群)の医療機関の情報を用いて様式 1 のダミー データを発生及び加工し、13,056 件(4.7%)のデータを発生させ、男性は 7,598 件(58%)であった。 公開データとの差は 0.45%(95% 信頼区間 = - 0.41%-1.32%,p=0.31)であった。

考察

 本研究は厚生労働省が公開する DPC データの集計表を参考に DPC データの様式 1 のダミーデー タを作成するためのロジックを開発するものである。開発したロジックを用いて 1/2000 スケールの データベースと 1/20 スケールのデータベースを作成し、様式 1 の項目である性別を用いて公開デー タとダミーデータの集計値との差について試行的に検証したところ、1/2000 スケールのデータベー 分析トレーニング用 DPC データ作成ロジックの開発(村松・得津・大谷)

(4)

スでは性比に有意な差が認められたが、1/20 スケールのデータベースでは性比に優位な差は認めら れなかった。  本研究には 2 つの特徴がある。第一に、医療分野におけるダミーデータ開発の先行研究はなく新規 性がある。第二に、単純にランダムな値を発生させるのではなく、集計値が DPC 公開データと類似 するよう工夫がされている点である。特に後者については、プログラム等を作成しダミーデータに対 して実行した際に、現実と近い値が得られることによって、作成したプログラム等が誤っていないか 確認が可能となり効果的であると考える。  本研究では、データベースの規模が異なる際のロジックの安定性について検証した。様式 1 の各項 目を埋めるロジックは、全ての医療機関の様式 1 を集めそれに対して公開データから得られる割合を 適用していくものとなっている。2 つの医療機関のみでダミーデータを作成する場合は医療機関の症 例数のバリエーションが少ないため診断群分類に偏りが生じ、その結果性比等にも影響を与えると考 えられた。  本研究によって、DPC データを用いた分析の練習に用いることができるダミーデータを作成する ことが可能となった。今後、本研究の成果を活用し、実際にダミーデータを作成するとともに、ダミー データを用いた教育プログラムの整備が行うことで、DPC データを分析する人材の裾野が広がるこ とを期待する。

謝辞

 本研究はファイザーヘルスリサーチ振興財団から研究助成を受け実施した。

利益相反

 本研究において開示すべき利益相反はない。

参考文献

1) 厚生労働省 . レセプト情報・特定健診等情報の提供に関するガイドラインの改正等について . 件数 割合   件数 割合 Z 統計量 P 性別、男性 278,479 0.58   153 0.69 2.72 0.006 表 2. 1/20 スケールのダミーデータの性比の検定   DPC 公開データ   1/20 スケールのダミーデータ   件数 割合   件数 割合 Z 統計量 P 性別、男性 278,479 0.58   13,056 0.58 1.02 0.31

(5)

Accessed January 31, 2020. https://www.mhlw.go.jp/stf/shingi2/0000135204.html. 2) 厚生労働省.第 1 回 データヘルス改革推進本部 資料.Accessed January 31, 2020. https:// www.mhlw.go.jp/stf/shingi2/0000148424.html. 3) 厚生労働省.第 6 回 データヘルス改革推進本部 資料.Accessed January 31, 2020. https:// www.mhlw.go.jp/stf/shingi2/0000291687_00004.html. 4) 厚生労働省.第 45 回レセプト情報等の提供に関する有識者会議 資料.Accessed January 31, 2020. https://www.mhlw.go.jp/stf/shingi2/0000211817_00004.html. 5) 奥村泰之,佐方信夫,清水沙友里,松居宏樹.ナショナルデータベースの学術利用促進に向け て : レセプトの落とし穴.Monthly_IHEP10 月号.16-25. 2017 6) 産業医科大学公衆衛生学教室.NDB データ利活用促進に向けた教育資源の開発に関する研究. Accessed January 31, 2020. https://sites.google.com/site/pmchuoeh/activities/report/millet. 7) 厚生労働省.平成 28 年度 DPC 導入の影響評価に係る調査「退院患者調査」の結果報告について.

Accessed January 31, 2020. https://www.mhlw.go.jp/stf/shingi2/0000196043_00001.html. 8) 厚生労働省.平成 29 年度 「DPC 導入の影響評価に係る調査」 実施説明資料.Accessed January

31, 2020. https://www.mhlw.go.jp/file/06-Seisakujouhou-12400000-Hokenkyoku/0000175087.pdf. 分析トレーニング用 DPC データ作成ロジックの開発(村松・得津・大谷)

(6)

training

Muramatsu Keiji1), Tokutsu Kei1), Otani Makoto2)

1) Department of Preventive Medicine and Community Health, School of Medicine, University of Occupa-tional and Environmental Health, Japan

2) Information System center, University of Occupational and Environmental Health, Japan

Abstract

We developed a logic to generate dummy data for File Format 1 of the DPC data to use for prac-tice of DPC data analysis. We used the results of DPC data aggregation published by the Ministry of Health, Labor and Welfare as a reference in order to get closer to the actual values when the dummy data was aggregated. After developing the logic, we generated two databases of different sizes and tested the difference between the proportions of the two groups for sex. The smaller da-tabase showed a significant difference, but the larger one did not show any significant difference from the actual value.

参照

関連したドキュメント

1-1 睡眠習慣データの基礎集計 ……… p.4-p.9 1-2 学習習慣データの基礎集計 ……… p.10-p.12 1-3 デジタル機器の活用習慣データの基礎集計………

ダウンロードしたファイルを 解凍して自動作成ツール (StartPro2018.exe) を起動します。.

核種分析等によりデータの蓄積を行うが、 HP5-1

 本資料作成データは、 平成26年上半期の輸出「確報値」、輸入「9桁速報値」を使用

 本資料作成データは、 平成29年上半期の輸出「確報値」、輸入「9桁速報値」を使用

 本資料作成データは、 平成27年上半期の輸出「確報値」、輸入「9桁速報値」を使用

データ取得 系統運⽤・需給運⽤ 分析・解析

RAINS (Regional Acidification Information and Simulation) モデル及びその進化版であ る GAINS (Greenhouse Gas and Air Pollution Interactions and Synergies)