土屋政雄
2013/08/24 日本行動療法学会 第39回大会 自主シンポジウム 「失敗しない研究計画入門: 観察研究、尺度研究、非薬物療法の 介入研究の研究報告の質向上のためのガイドラインの理解」 1尺度研究の必須事項
健康関連QOLの概念モデル
2 生物・生理 的変数 症状の 状態 機能の 状態 全般的 健康の 認知 全体的 生活の質 個人の特性 環境の特性 非医学的要因 症状の 増幅 個人の 動機 価値・選好 心理的 支援 社会的 経済的 支援 社会的 心理的支援既存の尺度作成ガイドライン
• the Scientific Advisory Committee of the
Medical Outcomes Trust (SAC-MOS)
• アメリカ心理学会(APA)
• Terweeらの基準
3
Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45.
APAのガイドラインは心理・教育分野,SAC-MOSと
Terweeらの基準は多くの専門家によるコンセンサスなし
英語表記
4
• COSMIN
(COnsensus-based Standards for the selection of health Measurement INstruments)– 健康関連尺度の選択に関する合意に基づく指針
COSMIN (http://www.cosmin.nl/)
[スライド引用+追加] 奥村泰之:COSMINチェックリストの概要と共通項目の理解 (http://blue.zero.jp/yokumura/Rhtml/session10.html)
尺度特性の分類と関係性
5信頼性
内的一貫性 測定誤差 信頼性反応性
反応性妥当性
内容的 妥当性 基準関連 妥当性 構成概念妥当性 表面的 妥当性 構造的 妥当性 異文化間 妥当性 仮説検定解釈
可能性
Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45.
[スライド引用+追加] 奥村泰之:COSMINチェックリストの概要と共通項目の理解 (http://blue.zero.jp/yokumura/Rhtml/session10.html) de Vet et al (2011) Measurement in Medicine の 表紙画像
Take home message
6• データを取る前に必要な人数を決める
• 変化のない集団について再評価を行う
• 仮説を具体的に記述する
• 尺度翻訳は個人でなくチームで進める
• 臨床に役立つ尺度特性を示す
Take home message
7• データを取る前に必要な人数を決める
• 変化のない集団について再評価を行う
• 仮説を具体的に記述する
• 尺度翻訳は個人でなくチームで進める
• 臨床に役立つ尺度特性を示す
サンプルサイズ
8尺度特性の種類に
よって推奨人数が
示されているよ
何人からデータをと
ればよいですか?
尺度特性の分類と関係性
9信頼性
内的一貫性 測定誤差 信頼性反応性
反応性妥当性
内容的 妥当性 基準関連 妥当性 構成概念妥当性 表面的 妥当性 構造的 妥当性 異文化間 妥当性 仮説検定解釈
可能性
サンプルサイズ
• サンプルサイズとサンプルサイズ決定
プロセスの情報を示す
[1]– データを集める前の作業
10
[1] Wilkinson & the Task Force on Statistical Inference APA Board of Scientific Affairs, (1999) Statistical Methods in Psychology Journals, American Psychologist.;54:594–604.
サンプルサイズ
• general
• A. 内的一貫性
11 分析に用いられるサンプルサイズは適切か? Excellent 十分なサンプルサイズ(≥100) good 良好なサンプルサイズ(50-99) fair ほどほどのサンプルサイズ(30-49) poor 少ないサンプルサイズ(<30) 項目5:単一次元性の分析に用いられるサンプルサイズは適 切か? Excellent 7*項目数かつ≥100 good 5*項目数かつ≥100 または6-7*項目数だが<100 fair 5*項目数だが<100 poor <5*項目数• E. 構造的妥当性
• G. 異文化間妥当性
12 項目4:分析に用いられるサンプルサイズは適切か? Excellent 7*項目数かつ≥100 good 5*項目数かつ≥100 または5-7*項目数だが<100 fair 5*項目数だが<100 poor <5*項目数 項目3:分析に用いられるサンプルサイズは適切か? Excellent 古典的テスト理論(CTT): 7*項目数 かつ≥100 項目反応理論(IRT): グループごとに≥200 good CTT: 5*項目数 かつ≥100 または5-7*項目数だが<100 IRT: 1グループが≥200でもう1グループが100-199 fair CTT: 5*項目数だが<100 IRT: グループごとに100-199 poor CTT: <5*項目数 IRT: 1つまたは両方のグループが<100サンプルサイズ
• 方法:臨床測定的特性の検証
– 研究のサンプルサイズは
Terweeらの推奨により
決定
された
[28]– 構成概念妥当性,再テスト信頼性,天井/床効果
は少なくとも
50名
が必要で,内的一貫性の分析に
は
約100名
が必要であった
• 結果
– 全部で90名の患者が研究に参加した。61名が再
検査信頼性の研究に参加し,59名がCOMI得点
の両方の測定を完了した
13記載例1
(方法, 結果)サンプルサイズ
• 方法
– サンプルサイズは上肢機能指標(ULFI)の
先行研
究
[7,8,26]から決定
された。並存的妥当性,内的一
貫性,因子構造の検討に
80%の検定力で行うた
め,15%の脱落を見込んで最低でも106名
の患者
が必要であった(p<0.05)
[46]。 信頼性の検討には
最低でも
29名
が必要であった。
14記載例2
(方法)Take home message
15• データを取る前に必要な人数を決める
• 変化のない集団について再評価を行う
• 仮説を具体的に記述する
• 尺度翻訳は個人でなくチームで進める
• 臨床に役立つ尺度特性を示す
信頼性・測定誤差
16必ずやりましょう。
きちんとした手続きで
再検査信頼性って
必要ですか?
尺度特性の分類と関係性
17信頼性
内的一貫性 測定誤差 信頼性反応性
反応性妥当性
内容的 妥当性 基準関連 妥当性 構成概念妥当性 表面的 妥当性 構造的 妥当性 異文化間 妥当性 仮説検定解釈
可能性
信頼性・測定誤差
18項目4:少なくとも
2回の測定
がなされたか?
Box B. および Box C.
項目5:測定の実施は独立か?
項目6:測定の間隔が述べられているか?
項目7:測定された構成概念について,期間中に患者
達は
安定していたか?
項目8:測定の間隔は適切か?
項目9:測定条件は両方で同様か?
信頼性・測定誤差
• 短期の内に少なくとも
2回
は測定する
– 2週間程度が多い
– 対象者の内,一部のサンプルでよい
• アンカー
を用いて
変化のない集団
を特定する
– global rating of change (GRC)
– global perceived effect (GPE)
– patient global impression of change
– transition ratings
– global scale
19
信頼性・測定誤差
• アンカー尺度の例
20
Kamper et al. J Man Manip Ther. 2009;17(3):163-70.
あなたの打撲症に関して,発生直後に比べた今の状態に ついて評価してください とても悪くなった 変化なし すっかり回復した Very much Worse Unchanged Completely Recovered -5 -4 -3 -2 -1 0 1 2 3 4 5
信頼性・測定誤差
• アンカー尺度の例
21
Farrar et al. Pain 2001; 94: 149-158.
1 □ 非常に改善した
(Very Much Improved)
2 □ とても改善した
(Much Improved)
3 □ わずかに回復した
(Minimally Improved)
4 □ 変化なし
5 □ わずかに悪化した
(Minimally Worse)
6 □ とても悪化した
(Much Worse)
7 □ 非常に悪化した
(Very Much Worse)
信頼性・測定誤差
22
Storheim et al. (2012): Eur Spine J 21:2539-2549
• 対象
– ノルウェイ,オスロの3つの理学療法クリニック(プライマリケ ア),1つの外来リハビリクリニック,1つのペインクリニック( 大学病院),1つの整形外科部署(大学病院)で募集された 腰痛の患者• 測定ポイント
– 初回から次の受診時に回答。1週間が目標。記載例1
(方法)腰痛のコアアウトカム測定指数(COMI)
ノルウェー語版の妥当性と異文化間修正
23
Storheim et al. (2012): Eur Spine J 21:2539-2549
• 測定指標
– the Core Outcome Measures Index: COMI
• COMIは7つの質問から構成され,5つの領域を対象としている。 COMI指標得点(範囲0-10)は各領域からのコア項目を変換して平 均したものにより計算される。 – 全体的評定(global question) • 6件法リッカート,期間中の腰痛の状態の変化を測定
• 再現性
(Reproducibility)
– 主要な分析はテストと再テストに参加したすべての参加者 を対象に行った。追加的な分析は,テストから再テストにか けて腰痛の状態が安定(変化なし)の患者に限定して行った信頼性・測定誤差
記載例1
(方法)24
• 期間の長さ
– 初回から再検査までの期間の中央値は7日(範囲1-31日)
• 再現性
Storheim et al. (2012): Eur Spine J 21:2539-2549
信頼性・測定誤差
記載例1
(結果) 範囲 初回の 平均(SD) 再検査の 平均(SD) 測定誤差 信頼性 領域/コア 項目(n)Table 3の画像
SEM MDC MDC(%) ICC(95%CI) Kappa W (95%CI)
25
• 感度分析
– 再検査時に全体的評定尺度で"変化なし"と回答した 34名の患者で感度分析を行ったところ,同様の結果が 得られた – もう1つの感度分析では,再検査までの期間が短い( <5日),また長い(>14日)者を除いて行ったが,結果 は変わらなかったStorheim et al. (2012): Eur Spine J 21:2539-2549
信頼性・測定誤差
記載例1
信頼性・測定誤差
26
Hoogeboom et al. BMC Musculoskelet Disord. 2012;13:117
• 対象
– Sint Maartenskliniek病院で整形外科医により変形性股関 節/膝関節症の診断を受けた患者• 測定ポイント
– 本研究の集団では、再検査信頼性の時間間隔として、3週 間が適切だと考えられた。オランダ版下肢機能尺度は変形性股関節/
膝関節症の者において高い信頼性、妥当性、
反応性を持つ:妥当性研究
記載例2
(方法)信頼性・測定誤差
27
• 測定指標
– 変形性関節症の機能評定
• LEFS
– 7件法の全体的評定尺度
(global perceived effect: GPE) • 完全に回復した(completely recovered) • かなり改善した(much improved) • わずかに改善した(slightly improved) • 変化なし(not changed) • わずかに悪化した(slightly worse) • かなり悪化した(much worse) • 非常に悪化した(vastly worsened)記載例2
(方法)信頼性・測定誤差
28
• 信頼性とminimal detectable change
– 5名が改善(5%)(GPE=1-2)、3名が悪化(3%)(GPE=6-7)、 ほとんどが安定(92%)(GPE=3-5) – 2要因の変量効果ANOVAによるオランダ版LEFSのICCは 全体で0.86であった。膝グループ(n=81)と股関節グループ (n=25)のICCはそれぞれ0.87、0.78であった – 測定の標準誤差は4.4ポイントであった – LEFSのMDC90とMDC95はそれぞれ10ポイントと12ポイント であった
記載例2
(結果)Take home message
29• データを取る前に必要な人数を決める
• 変化のない集団について再評価を行う
• 仮説を具体的に記述する
• 尺度翻訳は個人でなくチームで進める
• 臨床に役立つ尺度特性を示す
仮説検証
30この研究の仮説は
何ですか?
よく指摘されるけど、
実際どんな風に記述
したらよいのだろう・・・
尺度特性の分類と関係性
31信頼性
内的一貫性 測定誤差 信頼性反応性
反応性妥当性
内容的 妥当性 基準関連 妥当性 構成概念妥当性 表面的 妥当性 構造的 妥当性 異文化間 妥当性 仮説検定解釈
可能性
仮説検証
32 項目4:相関や平均値差についての仮説が事前に生成さ れているか?(例:データ収集前から) Excellent 多数の仮説が事前に生成されている good 最低限の数の仮説が事前に生成されている fair 仮説があいまいか,生成されていないが何が 予期されているか推測できる poor 何が予期されているか不明項目5:予期される相関や平均値差の
方向
は仮説
に含まれているか?
項目6:予期される相関や平均値差の
強さ
は仮説に
含まれているか?
Box F.
仮説と結果をTableに
まとめて表示
COMIの 領域 仮説 相関の値 仮説は検証 されたか? 痛みの症状 痛み症状はBIPQとEQ-5Dの痛み/不快項 目が設問項目5(背部症状)と中程度から 高い相関を持つと予想される。RMDQ指 標は痛み関連の障害として異なる側面を 測定しているので,中程度の相関が予想 される BIPQ:0.51 EQ-5D pain: 0.46 RMDQ: 0.51 BIPQ: yes EQ-5D pain: yes RMDQ: yes (中略) (中略) COMI指数 COMI指数とEQ-5Dは共に様々な健康の 側面が混在している尺度のため,高い相 関が予想される。RMDQとHSCLは,痛み に関連した活動と心理的現象を測定する, より「きれい」な尺度であり,COMI指数と の相関は中程度だと予想される EQ-5Dフル: -0.71 RMDQ: 0.64 HSCL-25: 0.68 EQ-5D:yes RMDQ: no HSCL-25: no 33 BIPQ :短期疾病尺度; RMDQ: ローランド・モリス障害尺度; EQ-5D: Euro-Qol-5次元指標; HSCL-25: ホプキンス症状チェックリスト Storheim et al. (2012): Eur Spine J 21:2539-2549相関係数 0.3未満=低,0.3-0.6=中程度,0.6以上=高
記載例
p-p-! p-p-!
相関係数とp値
( Nakagawa & Cuthill , 2007 )• p値が示せないもの
– 効果の不確実性 – 効果の方向 – 効果の強さ 34 0 p<0.0001 (n=20) p<0.0001 (n=200) p=0.05 (n=20) p=0.05 (n=200) p=0.06 (n=20) p=0.06 (n=200) p=0.5 (n=20) p=0.5 (n=200) -0.4 -0.2 0.2 0.4 0.6 0.8 相関係数 Fig 2よりTake home message
35• データを取る前に必要な人数を決める
• 変化のない集団について再評価を行う
• 仮説を具体的に記述する
• 尺度翻訳は個人でなくチームで進める
• 臨床に役立つ尺度特性を示す
尺度の翻訳
36翻訳チームを作って
系統的に進めよう
先生,尺度翻訳し
たいんですけど!
尺度特性の分類と関係性
37信頼性
内的一貫性 測定誤差 信頼性反応性
反応性妥当性
内容的 妥当性 基準関連 妥当性 構成概念妥当性 表面的 妥当性 構造的 妥当性 異文化間 妥当性 仮説検定解釈
可能性
異文化間妥当性(尺度の翻訳含む)
• 単純な翻訳だけでは不十分
– 適正な手続きは,複数回の順・逆方向の翻訳を少なくとも それぞれのステップにおいて2名の翻訳者が行うことである• 元にしている測定指標の翻訳と適合のための
既存のガイドライン
– International Quality of Life Assessment(IQOLA) [41]*
– the MAPI Research Institute [42]
– the European Organisation of Research and Treatment of Cancer(EORTC) [43]
38
*文献番号はCOSMIN checklist manualのものによる 教科書では: Beaton et al. (2000). Spine (Phila Pa 1976) ;25(24):3186-91.
39 ステージ1: 翻訳 ステージ2: 統合 ステージ3: 逆翻訳 ステージ4: 専門家委員 会のレビュー ステージ5: 事前テスト ス テ ー ジ 6 : 開 発 者 / 委 員 会 に よ り す べ て の 報 告 の 提 案 と 評 価 - 2名の翻訳者(T1 & T2) - 順方向翻訳 - 目的を知っている+知らない - T1 & T2をT12に統合 - 報告に基づき不一致を解決 それぞれのバージョンの報告 ( T1 & T2 ) 報告書 - 2名の英語を母国語とする者 - 測定指標について知らない - 2つの逆翻訳を作成 (BT1 & BT2)
Beaton et al., (2000) ;Spine 25, 2186-91
それぞれのバー ジョンの報告 ( BT1 & BT2 ) -全ての報告書をレビュー - 方法論者,開発者, 言語の専門家,翻訳者達 - 不一致について合意形成 - プレ最終バージョン作成 報告 報告 - n=30-40 - 質問票完成 - 項目の理解に ついて確認
40
尺度の翻訳
項目5:翻訳過程に参加した者の専門性が十分に記述されているか?Box G.
項目6:翻訳者達はお互いに独立して作業したか? 項目7:項目は順・逆方向に翻訳されたか? 項目8:原版と翻訳版の違いがどのように解消されたかについて十分な 記述があるか? 項目9:翻訳は委員会により精査されたか?(例:原版の作成者)? 項目10:解釈,翻訳についての文化的関連,読解力の容易さの確認の ため,健康関連患者報告式アウトカム(HR-PRO)の事前テスト(例:認 知的インタビュー)は行われたか? 項目11:事前テストに用いられた対象者について十分な記述があるか? 項目12:対象者における言語と文化的背景以外の全ての特徴は同様 か?翻訳過程
• 方法
– COMIの原版は,母国語がノルウェー語である独立した2 名の異なるプロフィールの訳者(臨床家と文献学者)によ りノルウェー語に順方向の翻訳がなされた。ノルウェー語 翻訳版は,元の英語版を知らない,2名のネイティブの英 語話者が英語への逆方向翻訳を行う前に,合意を図った – 翻訳者間の正式会議において,翻訳者達,1名の健康の 専門家,研究チームの研究者達が,全ての翻訳をレビュ ーし,不一致の点につき最終的な合意が得られるまで議 論が行われた – 最終的なノルウェー語版は,最初に研究に参加した患者 達によりレビューされた。ここで,読み,解釈,質問票への 記入に問題がなかったため,修正は行われなかった。 41Storheim et al. (2012): Eur Spine J 21:2539-2549
記載例1
翻訳過程
42
Kesiktas et al. BMC Musculoskelet Disord. 2012;13:25.
記載例2
(方法)修正頸部疼痛尺度(NDI)のトルコ版翻訳
と臨床測定学的特性
• 研究の順序
– 本研究の実施は,同時期にAslanらがトルコ語版の尺度 を作成している情報を知らずに行われた。• トルコ語版作成
– NDIの翻訳はback-forward法[30]が用いられ,COSMIN の推奨[31]に従った。翻訳過程
• トルコ語版作成(続き)
– まず項目はお互いに知らない2名のネイティブなトルコ語 話者によりトルコ語に翻訳された。翻訳は研究チームによ り検討された(主な関心分野が,腰痛と頚痛である3名の 教授)。次に,尺度は1名のネイティブな英語話者により 再度トルコ語に翻訳された。トルコ語版尺度と英語の原版 の文章の同等性について,研究チームにより検討された – 実践上の問題は,10名の小集団サンプルにより検討され た。この集団で得られた結果により,修正が行われた →次スライドの結果参照 43記載例2
(方法)翻訳過程
• 結果
– 翻訳におけるパイロット調査で,最初の項目の”痛みの強度”は ,”あなたの頸部の痛み”に修正された。3つ目の項目の「持ち 上げる」は,”頸部の痛みがない時に,持ち上げる際に重さを等 しくする”という文が,重い物を持ち上げる事について明確に目 的を伝えるために追加された。項目7で, 「仕事」について,”も し働いていなかったらオプションGにチェックを入れてください” が追加された。 – パイロット調査で参加者から最もよく質問されたのは,項目10 に関してであった。”レクリエーション”は”余暇時間の活動”とし て理解できるので,こちらに修正した。パイロット調査の9名は 運転をしない者であったので,項目8の回答に問題があった。 働いてない者や余暇活動を行わない者がいたので,セクション 7,8,10に”行ったことがない”が追加された 44記載例2
(結果)翻訳過程
45
記載例3
(方法)
Paulsen et al., Bone Joint Res. 2012 ;1(9):225-33.
• パイロット調査の詳しい記述
– 最終的なオランダ語版について,平均年齢が65歳(範囲 は24歳から86歳)の24名の股関節変形性関節症または 人工股関節の患者(男性10名,女性14名)に対して理解 可能性の検討面接を健康の専門家が行った。 – オックスフォード股関節尺度に回答した後,患者は系統的 に質問を受け,質問に関して考えたこと,各質問項目の 言葉づかい,質問項目の理解のしやすさ,読みやすさ, 質問票への回答経験を述べたTake home message
46• データを取る前に必要な人数を決める
• 変化のない集団について再評価を行う
• 仮説を具体的に記述する
• 尺度翻訳は個人でなくチームで進める
• 臨床に役立つ尺度特性を示す
臨床に役立つ尺度特性
47その変化得点って
妥当なの?どのレベル
の改善度なの?
介入の結果、尺度
の得点が5点も
変化しました!
尺度特性の分類と関係性
48信頼性
内的一貫性 測定誤差 信頼性反応性
反応性妥当性
内容的 妥当性 基準関連 妥当性 構成概念妥当性 表面的 妥当性 構造的 妥当性 異文化間 妥当性 仮説検定解釈
可能性
反応性
• 定義
– 測定される構成概念における,時間経過に
よる
変化を検出することについての
患者
報告式アウトカムの
能力
• 必要な情報
– 変化の有無について確かめるために,
信頼性・測定誤差の部分で紹介した,
アンカー
が用いられることが多い
49COSMIN checklist manual
反応性
50 項目4:少なくとも2回の測定による縦断デザインが用いられているか?Box I.
項目5:期間が述べられているか? 項目6:期間中に生じたことについて十分述べられているか? (例:介入,他の関連イベント) 項目8:得点の変化についての仮説が事前に生成されているか(例: データをとる前) 確定基準(gold standard)がない場合 確定基準がある場合 項目15:変化の基準は確定基準として適切だとみなされるか? 項目11:比較する尺度の十分な説明はあるか? 項目7:変化のあった患者の割合は示されたか(例:改善または悪化)?縦断デザインの必要な箇所まとめ
51ベ
ー
ス
ラ
イ
ン
信頼性・
測定誤差
反応性・
解釈可能性
2週間
程度
数か月
~年
変化なし
介入・治療・イベント
一定数の変化あり
反応性
52
Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148.
• 対象
– 多施設無作為割付比較試験での172名の腰痛患者• 測定ポイント
– ベースライン,2年後• 指標
– SF6D:0.29から1.00の範囲で,1.00が完全な健康 – EQ5D:-0.59から1の範囲で,1が完全な健康 – ODI:10項目,0から100で,100が完全に障害 – 7件法の全体評定(「受けている治療からどれ位の便益を得 られると思いますか」)慢性腰痛と変性椎間板疾患の患者におけるSF6D,
EQ5Dおよびoswestry disability indexの比較
記載例1
反応性
53
Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148.
• 反応性
– ODIと2年後の7段階評定尺度を確定基準として反
応性が評定された。
– まず,SF6D,EQ5D,ODIのベースラインから2年
後フォローアップ時点での変化得点についてスピア
マンの順位相関を算出
– 次に,SF6D,EQ5D,ODIと,
全体評定の2区分(
1-3:改善,4-7:非改善)
でROCの曲線化面積(
AUC)を算出
記載例1
(方法)反応性
54
Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148.
• 尺度の変化得点と全体 評定カテゴリーのスピア マンの順位相関は0.84 ,0.55,0.76(それぞれ ODI,EQ5D,SF6D)で あった。 • ROC曲線下面積,つま り患者を「改善」か「非 改善」正しく弁別する可 能性とその95%信頼区 間はそれぞれODIで 94%(87.5-97.6), SF6Dで90% (82.1-94.6),EQ5Dで83%( 75-90)であった。
記載例1
(結果)感
度
100-特異度
Fig4のROC曲線の画像
反応性
55• 対象
– Sint Maartenskliniek病院で整形外科医により変形性股関 節/膝関節症の診断を受けた患者• 測定ポイント
– 反応性については改善をとらえ、レスポンスシフトのリスク を最小化するのに3か月が適切だとみなしたオランダ版下肢機能尺度は変形性股関節/
膝関節症の者において高い信頼性、妥当性、
反応性を持つ:妥当性研究
記載例2
(方法)再
掲
違
い
反応性
56• 反応性
– 7名が改善(7%)(GPE=1-2)、9名が悪化
(9%)(GPE=6-7)、ほとんどが安定(85%)
(GPE=3-5)
– ROC曲線解析による
改善
患者のLEFSのAUCは
0.76(95%CI:0.49-1.00)、・・・(略)・・・であった。
悪化
患者の(以下略)
記載例2
(結果)解釈可能性
57
COSMIN checklist manual
• 定義
– 質的な意味,つまり,臨床的または一般的に理
解される言外の意味を尺度の量的得点や変化
得点に付与できる程度
• 要はカットオフ決め
– MIC(minimal important change)
と
SDC(smallestdetectable change)
の2種類あるが,ここでは
MIC
を指す
– SDC→測定誤差
• 反応性のためのデザインを組んでおけ
ばOK
解釈可能性
58
de Vet & Terwee. J Clin Epidemiol. 2010 Jul;63(7):804-5.
変化なし 最大の変化 SDC MIC 統計的に有意でなく, 重要でもない変化 統計的に有意だが,重要でない変化 統計的に有意かつ,重要な変化 変化なし 最大の変化 SDC MIC 統計的に有意でなく, 重要でもない変化 重要だが測定誤差と区別できない変化 統計的に有意かつ,重要な変化
解釈可能性
59
Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148.
• 対象
– 多施設無作為割付比較試験での172名の腰痛患者• 測定ポイント
– ベースライン,2年後• 指標
– SF6D:0.29から1.00の範囲で,1.00が完全な健康 – EQ5D:-0.59から1の範囲で,1が完全な健康 – ODI:10項目,0から100で,100が完全に障害 – 7件法の全体評定(「受けている治療からどれ位の便益を得 られると思いますか」)慢性腰痛と変性椎間板疾患の患者におけるSF6D,
EQ5Dおよびoswestry disability indexの比較
記載例
(方法)
再
掲
解釈可能性
60
Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148.
• ROC曲線にプロットされ た変化得点の最適なカ ットオフ点として定義さ れるMICの値は,それ ぞれODIで12.88(感度 88%,特異度85%), EQ5Dで0.173(感度 73%,特異度79%), SF6Dで0.031(感度 93%,特異度78%)であ った
記載例
(結果)感
度
100-特異度
Fig4のROC曲線の画像
臨床的有意性について
• 個人レベルの変化の程度を表現できる
• Journalの投稿規程にも明記
• 行動療法の伝統
[1]61
[1] Jacobson & Truax. J Consult Clin Psychol. 1991 ;59(1):12-9
代表的な指標の算出には,
臨床的有意性の重要性
Journal of Consulting and Clinical
Psychology (JCCP)
• Instructions to Authors
– 臨床的有意性の統計的報告
(Statistical Reporting of Clinical Significance)
• 介入研究の報告には,臨床的に有意な変化の指標を示
すべき。様々な指標が考えられるが,reliable change
index(Jacobson et al., 1999)や,非機能的であった個人
が機能的な分布へ移行した程度(Jacobson & Truax, 1991
)や,他の規範的な比較(Kendall et al., 1999)などを推奨 する。 62 http://www.apa.org/pubs/journals/ccp/index.aspx JCCPの 表紙画像
事例研究でも役にたちます
:
社交不安障害があるHenryの事例
63
Shorey & Stuart. 2012 Clin Case Stud. 11(1):35-47.
・RCI=11.72 ・Henry's c score=20.4 エクスポージャー ネ ガ テ ィ ブ 評 価 へ の 恐 怖 Jacobsonの指標 60 50 40 30 20 10 0 社交不安障害患者 の平均値 一般対照群の平均値 患者の得点 セ ッ シ ョ ン 1 セ ッ シ ョ ン 2 セ ッ シ ョ ン 3 セ ッ シ ョ ン 4 セ ッ シ ョ ン 5 セ ッ シ ョ ン 6 セ ッ シ ョ ン 7 セ ッ シ ョ ン 8 セ ッ シ ョ ン 9 セ ッ シ ョ ン 10 セ ッ シ ョ ン 11 セ ッ シ ョ ン 12 セ ッ シ ョ ン 13 セ ッ シ ョ ン 14 セ ッ シ ョ ン 15 8 か 月 フ ォ ロ ー ア ッ プ 2 か 月 フ ォ ロ ー ア ッ プ
diff
S
x
x
RC
2
1
reliable change index
(RC; Jacobson & Truax, 1991)2
)
(
2
E
diff
S
S
1 2*
96
.
1
S
diff
x
x
RC>1.96の 変化が必要xx
E
s
r
S
1
1
x1: pre得点, x2: post得点, Sdiff: pre-postの変化の 標準誤差, SE: 測定の標準誤差, s1: preの標準偏差, rxx: 信頼性 64算出には尺度特性の情報が必須!
変化セッティングの詳細な情報も重要
65 項目4:研究が行われたセッティングは?(例:一般集団、プライ マリケア、病院/リハビリ施設)Box. 一般化可能性
項目7:患者を選択した方法が適切に述べられたか?(例:簡便、 連続、無作為抽出)Box J. 解釈可能性
項目7:関連する(下位)集団の得点や変化得点(例:平均値、標 準偏差)は示されたか?(例:基準となる集団、患者での 複数の下位集団、一般集団)尺度の得点の意味を適切に解釈するために、対象集団
の決定・収集段階から可能な限り情報収集
Take home message
66• データを取る前に必要な人数を決める
• 変化のない集団について再評価を行う
• 仮説を具体的に記述する
• 尺度翻訳は個人でなくチームで進める
• 臨床に役立つ尺度特性を示す
連絡先: 土屋政雄
E-mail:
tsuchiya(アット マーク)h.jniosh.go.jp
主要引用文献
Beaton et al. (2000) Guidelines for the process of cross-cultural adaptation of self-report measures. Spine (Phila Pa 1976) ;25(24):3186-91.
Bullinger et al. Translating health status questionnaires and evaluating their quality: The IQOLA project approach. Journal of Clinical Epidemiology 1998;51:913‐23.
Cuesta-Vargas & Gabel. Cross-cultural adaptation, reliability and validity of the Spanish version of the upper limb functional index. Health Qual Life Outcomes. 2013 ;11:126.
de Vet & Terwee. The minimal detectable change should not replace the minimal important difference. J Clin Epidemiol. 2010;63:804-5
Farrar et al. Clinical importance of changes in chronic pain intensity measured on an 11-point numerical pain rating scale. Pain 2001; 94(2): 149-158.
Hoogeboom et al. The Dutch Lower Extremity Functional Scale was highly reliable, valid and responsive in individuals with hip/knee osteoarthritis: a validation study. BMC Musculoskelet Disord. 2012;13:117.
Jacobson & Truax. Clinical significance: a statistical approach to defining meaningful change in psychotherapy research. J Consult Clin Psychol. 1991 ;59(1):12-9
Kamper et al. Global rating of change scales: a review of strengths and weaknesses and considerations for design. J Man Manip Ther. 2009;17(3):163-70.
Kesiktas et al. Clinimetric properties of the Turkish translation of a modified neck disability index. BMC Musculoskelet Disord. 2012;13:25.
Storheim et al., Cross-cultural adaptation and validation of the Norwegian version of the Core Outcome Measures Index for low back pain. Eur Spine J. 2012 Dec;21(12):2539-49.
主要引用文献
Johnsen et al., Comparison of the SF6D, the EQ5D, and the oswestry disability index in patients with chronic low back pain and degenerative disc disease. BMC Musculoskelet Disord. 2013 ;14:148.
Nakagawa S, Cuthill IC. Effect size, confidence interval and statistical significance: a practical guide for biologists. Biol Rev Camb Philos Soc. 2007;82(4):591-605.
Park et al. (2013) Mindfulness: a systematic review of instruments to measure an emergent patient-reported outcome (PRO). Qual Life Res. (epub)
Paulsen et al., Translation, cross-cultural adaptation and validation of the Danish version of the Oxford hip score: Assessed against generic and disease-specific questionnaires. Bone Joint Res. 2012;1:225-33.
Shorey & Stuart. Manualized Cognitive-Behavioral Treatment of Social Anxiety Disorder: A Case Study. Clin Case Stud. 2012;11(1):35-47.
Wilson IB, Cleary PD. Linking clinical variables with health-related quality of life. A conceptual model of patient outcomes. JAMA. 1995 Jan 4;273(1):59-65.