Microsoft Word - 抄読会12月.doc

(1)

ヘルス･アウトカムの測定：信頼性、妥当性、反応性

Kathryn E. Roach

＜アブストラクト＞

 我々は、患者の管理に関して決定するのを助けるために、ヘルス・アウトカムを測定している。アウトカムの測定は、どの患者がある介入で利益を得られるかを予想し、介入がされた後に患者が改善されたかどうかを記録するのを助ける。信頼性や QOL を含んだ広範囲の重要なヘルス・アウトカムがある。  信頼性は必需であるが、アウトカム尺度の十分な特徴ではない。尺度が関心のある現象の状態を実際に捕らえているか決定する必要がある。  妥当性は、尺度に特有ではない。定義されたある集団と関係があるとき、特定の質問に関してのみ決定される。  最終的に、ある期間において患者の変化を評価するために使用されるアウトカム尺度は、真の変化を決定する能力において反応性がなければならない。ある目的に合った最良の尺度を選ぶには、アウトカム尺度のタイプや精神測定学的特性を理解することが重要である。

＜測定の性質とは何か？＞

 測定は抽象概念である。概念を表す数字を割り当てる一連の規則を発達させることを含む。規則は、概念のレベルを区別し定める数的価値を表すための正確なシステムを提供しなければならない。その一連の規則を発達させるために、自分の目的にとって最も重要となる概念の面に焦点を当てることで、概念を簡易化しなければならない。これには、尺度を使うための自分の目的に対して明確な理解が必要である。  例：測定を作成することへの目的を理解する上で、body mass のような簡単な概念についてでも間違いのないことが必要である。body mass は、尺度によって測定された重量として定義された。（単位は、メートル法もしくは英語として特定される必要がある）また、body mass は水置換量を測定することによって体積として定義された。（ここでも単位を定義する必要あり）飛行機が何人の乗客を運ぶことができるかを航空力学に基づいて決定しようとするのであれば、重量スケールで乗客の body mass を測定したいと思うだろう。もし何人の乗客が機体に快適に合うか決めたいなら、良い尺度である body mass として水置換量を測定するだろう。

＜なぜアウトカムを測定するのか？＞

 物事を理解するためには、それを測定できなければならない。  測定なしに、人を太いまたは細いと言うことはできないが、body mass を表す数を割り当てる方法なしに、ある人を他人よりも太いかどうか、またはある人の body mass が増減したのかどうかを正確に決定することは非常に難しい。確かに、どのように元気、健康、病気のリスクのような他の事に関係しているのかを決定するのは不可能であるだろう。我々は、患者へのケア提供に

(2)

関する決定を助けるためにヘルス･アウトカムを測定する。アウトカム尺度は、どの患者が特定の介入から大いに利益を得ているかを予想することや、介入された後に患者が改善するかどうかを記録するのを助ける。

＜どんなアウトカムを測定するべきか？＞

 重要なヘルス・アウトカムが広範囲にある。歴史的に、死と病気は医者にとって関心のあるアウトカムであっが、障害・不安・不満は現在もとても重要なアウトカムとして認識されている。特に disability（障害）は重要なヘルス・アウトカムとして非常に注目されている。WHO 国際障害分類は、機能障害、活動制限、参加制約の３段階を示している。それら全てにおいて別々に測定の問題点が存在する。活動制限は、特定の活動の点で大きく異なる広範囲のアウトカム尺度の焦点である。  これらの尺度は援助量、困難の程度、頻度、時間、質などのさまざまな特性を使用している。  障害尺度に加えて、健康関連 QOL(HRQOL)の広い概念が関心のあるアウトカムとなっている。健康関連 QOL は、病気や損傷から社会的支援や環境的障害に及ぶ、多くの生活の状態を反映する。可能な限り全ての患者集団で、HRQOL を可能な限り全ての関心のあるアウトカムにしている。

＜どのようにヘルス・アウトカムを測定すべきか？＞

 広範囲のヘルスアウトカムがあると、さらに広範囲の選択可能なアウトカム尺度がある。どのアウトカム尺度を使うか決定することが大変な作業になりうる。そのため、自分の目的に合った最良の尺度を選択するためにアウトカム尺度のタイプや特性を理解することが重要である。

＜アウトカム尺度のタイプ＞2 つの広いタイプのアウトカム尺度

 Categoｒical（また診断と言及されている）尺度は、臨床的決定のため患者を分類することに使用されている。それぞれのカテゴリーは、一連の基準をもつ。特定のカテゴリー基準に合った患者は、そのカテゴリーに置かれる。メディケア機能分類レベルは、人工装具の処方を決定するためにこの方法で使用されていた。

 Descriptive 尺度は、現象の程度の点で患者を記述する。記述された現象は、body mass と同じくらい簡単もしくは HRQOL と同じくらい複雑かもしれない。記述的尺度は将来の出来事を予想するために予知的に使うことができる。

 例えば、Amputee Mobility Predictor Score は切断手術を受けた人が人工装具を使って歩く能力を予想するために設計されている Descriptive 尺度はまた、ある特定の介入から最も利益を得られるのは誰かを予想するために、または介入の最適の度合いや期間を決定するために使うことができる。  Descriptive 尺度は 2 個以上の要因間の関係を調べるために使うことができる。（例：足の長さと歩く速さの関係）おそらく Descriptive 尺度の最も重要な使用は、介入の結果として得られる変化を決定することである。  例：６分歩行テストはより精巧な人工装具部品の追加によって生じる歩行能力の変化を表すた

(3)

めに使える。

＜アウトカム尺度の精神測定学的特性＞

 アウトカム尺度は患者に関する質問に答えるために使われる。これらの質問に対する答えは、臨床的決定や、ケアプランを導くのを助ける。アウトカム尺度からの情報の質は、一部それらの尺度の精神測定学的特性に依存する。アウトカム尺度の精神測定学的特性には測定のレベル、信頼性、妥当性、反応性が含まれる。

＜測定のレベル＞

 ４つの測定尺度や測定のレベルがある。それぞれの尺度はデータを解釈し処理するための規定をもつ。  尺度が一連の基準によって人々をカテゴリーに割り当てるとき、Nominal（名義）レベルデータが作られる。これらのカテゴリーは相互に排他的で包括的である。カテゴリーに数字が割り当てられるかもしれないが、数字は概念のレベルを表さない。  例：左側下腿切断手術を受けた人は、１にコードされ、右側の人は２にコードされる。しかし、これらの数字は、２つのカテゴリーに分けられた個人間で階層的な関係を全く意味しない。  Ordinal（順序）レベルデータはまた、相互に排他的、包括的なカテゴリーを含むが、ordinal データにおいてカテゴリーには順序がある。  個人は“歩くことができない”“歩行器を使って歩ける”“杖を使って歩ける”“道具を使って歩ける”として分類される。これらのカテゴリーは１から４の数字にそれぞれ割り当てられる。この場合、数字は歩行能力に関した階層的関係を意味する。  しかし、構成された歩行能力のレベルにおける違いが、 “杖を使って”と“道具を使って”とのカテゴリー間であるとき、“歩くことができない”と“歩行器を使って”とのカテゴリー間と同じであると表すのは難しいだろう。  カテゴリー間の内部は厳密には数学的に平等でないので、Ordinal データは、加減乗除のような数学的操作をするために使用されるべきではない。しかし、多くのアウトカム尺度はこれらのタイプのデータをつくり、数学的操作が項目のスコアを足したり平均をとったりすることで総スコアをとるためにしばしば使用される。そのような実際によって現れた問題の重大さについて広く意見の相違がある。  Interval（間隔）と ratio（比）レベルデータは、両方とも測定の単位の間に順序と等間隔をもつ。

 例：センチメートルで測られた高度、度で測られた温度）interval と ratio データの違いは、interval データには正確な０がないことである。温度は interval データのよい例である。温度計における０値に関係した真の世界の温度は、使用された尺度によって変化する。どちらの尺度の０も真の０や温度がないことを表さない。一方、高度は真の ratio データをつくる。Ratio レベルデータはできるだけすべての乗除などの数学的操作を行うために使用される。

(4)

＜トータルスコアをつくる＞

 多くのアウトカム尺度は項目レベルのスコアをつなげるためにトータルスコアを計算する臨床的指数の形をとる。多くの指数において、項目スコアの測定のレベルは、nominal または ordinal である。数学的側面からこれらのタイプのデータは加えられるべきではないが、トータルスコアは典型的に項目スコアを加算して計算される。  明確な weighting（重み付け）は、ある項目により大きい数値を付加してトータルスコアを計算するために使用される場合がある。ある程度の implicit （黙示的）weighting は、どの指標でも起こる。weighting は、測定された構成概念のある特定の状態を表す項目に関係のある数字に由来する。

＜信頼性＞

 アウトカム尺度に基づいて決定したければ、真の変化が起こっていない場合、アウトカム尺度が使用したどの時でも同じ数字を出すということに確信がなければならない。body mass 尺度は、出てきた数字が実際時々変化するようであれば、有効性はない。この測定の概念を信頼性という。尺度は必ずしも普遍的に信頼性があるわけではないことを覚えておくことが大切である。尺度は特定の集団への使用に信頼性があるだけである。  例：1/2 ポンド以内で一貫性のある体重計は、成人の体重には十分に信頼性のある尺度であるが、新生児に対する使用では信頼性は十分ではない。  時にテストのある特徴は、あるタイプの対象で一貫性のある結果に達成するのを困難にする。  例：複雑な尺度に対応するために必要なテストは、小児や認知障害のある人への使用には信頼性がないだろう。  検証されるべき数タイプの信頼性がある。人が一連の書面による質問に答える必要のある self-report(自己報告式)尺度は、test-retest(繰り返し試験)の信頼性のために検証されるべきである。 test-retest 信頼性は、期間中に真の変化が全く起こらない前提で、1 回以上人に尺度を記入させることで検証される。自己報告式尺度の test-retest 信頼性における問題点は、項目の言い回しにおける問題によるものが最も多い。特に、ある国での使用のためにできた尺度を他国で使用する場合に言い回しの問題が起こりうる。これは、翻訳された尺度において重大な問題である。同じ言語だが異なる熟語がある国で使用される尺度の問題もある。（例：キューバのスペイン語とメキシコのスペイン語や、米国の英語と英国の英語では大きく異なる言葉がある）  ある国で信頼性の良い尺度は、他の国では信頼性がない可能性がある。  一概念にのみテストするよう作られたアウトカム尺度にも、internal consistency（内的整合性）という信頼性のために検証するべきである。internal consistency は、アウトカム尺度における全ての項目が同じ根本的な概念を扱う程度の尺度である。全ての項目が抑うつを扱かっている抑うつ尺度のような尺度に望ましい特徴であり、一概念以上を意図的に扱う SF-36 のような尺度には必要がないもしくは望ましくない。

(5)

（８つの概念：(1)身体機能、(2)日常役割機能（身体)、(3)日常役割機能（精神)、(4)全体的健康感、(5)社会生活機能、(6)体の痛み、(7)活力、(8)心の健康）  Performance に基づいたアウトカム尺度には、評価者が必要である。評価者は、尺度を使い採点するために一連の標準規定に対応するよう訓練されていなければならない。評価者が規定に沿わないと、尺度の信頼性に悪影響を及ぼす測定誤差が起こるかもしれない。  評価者による 2 タイプの信頼性が検証される。  intra-rater（評価者内）信頼性：どのように一貫して評価者が合意し、アウトカム尺度を採点するか  inter-rater(評価者間)信頼性：どのようにうまく 2 人の評価者がその方法で合意しアウトカム尺度を使い採点するのか  Intra-と inter-信頼性は多様な場合において対象集団にテストを使って検証される。同じように、期間中、対象に真の変化がないという前提があるが、この前提が困難なときがある。学習効果や疲労のようなものでは評価者の能力と同様に対象の能力が期間中に変化するかもしれない。いくつかのタイプの患者は、一貫した行動において他者より多くの問題点を持つかもしれない。これは、信頼性がアウトカム尺度の不変の特徴ではないという一つの理由である。アウトカム尺度は特定のタイプの対象における特定の目的のみに信頼性があると考えられる。  信頼性係数は、真のスコア分散/真のスコア分散＋誤差分散を表す。1.0 の信頼性係数は、完全な信頼性を表し、スコア間の違いは全て個人間の真の違いを表すということを示す。0.43 の信頼性係数は、 43％の分散が真のスコアによるもので、57％の分散が測定誤差によるものであると示す。一般に、信頼性係数 0.5.以下は低く、0.51～0.75 が普通、0.75 以上が良いと考えられている。

＜妥当性＞

 信頼性は必要であるが、アウトカムの十分な特徴ではない。測定したいものを測定するために、尺度は一貫した結果を出さなければその結果を信じることはできない。しかし、アウトカム尺度は一貫した結果を出すことができ、必要な情報をまだ出してはいない。  妥当性は、尺度が測定しようと意図するものを測定する程度として定義される。測定は全て、限られた現象の状態を表すために割り当ての数字をもつので、使用している尺度が関心のある現象の状態を実際にとらえるのかどうかを決めることが重要である。妥当性には尺度の特徴がない。妥当性は、決められた集団と関係があるときに特定の質問に関してのみ決定される。  例：最大積荷量を超えずに何人がエレベータに乗ることができるかを決定するために body mass を測定する場合、おそらくスケールを使って対象の体重を測定しようとする。何人がエレベータに入れるか知りたい場合、おそらく水置換測定で体積を知ることが便利だ。この body mass を測る２つの方法ははっきりと関係している一方、わずかに情報が異なっている。さらに理解するために、body mass と健康に悪影響なアウトカムの危険性の関係を調べる場合、これら尺度のどれも特に有効ではない。重量と体積の尺度両方とも、より背の高い人にはより大きい数値を出

(6)

す。肥満（誰が太っていて誰がやせているのかという我々のオリジナルの質的尺度で）の視点から body mass に関心がある場合、話題にだしているどの尺度も、これを本当には測定しておらず、この目的に妥当ではない。BMI は身長に対して体重を適合させるために使用する計算である。これは、背の高い人が不利にならないので、肥満に興味がある場合 body mass のより良い尺度である。BMI は、ヘルスアウトカムを予想する目的として、より妥当な body mass の尺度である。  信頼性は公正に徹底的な方法で実験的に検証されているが、妥当性はより複雑である。妥当性には多くのタイプがある。表面的妥当性と内容妥当性のようなタイプは、主観的にしか評価されていない。  表面的妥当性は、テストが測定しようとするものを測定するように見えるかどうかの程度である。臨床集団による特定のテストの全員に対する使用の場合、このタイプの妥当性は重要である。このようなテストでは、その集団における臨床医が測定しようとするものを測定するように見える必要がある。関係した型の妥当性が内容妥当性である。  内容妥当性は、測定される概念を表す必要のある全ての項目をテストが含んでいるかどうかの程度である。テストの内容妥当性は、テストを使って調べられる疑問や集団によって広く変化するかもしれない。  介護施設（ALF）の人々における活動制限を測定しようとする場合、トイレ移動や補装具での歩行を扱う項目が含まれたアウトカム尺度が必要だろう。若く元気な人々での活動制限を測定したい場合、走る、跳ぶ、登るを扱う項目を含んだアウトカム尺度が必要だろう。若くて元気な人々に対してよい内容妥当性をもつアウトカム尺度は、ALF の老人にとっては内容妥当性が低いだろう。  表面的・内容妥当性はどちらも実験的に検証できない。またどちらも低いレベルの妥当性とみなされる。より高い型の妥当性は、criterion(基準関連)と construct（構成概念）であり、どちらも客観的に検証できる。  基準関連妥当性は、最も直接的な妥当性のタイプである。アウトカム尺度の妥当性は、アウトカム尺度や、最も標準のターゲットテストや基準テストの結果を比較して検証される。ターゲットテストが測定しようとするものを測定する場合、その結果は最も標準な基準テストの結果と合致するべきである。このタイプの妥当性は、同時に（同時妥当性）両方のテストをすることによって、または、後でされる最も標準なテストの結果を予想するかどうか決定するために(予測的妥当性）、ターゲットテストを初めにすることによって検証される。基準妥当性の一番の問題点は、確立された最も標準なテストが必要なことだ。リハビリテーションにおいてそのような最も標準なテストが存在する状況がほとんどない。  construct(構成概念）妥当性は、臨床医や研究者に関心のある基本的な概念を測定するテストの能力を反映する。定義的にアウトカム尺度の構成概念妥当性を確立する簡単な方法はない。しかし、特定の集団において特定の目的のために測定しようとするものをテストが実際に測定するかどうかという疑問は、適切なアウトカム尺度を選択するために重要である。

(7)

 アウトカム尺度の構成概念妥当性を検証するために多くの利用できる方法がある。

 Known groups method は、テストの構成概念妥当性を支持するために使われる。このアプローチは、関心のある構成概念において異なるとあらかじめがわかっている対象の 2 集団にテストをさせた場合、測定しようとするものをそのテストが実際に測定できたとすれば、集団のテストスコアは異なるはずだという前提に基づいている。  例：老人における機能的運動性の尺度として 6 分間歩行テストの構成概念上妥当性を検証する場合、ALF に住む虚弱な老人集団と地元地域の病院でボランティア参加した健康な老人集団とのテストの結果を比較する。この 2 集団は、機能的運動性の点で異なると予想されるだろう。この対象集団において 6 分間歩行テストが機能的運動性の妥当な尺度であれば、集団間で 6 分間歩行スコアは違ってくるはずだ。  Convergent(収束性)と discriminant(判別)妥当性は、構成概念妥当性を支持するために使われる。 Convergent 妥当性は、試験されたテストのスコアが、類似または関連した概念を測定するために考えられたテストのスコアに非常に関係しているときに表れる。  例：gait(歩行)と活動制限の概念は関係しているので、歩行指数のスコアは活動制限尺度からのスコアと関係するはずだ。尺度が老人集団に使用されるときスコアは関係付けられるが、若く元気な人々の集団に使用されるときは関連付けられない場合がある。一つまたは両方の尺度における天井効果から、他の状況での相互関連の欠如が起こる。アクティビティレベル尺度が基本的 ADL を扱うが、より活発な活動を扱わない場合、若い集団の対象者全員が最大限の高いスコアを出すだろう。その尺度は若年集団によって実験された活動制限における情報を提供せず、歩行指数でのスコアと関連しないだろう。  Disciminant 妥当性は、行われたテストのスコアが非常に難しい構成概念を測定するためのテストでのスコアと関連しないときに表れる。対象者の誰も認知症をもたない前提で、知能検査からのスコアは活動制限の尺度からのスコアと関連付けられるべきではない。活動制限テストが知能検査と強く関連した場合、活動制限テストは意図された構成概念を測定していないと考えられる。

＜反応性＞

 アウトカム尺度が期間中患者の変化を評価する場合、尺度はその変化を見つけけられなければならない。この概念は多数の方法で記述されている。Longitudinal(長期的)妥当性は見つけられた変化が臨床的に意味のあるものかどうかを決定する尺度の能力として定義されている。  反応性は、変化が起こったときにそれを正確に見つける尺度の能力として定義されている。2 タイプの反応性が定義されている。  Internal(内的)反応性は事前に定められた期間の変化の尺度の能力として定義されている。内的反応性はしばしば、あらかじめ知られた効果のある治療の前後に尺度を使って検証される。  External(外的)反応性は、尺度での変化が健康状態の他の尺度での変化と関係する程度を反

(8)

映する。他の測定特性のように、反応性は一貫した尺度の特徴ではない。尺度が特定の対象集団で特定の目的に使用されるときにのみ評価される。信頼性は重要な反応性の構成要素である。低い信頼性の尺度は、測定誤差によるノイズが起こった真の変化を不明瞭にするため、真の変化を見つけるのが困難である。  他にも多くの尺度の反応性に影響を与える特徴がある。いくつかの尺度はその構造のせいで反応性が低い。患者を限られた数のカテゴリーに置くよう設定された尺度は、カテゴリーの変化のためにたいてい大きい変化を必要とするため、反応性があまりでない。天井効果をもち、ほとんど全ての対象者が初めから最大限の高スコアに達する尺度は、改善の余地がないために反応性がない。介入に反応して変化する少ない項目と、非常に変化しにくい多くの項目をもつ multi-item(他項目)尺度は、反応性のない傾向があるだろう。  尺度が反応性のあるために、尺度は信頼性と、変化しそうな構成概念を扱う multiple（複合的）な項目をもたなければならず、項目の採点には改善することを考慮に入れなければならない。  例：ベッド運動性とトイレ移動を扱う項目を含み、活動のために必要な介助のレベルに基づいた項目を採点する活動制限の尺度は、最近腰部骨折のために外科手術を受けた老年患者に使用されたとき、非常に反応性がある尺度だろう。しかし、この尺度はハイレベルのスポーツ活動で訓練していた切断手術を受けた若者の集団に使用された場合では反応性がないだろう。

＜サマリー＞

 アウトカム尺度の効果的な使用は、臨床的ケアにおいて重要である。どのアウトカムが特定タイプの患者に関係があるのか決定することや、それらのアウトカムに適切な尺度を選ぶことが、アウトカム尺度の測定特性の理解のような、臨床現場の理解に必要である。アウトカム尺度を選ぶとき、次に述べる質問を問うべきである。  なぜ測定するのか？どのタイプの疑問を答えようとしているのか？診断決定をしたいのか、介入の反応を決定したいのか、将来のアウトカムを予想したいのか？  何を測定するのか？障害状態モデルに関心があるのか、QOL の状態に関心があるのか？特定の目的のために構成概念をどのように操作的に定義するのか？  誰を測定するのか？測定しようとしている集団の臨床的、人口統計学的特徴は何か？  アウトカム尺度は臨床的決定をする上で重要なツールである。しかし、うまく機能させるために、技術と理解をもって使用しなければならない。