<総説>Evidenceを得るために利用統計を見る

(1)

Evidence を得るために

比江島欣慎

山梨医科大学数理情報科学

要旨：最近，EBM，EBN，EBHC といった言葉を良く耳にする。EB は「Evidence-Based」すなわち「根拠に基づいた」を意味する。ランダム化比較試験の結果はこの根拠の 1 つになる。本論文では，ランダム化比較試験の結果がなぜ根拠となりうるのかについて生物統計学の立場から議論する。あわせて，ランダム化比較試験を行う際に注意しなければならない点をいくつか紹介する。キーワード EMB，ランダム化比較試験，交絡，ランダム化 1．はじめに近年，診療の現場では治療方法を決定する方法論として Evidence-Based Medicine（ EBM）が話題になっている。また，看護の現場においても Evidence-Based Nursing（EBN）が，その他関係する分野でも Evidence-Based Health Care（EBHC）などが話題となっている。「Evi-dence-Based」は直訳すれば「根拠に基づいた」となるが，ここで言う根拠は，過去の臨床研究の結果（論文）をさす。これに，患者からのデータ（臨床データ，表情，主張など），医師や看護婦の経験，一般的に言われていることなどの情報を加え総合的に判断して行動を決定するのが EB ○○である1）_。 EB ○○を論じる場合，その論点は大きく「つくる」，「つたえる」，「つかう」の 3 段階に分けられる2）_{。それぞれ，現実の状況としては} 「臨床研究」，「学会や論文での発表」，「診療や看護」が対応する。本論文では，「つくる」すなわち「臨床研究」に絞って議論を進めていく。ところで，evidence を有する結果を与える研究とはどんな研究だろうか。ある研究者は治療を数多くの患者に行いその結果を集めて，これだけの症例の積み重ねによって得られた結果なのだから evidence が有るに決まっていると主張するかもしれない。また，ある研究者は比較試験から出てきた結果なのだから evidence が有ると主張するかもしれない。一般には，ランダム化比較試験の結果が最も質の高い evi-dence をあたえるといわれているが，なぜそうなのだろうか？すべてのランダム化比較試験が良質の evidence をあたえるのだろうか？本論文ではこうした疑問に応える形で，ランダム化比較試験の妥当性とそれを実施する際に気を付けなければならない点を指摘していく。まず，第 2 節では，evidence を得るためには比較試験を行わなければならないことを説明する。第 3 節では，ある比較試験の結果を例に交絡という現象を示し，続く第 4 節でランダム化することの意義について解説する。第 5 節では，ランダム化比較試験を行うにあたり注意しなければならないことを示し，第 6 節でまとめを行う。なお，これから先の節ではある治療 A が対象疾患に効果を持つかどうかといった問題を中心に議論を進めていくことをあらかじめ断っ〒 409-3898 山梨県中巨摩郡玉穂町下河東 1110 受付： 2001 年 2 月 1 日受理： 2001 年 5 月 10 日

総説

(2)

ておく。 2．比較すること治療 A を対象疾患を持つ患者 200 人に行ったところ，180 人の症状が改善した。はたして治療 A は効いたのだろうか？対象疾患の種類にもよるが，それほど少なくはない 200 人という数の患者に対して 9 割の改善率という結果を示した治療 A は効果を有すると考えて間違いないと判断する人がいてもおかしくない。そう判断した人に次の質問を投げかけたい。もし，同じ 200 人の患者に「病気が良くなる」というおまじないをかけたところ 180 人の症状が改善したとしたら，それでも，治療 A が効いたと言えるだろうか？と。そもそも，治療 A が効くとはどういうことだろうか？ある 1 人の患者について考えてみれば，この患者に治療 A を行わないと症状は改善しないが，行うと改善するといった状況の時に治療 A が効いたと言えるだろう。患者の集団で考えるならば，ある患者集団に治療 A を行わないときより行ったときの方がより高い症状改善率を得られる場合に治療 A が効いたと言えるだろう。すなわち，治療 A を行った場合とそうでない場合とを比較しなければ，治療 A が効いたかどうかは判断できないのである。さて，ここで問題が生じる。同一の患者もしくは同一の患者集団から同時に治療 A を行った場合とそうでない場合とを観察できるだろうか？当然のことながらそれは無理である。では，どうするか？ 1 つの打開策としては，患者とそっくりな患者を連れてきて，治療 A を一方には行い他方には行わずにそれぞれを観察し，その結果を比較するという方法が考えられる。しかし，双子の患者でも利用しない限りこの方法の実現は難しい。であるなら，この考え方を患者集団に適用してはどうだろう。性質の似た患者集団，すなわち，年齢の分布や男女比，および，研究の結果に影響を与えるような因子の分布などが似ている患者集団を 2 つ用意し，治療 A を一方には行い他方には行わずにそれぞれを観察し，その結果を比較するのである。この方法であれば，2 集団間で集団として等質化を計れば良く，双子の患者を利用する必要もなくなり，現実的に実施可能であると考えられる。一般に，この方法による試験形態を比較試験と呼んでいる。これまでの流れからもわかるように，evi-dence を得るためには少なくとも比較試験の形態をとる必要がある。このことは，治療の効果の有無を調べるような集団に対して介入を行うような研究（介入研究）に限った話しではなく，ある集団の特徴や傾向を調べる介入を行わない研究においても同様であることを注意しておく。しばしば，集団の対象者の大部分が共通の性質を持つからといって，その性質をもって集団の特徴付けを行っている研究発表を見かけるが，この結論には注意が必要である。特徴や傾向というものは他と比べることによって明確化するもので，単一の集団だけを調べてわかるものではない。したがって，この場合においても比較なしに出てくる結論は evidence とはなり得ないのである。 Evidence のある結果を導きたいのなら，比較試験を行わなければならないことがこれまで議論で理解できたと思う。このことは，比較試験の形態をとらない研究の結果を否定しているわけではないことを断っておく。そうした研究は，仮説の作成や情報収集にきわめて有用であり，研究初期の段階では重要である。あくまで，研究者が研究結果に evidence を求める場合には，比較試験の形態をとる必要があるという話しである。次節以降では，evidence を得るためにどのような比較試験を行えばよいかについて議論を掘り下げていく。 3．交絡治療 A が現場に耐えうる効果を有するかどうかを調べるために，現在標準的に用いられて

(3)

いる治療 B との比較試験をそれぞれ 100 人の患者を用いて行った。その結果が表 1 である。治療 A の有効率は 0.48，および治療 B の有効率は 0.62，χ2_{検定の結果は p ＝ 0.0466 とな} り，残念ながら，治療 A は治療 B に勝る治療とはこの結果を見る限り判断できない。むしろ治療 B に劣る治療と判断するのが適切である。では，次の表 2 および表 3 をみてほしい。これは，前出の結果を疾患の重症度別に分けた結果である。表 2 および表 3 では，それぞれ，治療 A の有効率が 0.375 で治療 B の有効率が 0.2，治療 A の有効率が 0.9 で治療 B の有効率が 0.725 となり，重症患者および軽症患者どちらの場合を見ても治療 A の方が治療 B を有効率で上回っている。最初の結果とは完全に逆転した結果となっている。どちらの結果が正しいのだろうか？この現象はシンプソンのパラドックス3）_と呼ばれているが，なぜこうした現象が起きるのかをここで考えてみたい。表 2 および表 3 をよく見ると次の 2 つのことに気づくだろう。 1）重症患者と軽症患者で治療 A，B の有効率を比較すると，どちらの治療も重症患者に対しては有効率が低く，軽症患者に対しては有効率が高い（治療 A は重症： 0.375 で軽症：0.9，治療 B は重症：0.2 で軽症：0.725）。 2）治療 A を受けた患者には重症患者が多く（100 人中 80 人），治療 B を受けた患者には軽症患者（100 人中 80 人）が多い。これら 2 つのことが重なってこのパラドックスが起きている。どちらかが不成立だとこうしたパラドックスが起きないことは簡単に確認できる。例えば，重症患者および軽症患者に対する治療 A，B の有効率を変えずに，重症患者をそれぞれ 40 人ずつ，軽症患者を 80 人ずつ割り当てた場合を考えてみよう。表 2，表 3 は次のように書き換えられる。したがって，表 1 に対する表は次のようになる。治療 A の有効率は 0.725，治療 B の有効率は 0.55 となり，重症度別に見ても全体で見ても，治療 A は治療 B に勝っている結果となる。確かにシンプソンのパラドックスは起きていない。さて，1）の状態は，重症度という因子がそれぞれの治療の効果に影響を与えていることを示している。このような結果に影響を与える因子を予後因子と呼ぶ。さらに，2）の状態はこの予後因子に関して治療 A，B の割り当てに偏りが生じていることを示している。このような状態にある予後因子を交絡因子と呼ぶ。交絡因子の正確な定義に関しては他を参照されたい4）_{。こうしたシンプソンのパラドックスが起} きていることを交絡が起きたといい，それに対表 6．比較試験の結果有効無効治療 A 48 52 治療 B 62 38 表 5．比較試験の結果（軽症患者）軽症有効無効治療 A 72 8 治療 B 58 22 表 4．比較試験の結果（重症患者）重症有効無効治療 A 15 25 治療 B 8 32 表 3．比較試験の結果（軽症患者）軽症有効無効治療 A 18 2 治療 B 58 22 表 2．比較試験の結果（重症患者）重症有効無効治療 A 30 50 治療 B 4 16 表 1．比較試験の結果有効無効治療 A 48 52 治療 B 62 38

(4)

処するための統計的な方法が色々と開発されている。このデータの場合，重症度を交絡因子と考えるならば，Mantel-Haenszel 検定3）_が適用でき，その結果は p ＝ 0.029 となる。すなわち，治療 A は治療 B に勝ると判断できる。今回の例は結果が逆転するというとても強い交絡が起きている状態である。一般にどのような比較試験の結果にも交絡は起きている。弱い交絡は結果の方向性を逆転することはなく，推定値の大きさに影響を与える程度である。交絡の強さは，予後因子の結果に与える影響の強さと，予後因子に関する各治療（介入）の割り当ての偏り具合によって定まる。強い予後因子に関しては，わずかな偏りでも強い交絡を引き起こすことがあり，また，弱い予後因子でも大きな偏りがある場合には強い交絡が起きる。研究者が強い交絡の予防に対して唯一できることは偏り無く各治療（介入）を割り当てることである。 4．ランダム化さて，比較試験に話しを戻そう。前節での治療 A が標準治療 B よりも効果の面で優れているかを調べる比較試験において重要なのは，なるべく等質な 2 つの集団に治療 A，B をそれぞれ行うことである。前節の交絡の例は，強い予後因子に関して治療 A，B の割り当てに偏りが生じたために引き起こされている。言い方を変えれば，それぞれの治療が行われた集団間の等質性が予後因子に関して大きく崩れたために引き起こされている。強い交絡が起きていないことと集団間の等質性が保たれていることはほぼ同値なことである。したがって，等質な 2 つの集団を準備するためには，すべての予後因子を同定した上で，それらの因子に関して治療 A， B を偏りが生じないように割り当てればよいわけである。果たしてその様なことは可能なのだろうか？まず，すべての予後因子を同定できるかどうかを考えてみよう。先行している研究やこれまでの経験などからある程度の予後因子を同定することは可能であろう。しかし，予想もしていない因子が研究の結果に影響を与えている可能性は，どんなに調べたとしてもなくすことはできない。結局のところすべての予後因子を同定することは無理なのである。同定できなかった予後因子に関して治療 A，B の割り当てに偏りが生じた場合，交絡の起きた結果を受け入れるしかないのである。もし強い交絡が起きていた場合，逆転した結果を受け入れることになる。前節の例で言うなら，重症度による交絡があるにもかかわらず，それに気づかずに（重症度を予後因子として同定しておらずそのデータがないので）表 2.1 の結果を受け入れることになる。しかし，まだあきらめるのは早い。もし同定できない予後因子に関して治療 A，B を偏り無く割り当てる方法があれば，この状態を回避することができる。実は，患者に治療 A，B のどちらを行うかをランダムに決定するという手続き（ランダム化）が唯一この回避を期待できる手だてなのである。研究に参加する患者集団をランダム化によって 2 つに分けるとき，患者の数が十分大きいならば，等質な 2 つの集団が作られることが期待できる5）_{。それ以外の方法ではどうだろうか？} 例えば，午前に来た患者を治療 A に，午後に来た患者を治療 B に割り当てたとする。もし，重症な患者ほど午前に来やすいという傾向があったとすると，この方法では前節のような結果を招くことになる。ランダム化以外のいかなる方法を用いても，予想もしない予後因子との関連性を完全に否定できないため，その因子に関する偏りによって強い交絡が引き起こされてしまう可能性を完全には否定できないのである。ランダム化が唯一強い交絡の回避を期待できる方法であることがわかる。しかし，残念ながらランダム化は強い交絡の回避を期待できる．．．．．方法でしかないことに注意しなければならない。偶然のいたずらで強い交絡を引き起こすことは十分にあり得るのである。この偶然による交絡の影響を小さくするために

(5)

は，やはり予後因子の同定が必要不可欠である。研究を行う前には入念な下調べを行い，研究結果に強い影響を与える予後因子に関してはすべて列挙しておくことが重要である。列挙された予後因子に関して，治療 A，B が偏ることなく割り当てられるようランダム化を工夫することで，偶然による交絡の影響を小さくできる。交絡の強さは予後因子の結果への影響力と偏り具合で決まることを前節で説明した。見過ごしてしまった予後因子の結果への影響力がそれほど大きくなければ，その因子に関して極端な偏りが起きない限りは交絡の影響は小さいと考えられる。強い予後因子を同定し治療 A，B の割り当てを工夫する6）_{ことで，致命的な交絡が発} 生する確率を低く押さえることができるのである。これまでの議論で，強い交絡の影響を受けない研究結果を得るためにランダム化が比較試験において重要な役割を果たすことが理解できたであろう。こうした理由から，ランダム化比較試験の結果は evidence を有していると判断されるのである。 5．ランダム化比較試験を行うにあたってランダム化比較試験の形態をとれば evi-dence のある結果が自ずと手にはいるわけではない。Evidence を得るために，前節では強い予後因子を同定することの重要性を指摘したが，他にも注意しなければならないことが多分にある。この節では，そうした注意点に関して議論していく。生物統計家生物統計家である私がこのことを注意点の最初に挙げるのは気が引けるのであるが，やはりきわめて重要であると考えるのであえて最初に議論しておく。しばしば，研究における生物統計家の役割は集まったデータの集計や解析だけと誤解されている。事実，私の研究室にデータを持って解析を依頼に来る研究者は多いが，研究を行うので相談にのって欲しいと来る研究者はほんの少しである。海外の研究においては計画段階から生物統計家が関与するのが一般的である。データ収集の際にデータに混入してしまったバイアス（研究結果をゆがめる原因）は，データ解析時にどんなに高等な統計処理を行ってもその影響を排除できない。より品質の高いデータが収集されるよう，生物統計家は研究の計画や運営に関与しなければならないのである7）_{。是非とも研究を行う際には生物統計家に} 相談に行くことをここで強くお願いしたい。研究計画書研究を行う際には研究計画書を作成する。計画書には，どういう位置づけで研究を行うのか，どのような方法で行うのか，研究のタイムスケジュール，測定する項目など研究に関する詳細を記す8）_{。ランダム化比較試験においては集め} たデータを基にどのように比較するのかその解析方法を記さなければならない。あわせて，この研究にどうしてこれだけの患者数が必要なのかその理由も記さなければならない。解析方法を事前に記しておくことは，研究から出てきた結論が，収集されたデータを見た上で都合のいい解析方法を選択して行った結果導かれたものではないことを保証するためである。また，必要な患者数の理由を書いておくことは，不必要に研究のために患者を犠牲にしていないことを示すのと同時に，研究によって見つけられた介入間の差が意義のあるものであることを示す。これらの記載に関しては生物統計家の助言が必要となるので，前述の通り生物統計家を計画段階で関与させておくのが望ましい。Evidence を得るためには，計画段階からデータ収集後に行われるデータ解析を視野に入れておかなければならないのである。調査票調査票のデザインが研究において収集されるデータの品質向上に寄与することは意外に知られていない。多くの研究者が研究計画に夢中に

(6)

なるあまりデータが記録される調査票の作成をないがしろにしがちである9）_{。研究のスタイル} にあった記入しやすい調査票を作成することは，誤記入，記入漏れを防ぎデータ管理をしやすくする10）_{。特に，アンケート形式の調査票} を作成するときはより注意深い配慮をすべきである。個々の項目および質問に誤解が生じる表現がないかチェックするのは重要であり，作成した調査票は，作成に関与していない第三者にテスト記入してもらうことをお勧めする。最近では，データ入力作業までを考慮し，OCR での読み込みを前提とした調査票の作成も可能となっている。研究を行う際には調査票の作成にも気を配るよう研究者にはお願いしたい。脱落ランダム化比較試験では，研究の対象者が研究の途中でこなくなってしまい，以降のデータの収集ができなくなってしまうことがある。こうした対象者は脱落例として取り扱われるが，しばしば，何の検討をすることなく脱落例のデータを最終的なデータ解析からは削除する研究者がいる。脱落となった対象者のデータの取り扱いには慎重になるべきである。脱落の発生が研究の結果と関連を持つ場合，脱落を無視した解析にはバイアスが入ってしまう。例えば，症状が改善すると患者の疾患への関心が薄くなり来院しなくなる傾向があったとする。こうした状況下でランダム化比較試験を行い，脱落例を除いたデータ解析を行うと，症状を改善する治療ほど改善率が低く推定される傾向になることになる。研究者はなるべく研究において脱落例が生じないよう配慮すべきであるが，やむをえず脱落例が出てしまう場合は，その理由，脱落時の状態等を調査しておく必要がある。そして可能であるなら，研究終了時の脱落例の状態を追跡調査しておくのがよい。こうした努力は ITT 解析11,12）_{の際に重要な情報を与える。} ざっと注意しなければならない点を列挙し議論してきたが，まだまだ多くの問題点がある。最近では，研究を行う際に参考になるガイドライン13）_や解説書9,14）_{なども作成されているの} でそちらに目を通しておくことをお勧めする。 Evidence を導くためにはそれ相応の努力と手間が必要であることをここで強調しておきたい。 6．最後にこれまで，evidence を有する結果を導くためには比較することとランダム化することが重要であるということを議論してきた。そして，ランダム化比較試験の実施にあたっては，計画段階から配慮すべきことが数多くあることを指摘してきた。たとえ小規模のランダム化比較試験であっても，いざ実施してみると様々な予期しない問題が起こり，試験を管理運営していくことが大変であることを，計画した経験のある研究者は感じているだろう。ましてや大規模な長期追跡型の研究となるとその苦労は相当なものである。現在，臨床研究の管理・運営をサポートする部門，Clinical Research Center の設立が各施設で行われている。ここでは，臨床研究における患者のエントリー，スケジュール管理，調査票の管理などの業務を主に行う。そこで業務を行うスタッフを Clinical Research Co-ordinator と呼ぶが，十分な経験を持った人材が不足しており，その育成が急務とされているのが現状である10,15）_{。今後こうした人材を育て} る教育機関を大学に設置する必要があるのではないだろうか。さて，研究はその主たる目的によって大きく検証的か探索的かの 2 つに分けられるが，これまで議論してきたランダム化比較試験は，検証を主たる目的においた研究で主に用いられる。検証的な研究を行う際には，実施に必要な情報を得るための多くの探索的研究がその以前になされているのが一般的である。予後因子の同定など探索的研究の結果はランダム化比較試験を行う際に必要不可欠であり，探索的研究を決してないがしろにしてはいけない。EBM の浸透とともにランダム化比較試験ばかりを重要視す

(7)

る傾向が一部では見受けられるが，多くの探索的研究の結果の上に成立しているランダム化比較試験こそが evidence を有する結果を与えてくれることを研究者は忘れてはいけないと最後に強調しておきたい。参考文献

1) 名郷直樹： EBM. EBM ジャーナル， vo1. 1, no. 1: 96–97, 2000. 2) 津谷喜一郎, 内田英二：薬とエビデンスに関する全体の見通し図．EBM ジャーナル，vo1. 1， no. 1: 98–103, 2000. 3) 柳川堯：離散多変量データの解析．共立出版，東京，1986． 4) 佐藤俊哉：疫学研究における交絡と効果の修 飾．統計数理，42: 83–101, 1994. 5) 佐藤俊哉：治療のランダム割り付けと治療効果 の検定. 医学のあゆみ, 173: 779–784, 1995. 6) 比江島欣慎：臨床試験 FAQ ―まじめに質問してみよう―．椿広計，藤田利治，佐藤俊哉編集．これからの臨床試験医薬品の科学的評価―原理と方法．朝倉書店，東京： 150–158，1999． 7) 佐藤俊哉：試験統計家が果たすべき役割．Bio-medical Perspectives, 8: 394–401, 1999. 8) 藤田利：臨床試験とは．椿広計，藤田利治，佐藤俊哉編集．これからの臨床試験医薬品の科学的評価―原理と方法．朝倉書店，東京： 1–19， 1999． 9) Pocock S. J.：クリニカルトライアルよりよい臨床試験を志す人たちへ. コントローラー委員会監訳．篠原出版，東京，1989． 10) 比江島欣慎, 佐藤俊哉, 椿広計：生物統計学からみた Megastudy，循環器科， 37: 441–447， 1995． 11) 佐藤俊哉： Intention-to-treat の考え方．医学のあゆみ，173: 925–930，1995． 12) 松井研一： ITT 解析の考え方．椿広計，藤田利治，佐藤俊哉編集．これからの臨床試験医薬品の科学的評価―原理と方法．朝倉書店，東京： 102–112，1999． 13) 厚生省：医薬品の臨床試験の実施の基準に関する症例（平成 9 年 3 月 27 日厚生省令第 28 号）， 1997． 14) 椿広計，藤田利治，佐藤俊哉：これからの臨床試験医薬品の科学的評価―原理と方法．朝倉書店，東京，1999． 15) 椿広計，比江島欣慎：抗高脂血症薬市販後調査「Mega Study」について，統計数理，43: 183–189, 1995.

<総説>Evidenceを得るために 利用統計を見る

Evidence を得るために

比 江 島 欣 慎

総 説

<総説>Evidenceを得るために利用統計を見る

比江島欣慎

総説