• 検索結果がありません。

ロジスティック回帰を用いた 心筋梗塞の要因分析

N/A
N/A
Protected

Academic year: 2021

シェア "ロジスティック回帰を用いた 心筋梗塞の要因分析"

Copied!
43
0
0

読み込み中.... (全文を見る)

全文

(1)

ロジスティック回帰を用いた 心筋梗塞の要因分析

平成 25 年度

三重大学大学院 地域イノベーション学研究科 博士前期課程 地域イノベーション学専攻

喜多 智美

(2)

1

目次

第1章 はじめに・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・2 第2章 生体指標と遺伝子情報・・・・・・・・・・・・・・・・・・・・・・・・・5 2.1 研究で使用する生体指標と遺伝子情報(SNP)・・・・・・・・・・・・・5 2.2 質的変数のダミー化について・・・・・・・・・・・・・・・・・・・・・6 2.3 生体指標の医学的な説明・・・・・・・・・・・・・・・・・・・・・7 第3章 遺伝子情報のSNP・・・・・・・・・・・・・・・・・・・・・・・・・・14 3.1 塩基配列・・・・・・・・・・・・・・・・・・・・・・・・・・・・・14

3.2 SNP(スニップ)・・・・・・・・・・・・・・・・・・・・・・・・・・15

3.3 SNP の違いによる体質の変化・・・・・・・・・・・・・・・・・・・・15

第 4 章 ロジスティック回帰分析・・・・・・・・・・・・・・・・・・・・・・・18 4.1 ベルヌイ分布・・・・・・・・・・・・・・・・・・・・・・・・・・・18 4.2 二項分布・・・・・・・・・・・・・・・・・・・・・・・・・・・・・18 4.3 ロジスティック回帰分析・・・・・・・・・・・・・・・・・・・・・・19 4.4 変数選択法・・・・・・・・・・・・・・・・・・・・・・・・・・・・21 4.5 モデル選択規準・・・・・・・・・・・・・・・・・・・・・・・・・・23 第 5 章 統計的分析方法・・・・・・・・・・・・・・・・・・・・・・・・・・・26 5.1 ブートストラップ法・・・・・・・・・・・・・・・・・・・・・・・・・26 5.2 独立性の検定・・・・・・・・・・・・・・・・・・・・・・・・・・・・28 5.3 変数選択の結果・・・・・・・・・・・・・・・・・・・・・・・・・・・・31

5.4 SNP についての結果・・・・・・・・・・・・・・・・・・・・・・・・35

5.5 SNP の特徴・・・・・・・・・・・・・・・・・・・・・・・・・・・・36

5.6 考察・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・37 第 6 章 おわりに・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・39 6.1 結論・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・39 6.2 今後の課題・・・・・・・・・・・・・・・・・・・・・・・・・・・・39 謝辞・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・40 参考文献・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・41

(3)

2

第1章 はじめに

昨年厚生労働省が発表した「平成24年簡易生命表」によると、2012年の日本人の平均 寿命は男性が79.94歳で世界5位(前年8位)、女性が86.41歳で世界1位(前年2位)

であった[1]。平均寿命が前年より伸びたのは、男女とも3年ぶりのことである。とは言え、

現代、下の図1のように日本人の3分の2近くが生活習慣病で亡くなっており、日本人の 三大死因でもあり、三大生活習慣病とも言われる悪性新生物(がん)、心疾患、脳血管疾患 に限って言えば、65歳の男性では52.94%、65歳の女性では48.49%と全体の約半数がが それらが原因で亡くなっている。

図1 日本人の主な死因別死亡数の割合

医療技術の進歩で、この三大死因の死亡率は減少傾向にあるが、これらの死因をさらに克 服していくことが今求められている。上で挙げた「平成24年簡易生命表」によると、実際 にこれらの死因を克服できたときの平均余命の伸びは、三大死因に限れば 65 歳男性では 5.91年、65歳女性では4.98年、75歳男性では4.45年、75歳女性では4.13年という報 告がされている。よって、これらの悪性新生物(がん)、心疾患、脳血管疾患をいかにして 克服していくか、予防や治療の双方向から考えていかなければならないと言える。そのた めには、これらの病気に対してどのような要因が影響を与えているかを解析していく必要 がある。影響を与えている要因を見つけ、その要因を解析することで、それらの病気の克 服に繋がり、それは健康や平均余命の伸長などにも繋がるはずである。

(4)

3

これらの病気の要因を解析していく上での問題点として、次の2つのことが挙げられる。

まず1つ目に、これらの病気は1つの要因から発症するというわけではなく、いくつかの 要因が複合して発症する可能性が高いので、その複合的要因について調べていく必要があ る。また、その要因分析の結果の信頼性をできるだけ高いものにしなくてはならない。

本研究では、これらの問題点を解決しながら、三大死因の一つである心疾患の一つ、心 筋梗塞についてその発症に影響を及ぼす要因を調べる。今、心筋梗塞に関わる要因として、

年齢、性別、肥満指数、喫煙の有無、最高血圧、最低血圧、総コレステロール値、中性脂 肪、HDLコレステロール値、LDLコレステロール値、空腹時血糖値、糖化ヘモグロビン 量、血清クレチアニン値、血清クレアチニン値を元に推定した腎臓の糸球体濾過量、の14 種類の生体指標、70個のSNP、糖尿病、高血圧、高脂血症、慢性腎臓病、の4種類の生 活習慣病発症の有無、についてのデータが収集されている。心筋梗塞発症の有無を被説明 変数、それ以外の項目を心筋梗塞発症の要因、つまり説明変数とし、心筋梗塞発症の有無 に関する要因の分析を行う。これまでに、このデータを用いて、カイ二乗検定によるSNP の絞り込みとロジスティック回帰分析を用いた要因分析が行われている[2][3]。また、それ らのSNPの情報を利用した健康診断支援システムとして、G&Cサイエンス社より提供さ れている『Genomarker』というシステムが存在する[4]。このシステムは病院にて採取し た特定の SNP 情報をもとに、被験者の生活習慣病発症リスクを提示するものである。こ れに代わる新しい健康診断システムとして、SNPが生活習慣病に与える影響を考慮した生 活習慣指導を目的として、SNPと生体指標を用いた多次元空間により発症の危険性を算出 する研究が行われている[5][6]。また、自身の卒業研究では、条件付き確率により心筋梗塞 発症と関連がある生体指標の条件を調べている。この研究では、次のようなことがわかっ ている。心筋梗塞に対して1因子における主な条件は、年齢が20~50代、糖化ヘモグロ ビン量がかなり高め、悪いに相当(糖尿病)、HDLコレステロール値が正常値未満に相当、

収縮期の血圧の値が高血圧中軽症、重症に相当(高血圧)である。2 因子では、年齢、糖 化ヘモグロビン量、HDLコレステロール値は他の条件と複合して心筋梗塞になりやすい。

また、単独であまり関連性が見られない総コレステロール値やトリグリセリド値も他の条 件と複合して、心筋梗塞になりやすいと推測される[7]。本研究では、この卒業研究の結果 も踏まえながら、心筋梗塞発症の要因をロジスティック回帰分析により推測すること考え る。その際、どの要因が心筋梗塞に強く影響を及ぼしているかを、まだ他の研究で使われ ていないブートストラップ法とモデル選択規準を組み合わせて分析する。

(5)

4

以下、第2章では本研究で扱うデータについて、第3章では遺伝子情報のSNPについ て、第4章ではロジスティック回帰分析について、第5章では統計的分析方法について述 べる。

(6)

5

第 2 章 生体指標と遺伝子情報

2.1 研究で使用する生体指標と遺伝子情報(SNP)

提供されたデータには、①年齢、②性別、③肥満指数、④喫煙の有無、⑤最高血圧(収 縮期の血圧の値)、⑥最低血圧(拡張期の血圧の値)、⑦総コレステロール値、⑧中性脂肪、

⑨HDLコレステロール値、⑩LDLコレステロール値、⑪空腹時血糖値、⑫糖化ヘモグロ ビン量、⑬血清クレアチニン値、⑭血清クレアチニン値を元に推定した腎臓の糸球体濾過 量、の14種類の生体指標、生活習慣病に関係すると予想される70個のSNP(SNPにつ いては第3章で解説する)、⑮糖尿病、⑯高血圧、⑰高脂血症、⑱慢性腎臓病、の4種類の 生活習慣病発症の有無、そして心筋梗塞発症の有無であり、合計14 + 70 + 4 + 1 = 89項 目について6854名分記載されている。

留意する点として、これらのデータは日本の病院に来院した方々の協力により完成した ものである。したがって、データ採取協力者の年齢に大きな偏りがある、日本人があまり 持っていない SNP タイプのデータが少ないなどの一般性を欠いた部分が見受けられる。

そのためこのデータ分析では、この点に十分注意し検討を行う必要性がある。

以下の章では説明変数をそれぞれ順に、生体指標は①Age、②Sex、③BMI(Body Mass Index)、④Smoking、⑤SBP(Systolic Blood Pressure)、⑥DBP (Diastolic Blood Pressure)、⑦T.cho、⑧TG、⑨HDL、⑩LDL、⑪FBS(Fasting Blood Sugar level)、⑫HbA1c、

⑬Cr、⑭eGFR、生活習慣病発症の有無は⑮DM(Diabetes Mellitus)、⑯HT(Hypertension)、

⑰HL(Hyperlipidemia)、⑱CKD(Chronic Kidney Disease)、SNPはID+4桁の番号、

そして心筋梗塞発症の有無はMI(Myocardial Infarction)で表す。以下、MIを被説明変 数(目的変数)、MI以外の項目を説明変数として、被説明変数に関係する重要な説明変数 を明らかにすることが本論文の目的となる。

(7)

6

2.2 質的変数のダミー化について

性別や喫煙の有無などの説明変数は量的変数ではなく、質的変数である。したがって、

今後の分析において、これらのデータを連続変数にする必要がある。以下はその方法を説 明する。

ある1個の変数Xが 𝑚 個のカテゴリーを持つ時、これを 𝑚 個の変数𝐷1, 𝐷2, …, 𝐷𝑚 で表す。カテゴリー 𝑖 に該当するケースは、𝐷𝑖 = 1, 𝐷𝑗 = 0 (𝑖 ≠ 𝑗)で表される。𝑚 個のダ ミー変数は冗長性を持つので、通常は 𝑚 − 1 個のダミー変数を用いる。(例えば、𝐷1~ 𝐷𝑚−1 が0ならば、𝐷𝑚 が1であることが直ちにわかる)。このため、カテゴリー数が2の 場合には1個のダミー変数で表される。ダミー変数を用いれば、連続変数に対して適用で きる多くの分析手法が使える。変数が数値ではなく質的である場合、成功、失敗をそれぞ れ0、1として行う。これをダミー化(数量化)すると言い、この場合、{ 0, 1 } に値をと る変数をダミー変数と言う。

今回の説明変数の中でダミー変数として表されているものには、二値変数では、性別、

喫煙の有無、生活習慣病発症の有無、心筋梗塞発症の有無、三値変数ではSNPがある。

二値変数である性別、喫煙の有無、病気(生活習慣病、心筋梗塞)発症の有無に関して のダミー化は、表2.2.1のように行う。

表2.2.1 2値変数のダミー化

1 0

性別 男性 女性

喫煙の有無 喫煙 非喫煙

病気発症の有無 発症 非発症

あるSNPではA、AG、Gのように表されており、A/A、A/G、G/Gそれぞれについて、

そうである場合を1、そうではない場合を0とすると、SNPのダミー化は表2.2.2のよう に行う。

(8)

7

表2.2.2 SNPのダミー化

A/A A/G G/G

A 1 0 0

AG 0 1 0

G 0 0 1

2.3 生体指標の医学的な説明

ここでは説明変数のデータが実際に心筋梗塞に関わっているかを一般的な医学的見地か ら見てみる。ここで医学的に必要でないと判断される説明変数は必要でない可能性が高く なる。まずは被説明変数である心筋梗塞について説明し、その後各説明変数についての説 明と心筋梗塞との関わりを説明する。

・心筋梗塞について

心筋に酸素と栄養素を送る冠動脈の内部が極端に狭くなって血流が悪くなり、そこで血 液が固まって血栓ができたり、他の場所でできた血栓がそこに詰まると血流が完全に途絶 えてしまう。すると、冠動脈の詰まった先の心筋には血液が流れないため、酸素欠乏や栄 養不足になった心筋細胞が次々と壊死していく。このような状態を心筋梗塞(Myocardial

Infarction(MI))という。冠動脈が詰まって血流が途絶えた瞬間から激しい胸痛発作に襲

われ、心筋の壊死は始まっていく。冠動脈がふさがってしまっているため、狭心症と違っ て安静にしても症状は改善せず、むしろ悪化していく。心筋の壊死範囲が広いほど急速に 心臓のポンプ機能は低下し、血圧低下によるショック状態や突然死に至る事も少なくない。

心筋梗塞の発病要因は一つではなく、更にいくつかの要因が複合的に重なることで危険度 が増すと言われている。その要因の一つには喫煙、高LDLコレステロール血症、糖尿病、

高血圧、ストレス、肥満、女性よりも男性、痛風などがある[8][9]。

①年齢について

心筋梗塞になるのは、男性では30代から年齢とともに増加し、60代にピークが認めら れる。女性では、男性よりも高齢に傾いており、そのピークは70代にある。

(9)

8

②性別について

心筋梗塞のデータでは、男性の発症率は女性よりも高い事が判明しており、男性は心筋 梗塞に掛かりやすいと言える。男性の患者数が女性よりも多くなる要因の一つには、生活 習慣などのライフスタイルの男女差が関係していると考えられている。

③肥満指数(BMI)について

BMIとはBody Mass Indexの略である。体重(kg)÷身長(m)×身長(m)で算出さ れる体格指数のことで、肥満度を測るための国際的な指標となっている。日本肥満協会で はBMIが18.5未満は低体重、18.5~25未満は普通、25~30未満は肥満(1度)、30~35 未満は肥満(2度)、35~40未満は肥満(3度)、40以上は肥満(4度)と認定している。

肥満指数が 25 を越えると肥満と見なされる。体脂肪が蓄積した状況は、心筋梗塞を誘発 し、健康への弊害も掛かる。肥満には 2 つのタイプ(内臓脂肪型肥満と皮下脂肪型肥満)

があり、メタボリック・シンドロームと診断されると、心筋梗塞は健康時よりも発症率で 3 倍の差があるとされる。単に肥満指数だけで判断した場合、心筋梗塞になった人と健康 な人を比較すると、心筋梗塞にかかった人は、健康な人に比べて肥満指数は少し高い値だ ったが、中東と南アジアの人では差がない。よって、肥満指数よりも、上半身(腹部)に 脂肪が蓄積している内臓脂肪型肥満かを判断できるウエスト/ヒップ比がより心筋梗塞の リスクを正確に反映している。肥満に関しては、直接心筋梗塞にかからなくても、睡眠時 無呼吸症候群や貧血への影響もあり、また、高血圧、高脂血症、不整脈、多血症、虚血性 心疾患、脳血管障害、糖尿病の合併症の原因となって、危険性が増すことがある。

④喫煙について

煙草の煙に含まれる活性酸素は、血管内皮細胞を刺激し、数々の障害を引き起こす。発 病リスクは非常に高く、動脈硬化が促進され、心筋梗塞を始めとして、狭心症、動脈瘤、

脳血栓 、脳塞栓、動脈瘤などの発症に大きな影響を与える事が統計上で証明されている。

⑤収縮期の血圧、⑥拡張期の血圧、⑯高血圧について

収縮期の血圧は最高血圧、拡張期の血圧は最低血圧とも言われる。1999年 2 月に世界 保健機関(WHO)と国際高血圧学会(ISH)が発表した高血圧の定義によると、収縮期血圧(以

降⑤)が 120mmHg 未満、拡張期血圧(以降⑥)が 80mmHg 未満で至適血圧、⑤が

(10)

9

130mmHg未満、⑥が85mmHg未満で正常血圧、⑤が130mmHg以上139mmHg未満、

⑥が85mmHg以89未満で正常高値血圧、⑤が140mmHg以上、⑥が90mmHg以上で

高血圧(グレードが軽症、中等症、重症の3つに分かれる)と診断する。⑤と⑥が異なる 分類に該当する場合、より高い方の分類を採用する事になっている。この内の高血圧は動 脈硬化の原因になっている。冠動脈に動脈硬化が発生することにより血管の内側を狭めて しまう。また高血圧は心臓に負荷をかけてダメージを与え、血液を送り出す役割を持つ左 室の筋肉の壁が厚くなる左室肥大を引き起こす。 心臓が肥大すると心臓への血液供給量 を増やす必要が生じるが、血管が狭くなり血液供給が減少してしまう悪循環が引き起こさ れる。そして心筋梗塞や狭心症といった虚血性心疾患を発症しやすい状況となり、心臓へ の負担は急速に増大することになる。同時に心臓肥大による負荷から心筋が疲労し、心不 全の危険性も生じてくる。心筋梗塞や狭心症などの虚血性心疾患発症のリスクは、高血圧 を発症した場合と健康な人との比較は約3倍も高まることが米国の研究から判明している。

⑦総コレステロールについて

総コレステロールとは、HDL、LDL、VLDL、カイロミクロンなどのリポタンパクに含 まれるコレステロールを合わせた値である。総コレステロールの中のコレステロールは 2 つのタイプがあり、他のものと結合せず、水に溶ける遊離型コレステロールと遊離型コレ ステロールの水酸基と脂肪酸のカルボキシル基が結合した、水には溶けない性質のエステ ル型コレステロールがある。総コレステロールの正常値は120〜220mg/dl(日本人の成人 のコレステロール値の基準値は、130〜200mg/dlが正常値、201〜219mg/dlが境界値、

220mg/dl 以上のコレステロール値を計測した場合は高コレステロール血症と診断され、

治療が必要)で、糖尿病や肥満症、ネフローゼ症候群、胆石症などでは総コレステロール の値は高く、肝硬変や甲状腺機能亢進症などでは総コレステロールの値は低くなる。

⑧中性脂肪について

中性脂肪は体内でエネルギーを作り出す重要な物質であるが、多すぎると動脈硬化など の原因となる。そのため、動脈硬化を調べる時に中性脂肪を検査する。基準値は 150g/dl 未満で、基準値より高い場合は高脂血症、糖尿病、ネフローゼ症候群、甲状腺機能低下症、

脂肪肝、腎不全などの疑い、基準値より低い場合は栄養不良、吸収不良症候群、慢性肝機 能障害などの疑いがある。

(11)

10

⑨HDLコレステロールについて

HDL コレステロールは体内の血管などに付着するコレステロールを除去する働きがあ ることから善玉コレステロールと呼ばれるように高いほど、動脈硬化などのリスクを下げ ることができるコレステロールである。HDL コレステロールの量も生活習慣の影響を受 ける事が多く、喫煙や肥満、運動不足などを原因として下がることがある。HDLコレステ ロール値が小さい場合動脈硬化などのリスクが高まる。HLD コレステロール値は男性の 場合で40〜60mg/dl、女性の場合で45〜65mg/dlが正常値である。男性が40mg/dl未満、

女性が45mg/dl未満の場合は低HDLコレステロール血症と診断される。

⑩LDLコレステロールについて

LDLコレステロールは体内の血管などにコレステロールを運搬する働きがある。そのた め、既に血管にコレステロールが多く付着している場合であっても、LDLコレステロール が多い場合さらにコレステロールを血管に補給し動脈硬化などを引き起こす原因となる。

LDLコレステロール値が高い場合、狭心症や心筋梗塞、脳梗塞、大動脈瘤、抹消動脈硬化 症などの疾患リスクが高まる事が明らかとなっている。LDL コレステロール値は 70〜

120mg/dlが正常値で121〜139mg/dlが境界線、140mg/dl以上になると高LDL血症と診 断される。

⑪空腹時血糖値について

空腹時血糖値とは、血液中のブドウ糖濃度を表す血糖値のうち、食事前(前の食事から

10~14時間後)の空腹時に測定したものである。これは糖代謝機能の検査指標で、糖尿病

などの診断指標の一つとなっている。日本糖尿病学会では、空腹時血糖値は100 mg/dl未 満が正常型、100mg/dl以上110mg/dl未満が正常高値、110mg/dl以上126mg/dl未満が境 界型糖尿病、126mg/dl以上が糖尿病と診断される。また、80mg/dl以上110mg/dl未満が

「優」の評価、100mg/dl以上130mg/dl未満を「良」と評しており、70mg/dl未満は低血 糖のゾーンになる。

(12)

11

⑫糖化ヘモグロビン量について

糖化ヘモグロビン量とは 過去1、2ヶ月の血糖値の状態がわかる値である。これを測定 することで最近の糖尿病の治療状況がわかり、また糖尿病の診断にも用いられる。糖尿病 の診断は空腹時血糖値の測定や尿糖の有無、自覚症状(多尿、多飲など)の有無などで行 れるが、糖尿病患者のタイプによっては、空腹時血糖値は正常、尿にも糖分が含まれてい ないが、食後に異常に血糖値が上がるという糖尿病もある。糖化ヘモグロビン量検査では、

このような見過ごされやすい状態の糖尿病を診断することが可能である。また、血糖値は そのときの食事内容、体調、ストレスなどによって変化しやすい、不安定な値である。一 方、糖化ヘモグロビン量は過去1、2ヶ月の血糖値の変動の平均を表している。よって、糖 尿病治療には糖化ヘモグロビン量を下げることを目標とするほうがよい。評価基準は、糖 化ヘモグロビン量が10.0%以上で非常に悪い、8.0%以上10.0%未満で悪い、治療法の見直 し、6.6%以上8.0%未満でやや高め、5.8%以上6.6%未満で良い、治療の目標値、5.8%未満 で健康な人の値、とされている。

⑬血清クレアチニンについて

クレアチニンとは、血液中の老廃物の一つであり、通常であれば腎臓で濾過され、ほと んどが尿中に排出される。しかし、腎機能が低下していると、尿中に排出されずに血液中 に蓄積される。この血液中のクレアチニンを血清クレアチニンと言う。この血清クレアチ ニン値を調べる血液検査を行うことは、自覚症状の乏しい慢性腎臓病の早期発見に役立つ。

正常値は、男性で0.6~1.2mg/dl、女性で0.4~1.0mg/dlである。大まかな目安として、血 清中のクレアチニン値が8~10以上となれば、透析が必要となる。

⑭腎臓の糸球体濾過量について

腎臓の糸球体濾過量(GFR)とは、単位時間(1分間または24時間)当たりに腎臓の糸 球体により血漿が濾過される量のことである。糸球体濾過量により、腎機能の健常度がわ かり、慢性腎臓病の進行度の判断にも用いられる。血清クレアチニン値を元に糸球体濾過 量を推定した「推算GFR(eGFR)」が一般に用いられる。健康な人では、糸球体濾過量は 100㎖/分/1.73㎡前後である。60㎖/分/1.73㎡未満が持続していれば、腎機能の低下は明 らかであり、慢性腎臓病と診断される。末期慢性腎不全・透析の段階では、GFRは15㎖

/分/1.73㎡未満まで低下してしまう。重症度は以下の5分類に分けられ、腎障害は存在す

(13)

12

るが、GFRは正常または亢進(90以上)、腎障害が存在し、GFR軽度低下(60以上90未 満)、GFR中程度低下(30以上60未満)、GFR高度低下(15以上30未満)、腎不全(15 未満)と診断される。近年、腎臓病は心筋梗塞や脳梗塞などとの関係も深い、大変危険な 病気であることがわかってきた。慢性腎臓病の患者は、健康な人に比べて約2倍の確率で 心筋梗塞にかかるリスクがある、という研究もある。

⑮糖尿病について

人間のからだは動くためのエネルギー源として、食物や飲み物を消化してブドウ糖に変 え、血液に乗せてからだ中の細胞に届けている。血液中にそのブドウ糖がどのくらいある かを示すのが血糖値である。糖尿病とは、この血糖が多くなりすぎた状態を指す。その原 因は血糖を調整するホルモン「インスリン」の不具合である。インスリンの分泌が足りな くなったり働きが弱くなったりして血糖の調整ができなくなると、血糖値が高くなりすぎ た状態が続き,糖尿病と診断される。健常者では、空腹時の血糖値は 110mg/dl 以下であ り、食事をして血糖値が上昇しても、膵臓すいぞうの β 細胞からインスリンが分泌され2 時間もすると空腹時のレベルに戻る。インスリン分泌低下あるいはインスリン抵抗性を来 すと、食後の血糖値が上昇し、次第に空腹時の血糖値も上昇してくる。高血糖が長く続く と、全身の血管が障害されて、冠動脈硬化・狭窄,脳動脈硬化・狭窄などの大血管障害や、

腎障害、網膜症や神経障害につながる細小血管障害を引き起こす。血管障害が進行すると、

心筋梗塞や脳梗塞、透析、失明,足切断という深刻な事態になる。

⑰高脂血症について

高脂肪血症とは、血液中のコレステロールや中性脂肪が増加した状態である。コレステ ロールは、ホルモンの材料になる、細胞膜を作る、脂肪の吸収を助ける、といった働きが あり、中性脂肪はエネルギー源として働くが、過剰になるとからだに障害をもたらす。糖尿 病と同様に自覚症状に乏しく、動脈硬化によって心筋梗塞、脳梗塞など重篤な病気を引き 起こす。高脂血症の診断基準は、総コレステロール値が 220mg/dl 以上、中性脂肪が 150mg/d/以上、HDLコレステロール値が40mg/dl未満である。

(14)

13

⑱慢性腎臓病について

慢性腎臓病とは、腎臓の働きが健康な人の60%以下に低下するか、あるいはタンパク尿 が出るといった腎臓の異常が続く状態を言う。腎臓の機能が10%以下にまで低下すると、

生命に危険を来し、透析治療を余儀なくされる。さらに慢性腎臓病は、透析になるだけで はなく、心筋梗塞や脳卒中といった心血管疾患の重大な危険因子になっている。

以上のように、今回扱った説明変数はいずれも心筋梗塞について何かしらの関係性を持 っているが、医学的な観点からはどの変数が心筋梗塞に関係性が強い、または必要性を判 断することは難しいことが分かった。

(15)

14

第 3 章 遺伝子情報の SNP

本 章 で は 今 回 の 研 究 で 扱 う 遺 伝 子 情 報 の 一 塩 基 多 型 (Single Nucleotide

Polymorphism ; 以下、SNPという)について述べる。生物はすべての細胞内に染色体を

もっており、その染色体を構成するものが遺伝子である。遺伝子はその生物一個体の性質 の情報を有すものであり、生体の設計図の役割を果たしている[10]。

図3 DNAの構造(塩基対)

3.1 塩基配列

遺伝子の性質は4種類の塩基の並び方、すなわち塩基配列によって決定される。4種類 の塩基とはアデニン、グアニン、シトシンそしてチミンであり、一般的にそれらの塩基は 図3のように、頭文字であるA、G、C、Tを用いて表現される。

図3.1 塩基配列の一般的な表現

(16)

15

3.2 SNP(スニップ)

ヒトの塩基配列はそのほとんどが同じである。しかし、個体によって差異が現れる特定 の箇所が存在する。その箇所のことをSNP(スニップ)と呼んでいる。SNPとは一塩基 多型(Single Nucleotide Polymorphism)の略称である。ヒトの場合、SNPは300万~

1000万個ほど存在すると言われており、その数は遺伝子全体の約0.1%に当たる。SNPが その個体自身の体質を決定することは確実視されている。よって、病気のかかりやすさ、

あるいは薬の効きやすさ等はこのSNPにより決定される。そのため、SNPを解析するこ とにより、個人の体質を知ることが可能となる。

また、ヒトは同じ遺伝子の塩基配列を2つ持っており、SNPは一か所につき2つ存在 することになる。そこで、SNPはA/AやC/T、G/Gのように二つの塩基の組み合わせに よって表現される。

図3.2 SNP

3.3 SNPの違いによる体質の変化

前節にて、SNPにより個人の体質が決定することを述べた。この節では、その具体例を 一つ紹介する。

ヒトには、お酒に強い体質、弱い体質を決めるSNPが存在する。このSNPによりヒト のアルコールに対する強さが決定される。このSNPがG(グアニン)の場合酒に強く、A

(アデニン)の場合酒に弱くなる。具体的に述べると、以下の通りである[11]。

お酒の主成分はエタノール(エチルアルコール)である。エタノールの分解経路は下の 図3.3.1のように示される。

(17)

16

図3.3.1 エタノールの分解経路

胃や腸から吸収されたエタノールは、主に肝臓でアルコールデヒドロゲナーゼ(アルコー ル脱水素酵素、ADH)という酵素により分解される。ADHはエタノールを酸化してアセ トアルデヒドに変化させる。この反応を行う酵素には異なる3種類あり、ADH1、ADH2、

ADH3と名付けられている。生じたアセトアルデヒドは毒性を持った物質である。建材な どに含まれてシックホーム症候群を引き起こすホルムアルデヒドなどアルデヒドと呼ばれ る一群の物質は反応性が強いため、毒性をもつ。このアセトアルデヒドを速やかに分解す るためにアルデヒドデヒドロゲナーゼ(アルデヒド脱水素酵素、ALDH)という酵素が働 き酢酸に変化させ、酢酸は最終的には二酸化炭素と水に分解される。アセトアルデヒドを 酢酸に変化させるALDHという酵素には2種類あり、それぞれALDH1とALDH2と名 付けられている。主に働くのは後者である。酵素はタンパク質で作られており、タンパク 質はアミノ酸がつながってできている。いろいろなタンパク質を作っているアミノ酸の種 類とそのつながりの順序は遺伝子によって決められており、ALDH2 の場合は、ヒトの第 12 染色体にその遺伝子があり、この遺伝子に基づいて作られた ALDH2 酵素タンパク質 は細胞中のミトコンドリアに運ばれて働く。この酵素の487番目のアミノ酸は欧米人では

(18)

17

どの人もグルタミン酸であるが、日本人の中にはこのグルタミン酸の代わりにリシンとい うアミノ酸になっている人がかなりいる。487番目がグルタミン酸のアルデヒドデヒドロ ゲナーゼがALDH2*1、リシンのものがALDH2*2と名付けられている。このALDH2*2 ではアミノ酸が1個置き換わっただけなのに、アセトアルデヒドを酢酸に変える能力がな くなっている。そのため、ALDH2*2をもっている人は、お酒を飲むとエタノールから生 じたアセトアルデヒドが分解され難く、これの毒性により、顔が赤くなったり、どきどき したり、気分が悪くなったりする。アルデヒドデヒドロゲナーゼ、ALDH2の487番目の アミノ酸がグルタミン酸やリシンになるということは、この酵素タンパク質の設計図であ る遺伝子の違いによるもので、親から子に伝わる性質である。ALDH2*1の遺伝子で上に 述べた487番目のグルタミン酸を決めているのはこの中で終わりの方のGAAという部分 である。下の図3.3.2のように、ALDH2*2の遺伝子では、この最初のGがAとなってい るため、ALDH2*2 酵素タンパク質ではグルタミン酸の代わりに遺伝子中の AAAで指定 されるリシンというアミノ酸になってしまう。

図3.3.2 ALDH2遺伝子の塩基配列

遺伝子は両親から受け継ぐため、日本人の中には両親から共に*1 の遺伝子を貰った*1/*1 の人と両親から共に*2の遺伝子を貰った人(*2/*2)、それからそれぞれ*1と*2の遺伝子 を貰った人(*1/*2)がいる。*2/*2の人はALDH2の活性が全くない。ALDH2という酵 素はこの遺伝子からできてくるものが4個集まって作られている。この中に1つでも*2の 遺伝子から作られるものが混じっていると活性がないため、両親から*1 と*2 をそれぞれ 貰った*1/*2の人のALDH2の活性はALDH2*1の活性の1/16すなわち約6%になってし まう。

(19)

18

第 4 章 ロジスティック回帰分析

説明変数と被説明変数の間の関係を分析するためにロジスティック回帰分析を使用する。

ここではロジスティック回帰分析の他、変数選択法、モデル選択規準について述べる。

4.1 ベルヌイ分布

確率関数が

𝑓𝑝(𝑦) = 𝑝𝑦(1 − 𝑝)1−𝑦, 𝑦 ∈ {0, 1} (1) で与えられる確率分布をベルヌイ分布といい、p ∈ [0, 1] はベルヌイ分布のパラメータで ある。

Yがベルヌイ分布に従うとき、ℙ(Y = 1) = p および ℙ(Y = 0) = 1-pである。(1)は

𝑓𝑝(𝑦) = (1 − p) ( 𝑝 1 − 𝑝)

𝑦

= (1 − 𝑝)exp(𝑦 log ( 𝑝

1 − 𝑝)) (2)

と書けるから、自然指数分布族である。このときの自然パラメータはlog (1−𝑝𝑝 )で与えられ、

これは対数オッズ比である。

4.2 二項分布

𝑌1, 𝑌2, …, 𝑌𝑚 を独立にパラメータpのベルヌイ分布に従う確率変数とする。このとき、

Y = 𝑚𝑖=1𝑌𝑖 は{𝑌𝑖= 1} が生じる数を表しており、0 ≤ Y ≤ mである。Yの確率関数は、

𝑓𝑚,𝑝(𝑦) = (𝑚

𝑦 ) 𝑝𝑦(1 − 𝑝)𝑚−𝑦, 𝑦 = 0, 1, … , 𝑚 (3) で与えられる。この確率分布をパラメータ(m, p) を持つ二項分布という。したがって、(1, p) の二項分布は、パラメータpのベルヌイ分布である。

(20)

19

4.3 ロジスティック回帰分析

説明変数と2値変数である目的変数の組(𝕩, y) について、𝕩 =(𝑥1, 𝑥2, …, 𝑥𝑟) が与えら れた条件の下での y ∈ {0, 1} の条件付き分布がパラメータ p(x) のベルヌイ分布に従うモ デルを考える。すなわち、𝕩 を要因として、ある事象の発生の有無をモデル化するもので ある。(𝕩, y) についての独立なデータを

(𝕩𝑖, 𝑦𝑖) ∶ 𝕩𝑖= (𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑟)𝑡 ∈ ℝ𝑟, 𝑦𝑖 ∈ {0, 1} (4) とする。説明変数について、𝑥𝑖1 = 1, 𝑖 = 0, 1, … , 𝑛 とする。すなわち、説明変数 𝑥1 は定 数とする。𝕩 = (𝑥1, … , 𝑥𝑟)𝑡 に対して、β = (β1, β2, … , β𝑟)𝑡∈ ℝ𝑟 が生起確率を決めるパラメ ータとすると、

p(𝕩) = 𝑝𝛽(𝕩) = exp( β0 + β1 x1+ β2 x2+ ⋯ + β𝑟 x𝑟) 1 + exp( β0 + β1 x1+ β2 x2+ ⋯ + β𝑟 x𝑟)

= 1

1 + exp [−(β0+ β1𝑥1+ β2𝑥2+ ⋯ + βr𝑥r)] (5) のベルヌイ分布に従うモデルである。このモデルをロジットモデルあるいはロジスティッ クモデルと言う。その確率関数は

p(𝕩) = 𝑝𝑦(1 − 𝑝)1−𝑦 (6)

で与えられる。

図4.3 ロジスティックモデルの構築

(21)

20

𝑦𝑖= 1, 2, … , 𝑛 は独立であるとし、説明変数は非確率的であるとする。𝑝𝑖= 𝑝𝛽(𝕩𝑖)と書 くとき、ロジスティックモデルの尤度は、

L(β) = ∏ 𝑓𝑝𝑖

𝑛

𝑖=1

(𝑦𝑖 | 𝕩𝑖) = ∏ exp

𝑛

𝑖=1

{log(1 − 𝑝𝑖)} exp{𝑦𝑖log(𝑝𝑖(1 − 𝑝𝑖))} (7)

と書ける。よって、対数尤度は

𝑙(β) = ∑ {log(1 − 𝑝𝑖) + 𝑦𝑖log ( 𝑝𝑖

1 − 𝑝𝑖)}

𝑛

𝑖=1

= ∑{−log(1 − exp(𝛽 𝕩𝑖)) + 𝑦𝑖(𝛽𝕩𝑖)}

𝑛

𝑖=1

(8)

(9)

と書ける。このとき、スコア関数は

𝜕𝑙(𝛽)

𝜕𝛽 = ∑(𝑦𝑖− 𝑝𝑖)

𝑛

𝑖=1

𝕩𝑖 (10)

となる。𝛽 は尤度方程式に非線形が含まれるから、最尤推定量は逐次法により求める必要 がある。一般に、この方法としてNewton-Raphson法が用いられる。

𝜕𝑙(𝛽)

𝜕𝛽𝑘𝜕𝛽𝑙= 𝜕

𝜕𝛽𝑙∑(𝑦𝑖− 𝑝𝑖)𝑥𝑖𝑘

𝑛

𝑖=1

= − ∑ 𝑝𝑖(1 − 𝑝𝑖)𝑥𝑖𝑙𝑥𝑖𝑘

𝑛

𝑖=1

(11)

だから、ヘッセ行列は

𝜕𝑙(𝛽)

𝜕𝛽𝜕𝛽= − ∑ 𝑝𝑖(1 − 𝑝𝑖)𝑥𝑖𝑥𝑖

𝑛

𝑖=1

(12)

となる。このNewton-Raphson法のアルゴリズムは、特にFisherのスコアリング法と呼 ばれている。このとき、𝕏 = (𝑥1, 𝑥2, … , 𝑥𝑛)𝑡 とおけば、

𝜕𝑙(𝛽)

𝜕𝛽 = 𝕏𝑑 (13)

𝜕𝑙(𝛽)

𝜕𝛽𝜕𝛽= −𝕏𝐷𝕏 (14)

と書ける。ただし、𝑑は第i 要素を𝑦𝑖− 𝑝𝑖とするn次元ベクトル、Dは第( i, i )要素が𝑝𝑖(1 −

𝑝𝑖)である対角行列である。したがって、Newton-Raphson法におけるt回目の更新式は、

(22)

21 𝛽(𝑡) = 𝛽(𝑡 − 1) − (𝜕𝑙(𝛽)

𝜕𝛽𝜕𝛽)

−1𝜕𝑙(𝛽)

𝜕𝛽 |

𝛽=𝛽(𝑡−1)

(15)

で与えられ、これに(13)と(14)を代入すれば求められる[12]。

4.4 変数選択法

心筋梗塞に影響を及ぼす要因を見つける問題は、説明変数の変数選択の問題である。変 数選択法には変数増加法(Forward Selection Method)と変数減少法(Backward Selection Method)がある[13]。

4.4.1 変数増加法

変数増加法では、説明変数が1つも含まれないモデルから始まり、変数を1つずつ増 加させる。別名、前進選択法とも呼ばれる。変数選択の手順は以下の通りである。

図4.4.1 変数増加法の手順

① n個の説明変数候補それぞれを使って、説明変数1つだけのモデルを推定し、モデル 選択規準の最小値 𝑀𝑗1 をとる説明変数 𝑥𝑗1 を採用する。

② 次に、残った(n − 1)個の変数から一つの変数を選び、それと最初に採用した変数を説 明変数としてモデルを推定し、推定されたモデルについてモデル選択規準を計算す る。この手順を(n − 1)個の変数のすべてについて行うと、(n − 1)個の組の説明変数に

(23)

22

対してのモデル選択規準が計算できる。その中でモデル選択規準を最小とする組み合 わせを選ぶ。

③ この手順を、モデル選択規準が大きくなるまで、採用する変数の数を増やしながら実 行する。

④ このように順々に採用する変数を増やしていき、どれを追加してもモデル選択規準が 上がる場合そこで終了する。また、最後の変数まで行ってしまったら、すべての説明 変数を採用して終了する。

4.4.2 変数減少法

変数減少法では、変数選択の際、説明変数の候補すべてが含まれたモデルから始まり、

変数を1つずつ減少させる。変数増加法の逆であり、別名後退消去法とも呼ばれる。変 数選択の手順は以下の通りである。

図4.4.2 変数減少法の手順

① n個すべての説明変数候補を採用したモデルを推定し、モデル選択規準を計算する。

② 次に、説明変数を一つ(n個の内の一つ)を除いてモデルを推定し、モデル選択規準 を計算する。n個すべての説明変数についてこれを行い、モデル選択規準の最大値 𝑀𝑗1 をとる説明変数 𝑥𝑗1 を除外する。このモデル選択規準がn個すべての説明変数候

(24)

23

補を採用したモデルのモデル選択規準より大きければ、さらに説明変数を一つ除いた モデルのモデル選択規準と比較する。

③ この手順を、モデル選択規準が小さくなるまで、除外する変数の数を増やしながら実 行する。

④ このように順々に採用する変数を減らしていき、どれを除外してもその値が下がる場 合、そこで終了する。また、モデルに含まれる変数がなくなってしまったら終了で、

その場合は定数項だけの式になる。

4.5 モデル選択規準

4.4の変数選択法における停止規準であるモデル選択規準としては、AIC(Akaike Information Criterion)、MDL(Minimum Description Length)およびクロスバリデー ションを用いる。

4.5.1 AIC(Akaike Information Criterion)

AICは予測誤差の期待値の不偏推定量であり、

AIC = −2 log 𝐿 + 2k

L:ロジスティック回帰の最大尤度、k:パラメータ数)

(16)

の式で与えられる。第一項はモデルのデータに対する当てはまりであり、当てはまりが良 いほど小さくなる。第二項はモデルの複雑さに対するペナルティの形であり、パラメータ 数が多いほど大きくなる。よって、当てはまりが同程度ならば、単純なモデルが良いとい う「ケチの原理」が内在する規準である。変数選択法としては、AICを最小にする変数 を選択することを考える[14]。

4.5.2 MDL(Minimum Description Length)

MDLは情報理論的観点から導かれた基準で、データの記述長を表しており、

MDL = − log 𝐿 +𝑘 log 𝑛 2

L:ロジスティック回帰の最大尤度、k:パラメータ数、n:データ数)

(17)

の式で与えられる。AICと同様に、第一項がモデルのデータに対する当てはまり、第二 項がモデルの複雑さに対するペナルティの形であり、当てはまりが同程度ならば、単純な

(25)

24

モデルが良いとされる。変数選択法としては、MDLを最小にする変数を選択することを 考える[14]。

4.5.3 クロスバリデーション(Cross Validation Estimate = CVEと表す)

クロスバリデーションは、交差検証(交差検定)のことで、モデルの推定に用いるデー タとモデルの評価に用いるデータを分離して行う方法である。次にこの方法の手順を示す [14][15]。

① 𝑛 個の観測データの中から 𝑖 番目のデータ (𝑦𝑖, 𝕩𝑖) を取り除いた残りの(𝑛 − 1)個の データに基づいてモデルを推定し、これを𝑢(𝕩 ; 𝛽̂(−𝑖))とする。

② ①で取り除いた 𝑖 番目のデータ (𝑦𝑖, 𝕩𝑖) に対して、{𝑦𝑖− 𝑢(𝕩𝑖 ; 𝛽̂(−𝑖))}2の値を求め る。

③ すべての 𝑖 ∈ {1, 2, … , 𝑛} に対して、①と②を反復実行し、

CVE = 1

𝑛 ∑{𝑦𝑖− 𝑢(𝕩𝑖 ; 𝛽̂(−𝑖))}2

𝑛

𝑖=1

(18)

を、観測データに基づいて推定したモデル選択規準とする。

クロスバリデーションは、一般には 𝑛 個の観測データを 𝑘 個のデータ集合

{𝜒1, 𝜒2, … , 𝜒𝑘} に分割する。ただし、分割は各データ集合に含まれるデータの個数がほぼ

等しくなるように行われるとする。分割した 𝑖 番目のデータ 𝜒𝑖 を除く(𝑘 − 1)個のデー タ集合でモデルを推定し、このモデルを、取り除いた 𝑛

𝑘 個のデータを含む 𝜒𝑖 で評価す る。この手順を𝑖 = 1, 2, … , 𝑘 に対して順に実行して、この平均値を予測2乗誤差の推定 値とする。この方法は 𝑘分割クロスバリデーションと呼ばれる。この方法では下の図

4.3.2のようにモデルの構築を行う。変数選択法としては、予測2乗誤差の推定値

(CVE)を最小にする変数を選択することを考える。

(26)

25

図4.3.2 クロスバリデーションのモデルの構築

これらのモデル選択規準は、基本的にAICとCVEは同程度の数の変数を選び、MDL はそれより少ない数の変数を選ぶ。また、CVEはばらつきが比較的大きくなる。そのた め、信頼性はそれほど高くないと考えられ、この信頼性を高めるために、次の章で示すブ ートストラップ法を導入する。

(27)

26

第 5 章 統計的分析方法

本研究での解析では、ブートストラップ法を導入し、各ブートストラップサンプルに対 して、モデルをあてはめ、変数選択を行い、その選択頻度に基づいて、心筋梗塞に対する 説明変数の重要度を考察する。また、解析にあたって、説明変数の数が多いため、独立性 の検定を用いて変数の絞り込みを行う。以下に、変数選択法とブートストラップ法を組み 合わせた、説明変数の重要度の分析方法について述べる。

5.1 ブートストラップ法

ブートストラップ法とは、1 つの標本から復元抽出を繰り返して大量の標本を生成し、

それらの標本から推定値を計算し、母集団の性質やモデルの推測の誤差などを分析する方 法である。この方法では、母数の推定量は標本から生成したブートストラップ標本の推定 量 を用いて推定する。1つの標本から復元抽出を繰り返して生成する標本をブートストラ ップ標本と呼ぶ。図5.1にブートストラップ法のイメージを示す[16][17]。

図5.1 ブートストラップ法のイメージ

(28)

27

データを χ で表し、データを構成する要素をベクトル 𝕩 で表す。データは

χ = {𝕩1, 𝕩2, … , 𝕩𝑖, … , 𝕩𝑛} のように、𝑛 個の要素 𝕩1, 𝕩2, … , 𝕩𝑖, … , 𝕩𝑛 で構成されている。デ ータのことをサンプルまたは標本ともいい、この 𝑛 はサンプルサイズと呼ばれる。ブート ストラップ法では、次の手順を実行する。

① 整数 𝑛 を一つ定める。特に断らない限り𝑛= 𝑛である。また十分に大きな反復回数 𝐵 を定める。

② {1, 2, … , 𝑛} から等確率(すなわち 1

𝑛 )でランダムに整数を選ぶ。これを 𝑛 回繰り返 して得られた整数列を 𝑖1, 𝑖2, … , 𝑖𝑛 とする。同じ整数が複数回選ばれていてもよい。

③ 得られた整数を添え字とする要素をデータ χ から取り出して 𝕩1 = 𝕩𝑖1, 𝕩2 = 𝕩𝑖2, … , 𝕩𝑛

= 𝕩𝑖

𝑛′

とおき、データ 𝜒

𝜒 = {𝕩1, 𝕩2, … , 𝕩𝑛} で与える。

④ 上記の②と③を 𝐵 回繰り返して得られた 𝐵 個のデータを 𝜒(1), 𝜒(2), … , 𝜒(𝐵)

とおく。これから𝜃̂∗𝑏= 𝜃̂(𝜒𝐵), 𝑏 = 1, … , 𝐵 を計算する。

今回の研究では、𝐵 = 100として、100回ブートストラップ標本を生成し、各ブートストラ ップ標本に基づいてモデルを当てはめ、それぞれのモデル選択規準によって変数選択を行 う。各説明変数が100回中何回選択されたか、その割合を選択頻度として算出し、それを 説明変数の重要性の尺度とする。

(29)

28

5.2 独立性の検定

解析にあたり、説明変数の数、特にSNPの数が多いことから、SNPを絞り込むために、

独立性の検定を行う。

5.2.1 カイ二乗検定

カイ二乗検定とは、2つの変数に対する2つの観察(2 × 2分割表で表される)が互いに 独立かどうかを検定する方法である。検定の手順は以下の通りである[18]。

まず、仮説の設定を

帰無仮説 𝐻0 :2変数は独立である(関連がない)

対立仮説 𝐻1 :2変数は独立ではない(関連がある)

のように行う。

表5.3 クロス集計表(2×2分割表)

𝐵1 𝐵2

𝐴1 a b 𝑅1

𝐴2 c d 𝑅2

𝐶1 𝐶2 N

表5.3の各セルの出現度数が互いに独立であるとすると、

aの期待度数 𝐸𝑎𝐶1𝑅1

𝑁

bの期待度数 𝐸𝑏𝐶2𝑅1

𝑁

cの期待度数 𝐸𝑐𝐶1𝑅2

𝑁

dの期待度数 𝐸𝑑𝐶2𝑅2

𝑁

となる。ここに、𝐶1、𝐶2、𝑅1、𝑅2は周辺度数で、各行・列の合計である。

これらから、期待度数と観察度数との偏りを

𝜒2= (𝑎 − 𝐸𝑎)2

𝐸𝑎 + (𝑏 − 𝐸𝑏)2

𝐸𝑏 + (𝑐 − 𝐸𝑐)2

𝐸𝑐 + (𝑑 − 𝐸𝑑)2

𝐸𝑑 (19)

として求める。この式の、各期待値Eを、abcdNで置き換えて整理すると、

𝜒2= (𝑎𝑑 − 𝑏𝑐)2𝑁

(𝑎 + 𝑏)(𝑐 + 𝑑)(𝑎 + 𝑐)(𝑏 + 𝑑) ← 𝑅1𝑅2𝐶1𝐶2 (20)

(30)

29

という簡単な形になる。この𝜒2値は自由度1の𝜒2分布に従うことが知られ、これを利用し て、期待度数からの偏りの有意性を判定する。

自由度1、有意水準 α の𝜒2値(𝜒2𝛼)と比較して、

𝜒2≤ 𝜒2𝛼のとき、2変数は独立である(関連がある)とは言えない(判定保留)

𝜒2> 𝜒2𝛼のとき、帰無仮説𝐻0を棄却し、2変数は独立である(関連がない)と判断 のようにして、判定を行う。

5.2.2 Fisherの直接確率検定

期待度数が5以下のセルがあるとき、カイ二乗検定では確率が低めに計算されてしまう。

といって、すべての順列、組み合わせを考えて直接その確率を計算するのは困難である。

しかし、周辺度数を固定すれば、より簡単に行・列の偏りを計算できる。Fisherの直接確 率検定は、そのような条件付き確率を使った検定法で、その計算結果は必ずしもカイ二乗 検定の計算と合わないが、一般にデータ数が少ない場合に、カイ二乗検定の欠点を補うも のとして利用される。検定の手順は以下の通りである[18]。

仮説の設定は、カイ二乗検定と同じで

帰無仮説 𝐻0 :2変数は独立である(関連がない)

対立仮説 𝐻1 :2変数は独立ではない(関連がある)

である。確率の計算の手順は

① 周辺度数𝐶1、𝐶2、𝑅1、𝑅2を変化させずにa、b、c、dを変化させて、対角線上への偏り がより著名となる場合をすべて列挙する。例えば、図5.3.2のようにする。

2 8 10 1 9 10 0 10 10

6 4 10 ➡ 7 3 10 ➡ 8 2 10

8 12 20 8 12 20 8 12 20

𝑃1 𝑃2 𝑃3 図5.2.2 偏りのある場合のPの例

② それぞれの場合につき、次の式により確率を計算する。

P = 𝐶1𝐶𝑎×𝐶2𝐶𝑏

𝑁𝐶𝑅1

= 𝐶1! 𝐶2! 𝑅1! 𝑅2!

𝑁! 𝑎! 𝑏! 𝑐! 𝑑! (21)

(31)

30

これは、全体Nから第1行を選ぶ組み合わせ(𝑁𝐶𝑅1)の中で、第1列からa個(𝐶1𝐶𝑎)取 り、かつ第2列からb個(𝐶2𝐶𝑏)取り出す確率を意味する。

図5.3.2の例の場合

𝑃1= 10! 10! 8! 12!

20! 2! 8! 6! 4! 𝑃2=10! 10! 8! 12!

20! 1! 9! 7! 3! 𝑃3= 10! 10! 8! 12!

20! 1! 10! 8! 2!

となる。

このようにして各パターンの確率の合計P

P = 𝑃1+ 𝑃2+ 𝑃3+ ⋯ を求め、有意水準 α と比較する。

P ≥ α のとき、2変数は独立である(関連がある)とは言えない(判定保留)

P < 𝛼 のとき、帰無仮説𝐻0を棄却し、2変数は独立である(関連がない)と判断

のようにして判定を行う。

図5.3.2の例では、有意水準をα = 0.05 とすると、

P = 𝑃1+ 𝑃2+ 𝑃3= 0.075 + 0.095 + 0.00036 = 0.0849

となり、P ≥ α で帰無仮説𝐻0を棄却できないので、2変数は独立であるとは言えない。

5.2.3 選択されたSNP

SNPは3値であるため、例えばSNPがA/A、A/G、G/Gの場合、クロス集計表は下の 表5.2.3のように表される。

表5.2.3 SNPのクロス集計表

1(発症) 0(非発症)

A a b 𝑅1

AG c d 𝑅2

G e f 𝑅3

𝐶1 𝐶2 N

表5.2.3のクロス集計表に基づいて、5.3.1、5.3.2より、有意水準 𝛼 = 0.05 の下で選択さ れたSNPは、

心筋梗塞発症の有無

S N P

(32)

31 カイ二乗検定では

ID0466、ID0472、ID0473、ID0474、ID0484、ID0486、ID0499、ID0502、ID0505、ID0514、

ID0515、ID0517、ID0519、ID0521、ID0522、ID0524、ID0537、ID0541、ID0545、ID0548、

ID0549、ID0558、ID0564、ID0570 の24個、Fisherの直接確率検定では

ID0466、ID0468、ID0473、ID0474、ID0476、ID0484、ID0488、ID0500、ID0502、ID0505、

ID0506、ID0507、ID0514、ID0515、ID0524、ID0525、ID0526、ID0532、ID0538、ID0539、

ID0545、ID0548、ID0550、ID0556、ID0557、ID0570、ID0571 の27個である。

今回の研究では、SNP のデータ数の偏りを考慮して、Fisher の直接確率検定の結果を 元にロジスティック回帰分析を行うSNPを予め絞ることにする。

5.3 変数選択の結果

Fisherの直接確率検定により、絞り込んだ説明変数の下で、ロジスティック回帰により

心筋梗塞発症の有無をモデル化する。その際、変数選択の信頼性を保つために用いるブー トストラップ法に加え、変数選択法(変数増加法、変数減少法)、モデル選択規準(AIC、

MDL、CVE)を組み合わせ、変数の重要度を6通りの方法で分析する。以下では、各ブー

トストラップ標本でモデル選択規準ごとに変数増加法、変数減少法を用いて心筋梗塞と関 係性が強い変数を調べ、選択される相対頻度が0.5以上の変数を高い頻度の順に示す。こ こで目安とする相対頻度が0.5とは、変数が1

2で選ばれるということであり、その変数が必 要かどうかを、コインを投げて出るのが表か裏かで判断することを意味する。

(33)

32 5.3.1 AIC

図5.3.1は各ブートストラップ標本で、モデル選択規準をAICとしたときの心筋梗塞発

症と関係性が強い変数である。

図5.3.1 AICで選択された説明変数

図5.3.1より、AICで選択された説明変数は17項目で、性別、高血圧、高脂血症、糖尿

病は1(100%)の相対頻度で選ばれており、年齢、ID0466、喫煙、ID0502、ID0521…と 続く。

(34)

33 5.3.2 MDL

図5.3.2は各ブートストラップ標本で、モデル選択規準をMDLとしたときの心筋梗塞

発症と関係性が強い変数である。

図5.3.2 MDLで選択された説明変数

図5.3.2より、MDLで選択された説明変数は9項目で、性別、高血圧、高脂血症、糖尿

病が1(100%)の相対頻度で選ばれており、年齢、ID0466、喫煙、ID0502、ID0521が

続く。

(35)

34 5.3.3 CVE

図5.3.3は各ブートストラップ標本で、モデル選択規準をCVEとしたときの心筋梗塞発

症と関係性が強い変数である。

図5.3.3 CVEで選択された説明変数

図5.5.3より、CVEで選択された説明変数は15項目で、年齢、性別、高血圧、高脂血

症、糖尿病が1(100%)の相対頻度で選ばれており、年齢、ID0466、喫煙、ID0502、ID0521 が続く。AICとほぼ同じ順番に選ばれているが、AICで15 番目に選ばれているID0507 はCVEでは選ばれておらず、最後に選ばれているのは肥満指数である。

(36)

35

5.4 SNPについての結果

5.3の結果より、単独で0.8以上の確率で心筋梗塞発症と関係があると選択されたSNP は、ID0466、ID0502、ID0521の3個である。これらの他、単独では発症確率があまり高 くないが、相互作用によって発症確率が高まる場合もあると考えられる。5.2でSNPの絞 り込みに用いた独立性の検定でのp値が0.5以下のものの中から選択されるSNPで、変 数増加法でAICにより選ばれた選択頻度の結果を以下に示す。p値とは、帰無仮説の下で 実際にデータから計算された統計量よりも極端な統計量が観測される確率(今回の場合、

そのSNPが心筋梗塞発症と関係がないという帰無仮説が成立する確率)のことである。

図5.4 AICにより選ばれたSNP

(37)

36

図5.4より、AICによりSNPが選ばれる頻度は赤丸で示す通りID0550が0.80、ID0489 が0.77といずれも約0.8つまり約8割と、青丸で示すID0466、ID0502、ID0521に次い で高い。しかし、5.3.1の結果ではID0550とID0489は選択されていない。これらは5.2 の独立性の検定でのp 値が有意水準である 0.05よりも大きいため、単体では心筋梗塞発 症と関係がないとされて、SNPでの絞り込みで除外されたSNPである。しかし、ロジス ティック回帰としては、AICにより約8割選ばれている。したがって、これらのSNPは 単体では心筋梗塞発症とは関係がないが、他の SNP あるいは要因との組み合わせで心筋 梗塞発症に関連している可能性が高いといえる。このように、ロジスティック回帰分析を 用いると、独立性の検定では見つけられない要因を見つけることができる。

5.5 SNPの特徴

5.4で重要度が高いと考えられる3個のSNPの特徴を示す。

 ID0466

BTN2A1(butyrophilin, subfamily 2, member A1)

機能解析により、Tアリルを有する人では慢性的な血管の炎症が亢進し、血管の弾力性に 関与するエラスチンの発現が低下するとともに、動脈硬化部位のプラーク破裂に関与する マトリックスメタロペプチダーゼ3の発現も亢進し、心筋梗塞の危険度が増加することが わかっている。このように、特定の部分がCからTに置き換わっていると、血管を詰まら せる血栓の形成が促進され、心筋梗塞の発症率が約1.5倍に高まるという[19]。

 ID0502

ILF3(interleukin enhancer binding factor 3, 90kDa)

機能解析により、タンパク質を調節しているILF3遺伝子の3種類のうちG型の2種類を 持つ人の場合、心筋梗塞の発症率が1.35倍になることがわかっている[19]。

 ID0521

NCOR2(nuclear receptor corepressor 2)

タンパク質をコードする遺伝子であり、関連する疾患としては、甲状腺ホルモン抵抗性症 候群、および甲状腺炎がある[20]。

参照

関連したドキュメント

・少なくとも 1 か月間に 1 回以上、1 週間に 1

標値 0 0.00% 2018年度以上 2018年度以上 2017年度以上

また、視覚障害の定義は世界的に良い方の眼の矯正視力が基準となる。 WHO の定義では 矯正視力の 0.05 未満を「失明」 、 0.05 以上

30-45 同上 45-60 同上 0-15 15-30 30-45 45-60 60-75 75-90 90-100 0-15 15-30 30-45 45-60 60-75 75-90 90-100. 2019年度 WWLC

り、高さ3m以上の高木 1 本、高さ1m以上の中木2 本、低木 15

受電電力の最大値・発電機容量・契約電力 公称電圧 2,000kW 未満 6.6kV 2,000kW 以上 10,000kW 未満 22kV 10,000kW 以上 50,000kW 未満 66kV 50,000kW 以上

3:80%以上 2:50%以上 1:50%未満 0:実施無し 3:毎月実施 2:四半期に1回以上 1:年1回以上

3:80%以上 2:50%以上 1:50%未満 0:実施無し 3:毎月実施 2:四半期に1回以上 1:年1回以上