関数データに基づく
統計的解析手法とその応用
繰り返し測定データとは
繰り返し測定データ解析のアプローチ
関数データ解析
データの関数化
関数データ解析の応用例
分析化学(ケモメトリックス)
文字認識
気象データ
生命科学(バイオインフォマティクス)
目次
2各個体に対して時間・位置等の経過と共に
繰り返して計測された形式のデータ
1歳から18歳までの子供の身長の推移
患者に対する病状の経時変化
古典的な多変量解析の直接適用が困難な場合も
データによって個体ごとに観測時点や時点数が異なる
しばしば「データ数<推定パラメータ数」となり
モデル推定が不安定・困難
繰り返し測定データ
3子供の身長の推移
数人の子供の身長を
1歳から18歳まで
毎年計測したもの
2~8歳までは年1回,
それ以外は年2回計測
⇒計測時間が不均一
計測時間の情報を
取り入れた解析をするには?
繰り返し測定データの例1
年齢
子
供
データ出典:Ramsay & Silverman (2005)
子供の身長の推移
数人の子供の身長を
1歳から18歳まで
毎年計測したもの
2~8歳までは年1回,
それ以外は年2回計測
⇒計測時間が不均一
計測時間の情報を
取り入れた解析をするには?
繰り返し測定データの例1
年齢
子
供
データ出典:Ramsay & Silverman (2005)
病状の経時変化
ある細胞が破壊される
病気の患者数名に対して
数回に渡り通院してもらい
細胞の血中濃度を測定
患者ごとに通院時点や
通院回数が異なる
喫煙や性別などの情報
と濃度との関係性を
表すモデルは?
繰り返し測定データの例2
個体 時点 喫煙 性別 濃度 1 0 無 0 45 1 1 無 0 37 : : : : : 1 10 無 0 20 2 0 有 1 38 : : : : : 2 9 有 1 12 : : : : : n 13 無 0 12繰り返し測定データの例2
個体 時点 喫煙 性別 濃度 1 0 無 0 45 1 1 無 0 37 : : : : : 1 10 無 0 20 2 0 有 1 38 : : : : : 2 9 有 1 12 : : : : : n 13 無 0 12 0 10 20 30 40 50 60 0 1 2 3 4 5 6データ出典:DiCiccio & Efron (1996)
病状の経時変化
ある細胞が破壊される
病気の患者数名に対して
数回に渡り通院してもらい
細胞の血中濃度を測定
患者ごとに通院時点や
通院回数が異なる
喫煙や性別などの情報
と濃度との関係性を
表すモデルは?
7繰り返し測定データに対するアプローチ
データの形式や分析目的に応じて
これらの手法は使い分けられる
混合効果モデル
(Mixed effect Model, Laird & Ware, 1982)
変化係数モデル
(Varying-Coefficient Model, Hastie & Tibshirani, 1993)
関数データ解析
(Functional Data Analysis, Ramsay & Silverman, 2005)
3地点それぞれで
12時点のデータが計測
気温の変化は本来
連続的に推移しているもの
各地点のデータを関数化処理し
得られた関数集合を
改めてデータとして扱う
関数データ解析
データを関数として扱う
例:3地点における月別平均気温
離散時点 観測データ 9 関数データ関数データ解析
利点:
経時データの観測誤差を
除去して解析できる
観測時点数が多い場合
データの次元を削減できる
観測時点・観測時点数が
個体ごとに異なっていても
解析が容易
関数データの微分から
さらなる解析が可能
10例:3地点における月別平均気温
離散時点 観測データ 関数データ関数データ解析
主成分分析
判別分析
クラスタリング
回帰分析
古典的な統計手法を
関数データ解析の枠組みに拡張
11例:3地点における月別平均気温
離散時点 観測データ 関数データ基底関数とよばれる
既知の関数群の線形和で曲線を表す
(係数は最尤法等で推定)
基底関数の個数は
情報量規準AICなどで選択
データの関数化-基底関数展開
基底関数の例 基底関数の個数による推定曲線の変化 基底:少 基底:中 基底:多 12Data:
肉標本の近赤外スペクトルデータ
関数回帰モデルの適用例1
(Matsui, Araki & Konishi, 2008)
水分 脂質 蛋白質
肉標本が吸収する近赤外線の 100チャンネル毎の吸収率波長毎の吸収率を
波長の関数データとみなし
成分含有量との関連を見る
成分含有量
近赤外線吸収率の
波長毎の変動は
肉標本の成分含有量に依存
13Data:手書き文字データ
指先の時間経過に伴う軌跡を時間の関数データとして扱い
何の文字が書かれたかを判別
関数回帰モデルの適用例2
指の軌跡を計測 Time Y coo rd inat e X coo rd inate Time(Matsui, Araki & Konishi, 2011)
関数
ロジスティック
回帰モデル
Data:日本の気象データ
繰り返し測定された説明変数(月別平均気温,気圧など)のうち
どれが目的変数(年間総降水量)に影響を与えているかを調査
説明変数を関数データとして扱い
スパース正則化
(Hastie et al., 2015)
を用いて変数選択
関数回帰モデルの適用例3
(Matsui & Konishi, 2011)
目的変数
多発性硬化症(MS)患者の遺伝子発現データ
• MS患者に対する治療の結果
予後良好/不良のグループ間で
発現パターンに差がある遺伝子を
スパース正則化を用いて探索
• 生物学的にもMS治療に重要であるとされる
遺伝子を統計的にも検出
• 推定された係数曲線を見ることで
どの時点で特徴的な差異があるかを
示すことができた
関数回帰モデルの適用例4
0 5 10 15 20 3 .2 3 .6 4 .0 4 .4 time IR F 8 0 5 10 15 20 3 .2 3 .6 4 .0 4 .4 time IR F 8 p= 0.0059 係数関数の推定量 遺伝子発現データ (データ出典:Baranzini et al., 2004) 予後良好 予後不良(Kayano, Matsui et al., 2016)
まとめ
繰り返し測定データとは
繰り返し測定データ解析のアプローチ
関数データ解析
データの関数化
関数データ解析の応用例
分析化学(ケモメトリックス)
文字認識
気象データ
生命科学(バイオインフォマティクス)
17 Hastie, T. and Tibshirani, R. (1993). Varying-coefficient models. J. Roy. Statist. Soc. Ser. B 55, 757— 796.
Hastie, T., Tibshirani, R. and Wainwright, M. (2015). Statistical Learning with Sparsity: The lasso
and Generalization. Chapman & Hall/CRS, Boca Raton.
Kayano, M.*, Matsui, H.*, Yamaguchi, R., Imoto, S. and Miyano, S. (2016).
Gene set differential analysis of time course expression profiles via sparse estimation in functional logistic model with application to time-dependent biomarker detection. Biostatistics 17, 235-248. (*: Equally contributed)
Laird, N. and Ware, J. (1982). Random-effects models for longitudinal data. Biometrics 38, 963-974. Matsui, H. (2011). Variable selection for functional regression models via the L1 regularization.
Comput. Statist. Data Anal. 55, 3304-3310.
Matsui, H., Araki, Y. and Konishi, S. (2008). Multivariate regression modeling for functional data. J.
Data Sci. 6, 313-331.
Matsui, H., Araki, T. and Konishi, S. (2011). Multiclass functional discriminant analysis and its application to gesture recognition. J. Classification 28, 227-243.
Ramsay, J. O. and Silverman, B. W. (2005). Functional data analysis (2nd ed.). Springer, New York.