• 検索結果がありません。

人工知能を用いたアレルゲン性評価のためのアルゴリズム開発

N/A
N/A
Protected

Academic year: 2021

シェア "人工知能を用いたアレルゲン性評価のためのアルゴリズム開発"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

厚生労働科学研究費補助金(食品の安全確保推進研究事業)

「新たなバイオテクノロジーを用いて得られた食品の安全性確保と リスクコミュニケーションのための研究」

分担研究報告書

人工知能を用いたアレルゲン性評価のためのアルゴリズム開発

研究分担者 竹内 一郎 (名古屋工業大学)

研究要旨:

ゲノム編集技術などを用いて人工的に生成した食品のアレルゲン性を確認する方法は明らかになって いない。アレルゲン性の主要な識別子とされる単一の因子は知られておらず、複数の因子が複雑に関連 することでアレルゲン性を持つことが示唆されている。また、人工的に生成された食品のアレルゲン性 を都度に実験的に検証するのは様々なコストがかかり、現実的でない。そこで、本課題では、人工知能や データ科学のアプローチを用い、食品のアレルゲン性を高精度で予測できるシステムを開発することを 目指す。これまでに、 様々なアレルゲン性を判定・予測のための分析ツールが開発されてきた。残念な がら、これら既存の方法には様々な問題点が存在する。国際連合食糧農業機関/世界保健機関によるガイ ドラインはアミノ酸配列の類似性に基づく規準であり、精度が低く、大規模データの分析には適してい ない。また、既知のIgEエピトープに基づく規準、タンパク質構造の物理化学的表現に基づく規準、アミ ノ酸/ジペプチド組成物に基づく規準など、タンパク質に関する生物科学的・物理化学的な知見に基づく 単一、もしくは少数の因子を採用したツールが提案されているが、これらはアレルゲン物質の多様性を 十分に反映できるものとなっていない。本課題では、(1) 大規模なデータベースの情報を活用し、データ 科学的な手法を導入すること、(2) 複数因子の組み合わせによってアレルゲン性を予測する新たな人工 知能技術や機械学習技術を構築すること、(3)アレルゲン性予測の不確実性を定量化する統計学的手法を 確立すること、の3つの方針に基づいて上記の課題の解決を目指す。本研究では、まず、既存のデータベ ースADFSを拡張し、アレルゲン性予測システムの基礎となるアレルゲン/非アレルゲンタンパク情報を 公共データベースから精査整理する。データベースから予測モデルを作成するため、情報処理技術、人工 知能技術、機械学習技術を適切に組み合わせ、アレルゲン性の予測がどの程度可能となるかを検証する。

A. 研究目的

ゲノム編集技術を用いた人工的な農産物の合成 が行えるようになり、これまでにない食用タンパ ク質製品が登場する可能性がある。新たに合成さ れた食用タンパク質は未知の特性を有しており、

特定の人が摂取するとアレルギー反応が起こって しまうリスクがある。免疫反応においてタンパク 質抗原のアミノ酸配列のうち、 抗体が結合する部 位をエピトープと呼び、 エピトープを認識する抗 体を人が持っている場合にアレルギー反応が引き 起こされる。これまでの様々な研究から、 いくつ かのアレルゲンタンパク質において共通のエピト ープ配列が見出されているが、アレルゲン性の単 一因子は知られておらず、複数の因子が複雑に関 連することでアレルゲン性を持つことが示唆され ている。食品タンパク質のアミノ酸配列からアレ ルゲン性を判定・予測するツールが欧米を中心に

開発されている。例えば、アレルゲン性予測ツー ルとしてよく利用されているのがFAO/WHOによっ て提唱された既知アレルゲンタンパク質のアミノ 酸配列相同性を基にした手法であり、Allergen- Online (http://www.allergenonline.org/)で 公 開されている。しかし、 この手法は科学的根拠が 明白でないうえに偽陽性が高いとされている。他 にもいくつかの方法が提案されているが既存の方 法には精度と信頼性の両面で様々な問題点が存在 する。

このような背景のもと、本課題では人工知能や 機械学習のアプローチを用い、食品のアレルゲン 性を高精度で予測できるシステムを開発すること を目指す。本研究では、まず、食品タンパク質の 大規模データベースを整備し、整備されたデータ に機械学習を適用することでアレルゲン性予測シ ステムを構築する。アレルゲン性予測システムを

(2)

高精度なものとし、信頼性を高めるため、特に3 つの情報学的課題を解決する必要がある。

(課題1)まず、アレルゲン性の判定に有用な アミノ酸部分配列を探索し抽出する必要があり、

系列マイニング(sequence mining)と呼ばれるア プローチを利用する。系列マイニングとは、アミ ノ酸配列やDNA塩基配列データから特定の性質を 持つ部分配列を抽出する情報技術である。このう ち、頻出系列マイニングと呼ばれる方法を利用す ると、複数の系列に高頻度で含まれる部分系列を 抽出することができる。本研究では、頻出系列マ イニングを拡張した比較系列マイニングと呼ばれ る方法を利用する。比較系列マイニングとは、2 の系列集合があるとき、一方の集合には高頻度で 出現し、もう一方の集合には低頻度で出現するよ うな部分系列を求める方法である。本研究では、

アレルゲン性を持つ食品タンパク質に頻出し、ア レルゲン性を持たない食品タンパク質には出現し ないようなアミノ酸部分配列を抽出することで、

エピトープの候補を絞り込む。系列マイニングで は、部分配列の候補の数が膨大であるため、デー タ構造やアルゴリズムの工夫が必要となる。

(課題2)続いて、アレルゲン性タンパク質と 非アレルゲン性タンパク質で頻度の異なる部分配 列を利用し、アレルゲン性予測システムを作成す る。このタスクは、教師あり分類学習(supervised classification learning)と呼ばれる機械学習の 問題であり、様々なモデルと様々なアルゴリズム が存在する。本研究で作成するアレルゲン性予測 システムは信頼性が高く、解釈可能なものである ことが望まれる。また、膨大なアミノ酸部分配列 のうち、アレルゲン性の予測に有用なものを選択 する必要もある。このため、スパース線形分類モ デル(sparse linear classification model)の 採用を検討する。スパース線形分類モデルを同定 するためのアルゴリズムとして、スパースロジス ティック回帰分析を利用する。本研究では、モデ ルの予測性能を最適化するため、上述の比較系列 マイニングのアプローチとスパース分類モデル学 習のアプローチを統合した技術を開発する。

(課題3)本研究のような生命科学分野のデー タ分析では、誤差の影響を考慮し、統計的信頼性 を定量化することが望まれる。上述の比較系列マ イニングにおいては、アレルゲン性タンパク質に おける出現頻度と非アレルゲンタンパク質におけ る出現頻度の違いが統計的に有意なものであるこ

とが望まれる。系列マイニングのような探索アル ゴリズムによって抽出された結果の統計的信頼性 を考慮する際には選択バイアスを考慮する必要が ある。比較系列マイニングでは、あらゆる部分配 列の中から頻度の違いの大きなものを探索するた め、非常に大きな選択バイアスが生じてしまう。

この選択バイアスを除去するためのアプローチと し て 、 多 重 検 定 補 正 (multiple hypothesis testing correction)と呼ばれる方法があり、こ れを適用することで抽出されたアミノ酸部分配列 の統計的信頼性を定量化する。

以上の 3つの課題を解決するための情報技術を 開発することにより、高精度で信頼度の高いアレ ルゲン性予測システムの構築を目指す。

B. 研究方法

人工知能や機械学習を用いてアレルゲン性予測 システムを作成するには、アレルゲン性タンパク 質と非アレルゲン性タンパク質のアミノ酸配列デ ータが必要である。本研究では、代表者近藤の所 属する国立医薬品食品衛生研究所の生化学部でこ れまでに蓄積されたデータを利用した。これらの データのうち、アレルゲン性タンパク質データは

COMPARE データベースより、非アレルゲンタンパ

ク質データは UNIPLOT データベースより取得し た。機械学習によって作成したモデルの予測性能 を適切に評価するためには、モデルを学習(作成)

するために利用する訓練データ(training data)

と モ デ ル を 評 価 す る た め に 必 要 な 評 価 デ ー タ

(validation data)を用いなければならない。

個々のタンパク質が独立なもので相関がなけれ ば、機械学習において通常利用されている交差検 証法(cross validation)と呼ばれる方法を用い ることができるが、本研究のタンパク質データに は同一の食品由来のものが多く含まれるため、食 品群ごとに訓練データと評価データを作成する Leave Food-out Cross-Validationと呼ぶ枠組を 導入した。

アレルゲン性予測システムを構築するうえで、

タンパク質アミノ酸配列からアレルゲン性予測に 有用な部分配列を抽出する技術を導入する必要が ある。上述のように、系列データから特定の性質 を持つ部分系列を抽出する技術は系列マイニング と呼ばれ、さまざまな方法が提案されている。系 列マイニングでは、系列を木構造と呼ばれるデー タ構造で表現し、枝刈りと呼ばれる手順を導入す

(3)

ることにより、膨大な部分系列から、特定の性質 を満たすものを探索することができる。本研究の 基本的な方針は、アレルゲン性タンパク質に高頻 度で含まれ、非アレルゲン性タンパク質には低頻 度でしか含まれない(あるいはまったく含まれな い)ような部分配列を探索することである。頻度 の違いを定量化する指標には様々なものがある が、分類精度に基づく指標とフィッシャーの正確 検定(Fisher Exact Test)に基づく指標の2点を 利用した。前者は、部分配列選択と予測モデル学 習を同時に行うためのものである(下記、オプシ ョン2参照)。また、後者は部分系列の統計的信頼 性評価を行うためのものである(下記、オプショ ン3参照)

アレルゲン性タンパク質と非アレルゲン性タン パク質で頻度の異なる部分系列をもとにアレルゲ ン性予測システムを作成した。本研究におけるア レルゲン性予測システムは、タンパク質内に特定 の部分系列が含まれているか否かによってスコア を積み上げる形式のもので、スコアが高いほどア レルゲン性である可能性が大きく、スコアが低い ほど非アレルゲン性である可能性が大きいような ものである。予測システム作成に向けた主な課題 は、アレルゲン性の予測に有用なアミノ酸部分配 列をいかに選択するかにあるが、本研究では3つ のオプションを検討した。

オプション1は、アミノ酸部分配列の選択を通 常の比較マイニングで行ったのち、特徴選択によ って予測に有益な部分配列をさらに絞り込むもの である。オプション2は、我々が開発した技術で、

アミノ酸部分配列の選択と予測モデルの学習を統 合して行い、最適化するものである。オプション 3は、統計的信頼性が十分に高い部分配列のみか ら予測モデルを作成するアプローチである。以下、

次段落、次々段落でオプション2とオプション3 を詳しく述べる。

上述のように、系列から特徴的な部分系列を抽 出する際の課題は候補となる部分系列が膨大であ る点にある。例えば、20種類のアミノ酸において 長さ10 までのアミノ酸の種類は 10 20乗とな り、その頻度を数えたデータデーブルを作ること は実質的に不可能である。そのため、通常の機械 学習で用いられる特徴選択法をそのまま適用する ことは不可能である。我々は、系列マイニングに おける木構造の枝刈りをスパースモデリングにお ける特徴選択と統合する方法としてSafe Pattern

PruningSPP) と 呼 ば れ る 方 法 を 開 発 し た

(Nakagawa et al., KDD2016)。詳細は割愛する が、SPP法では、予測に有用とはなり得ない部分配 列を木構造の枝刈りによって排除できるため、膨 大な数の候補から予測に最適な部分配列を選択す ることができる(部分配列の選択と予測モデルの 学習を逐次的に行う上記のオプション1では最適 性が保証されない)

アレルゲン性予測モデルの信頼性を高めるた め、統計的な有意性を持つ部分配列のみを用いる ことが望ましい。ある部分配列の出現頻度がアレ ルゲン性タンパク質と非アレルゲン性タンパク質 で異なるかどうかの統計的検定を行う場合、フィ ッシャーの正確検定を利用することができる。し かしながら、膨大な部分系列の候補のなかから特 に頻度の違いの大きなものを抽出してきた場合、

選択バイアスが生じてしまい、所望の誤検出率を 制御できなくなる。この選択バイアスの問題は多 重検定問題(multiple hypothesis testing)と呼 ばれており、その補正を行うためにはフィッシャ ーの正確検定によって得られたp値(p-value)を 適切に補正しなくてはならない。もっともよく使 われている多重検定補正にボンフェローニ補正

(Bonferroni correction)と呼ばれるものがある が、選択における候補数が多い場合、補正が保守 的になってしまう問題点が指摘されている。本研 究ではこの問題に対処するため、Westfall Young 法と呼ばれるランダム化に基づく方法を採用し た。

C. 研究結果および考察

2018年度は上記の方法を用いてアレルゲン性予

測システムのプロトタイプを作成し、どの程度の 精度でアレルゲン性予測が可能となるかを検討し た。使用したデータは国立医薬品食品衛生研究所 の 生 化 学 部 で こ れ ま で に 蓄 積 さ れ た も の で 、

COMPARE データベースから取得したアレルゲンタ

ンパク質データ、UNIPLOT データベースから取得 した非アレルゲンタンパク質データから構成され る。それぞれのタンパク質数はアレルゲンデータ 2038 個、非アレルゲンデータが 10574 個であ る。

本研究で構築した予測モデルの精度を従来法で あるAllergen-Online で用いられている方法と比 較した。比較においては、2クラス分類モデルの評 価指標として通常用いられている Area Under

(4)

Curve (AUC)を採用した。AUCとは、横軸に偽陽性 率、縦軸に真陽性率をプロットした ROC曲線の右 下の面積であり、予測モデルが出力したリスクス コアに対するアレルゲン性判定の閾値を変更した 際の平均的な性能の良さを示す指標である。AUC 高いほど予測モデルの性能がよく、低いほど悪い と解釈される。従来法では、長さが6 のアミノ酸 配列のみを考慮した予測モデルであるのに対し、

本研究で作成したモデルは任意の長さの部分配列 で統計的信頼性が保証されているもののみが用い られるという点で異なっている。なお、評価にあ たっては、食品群ごとに訓練データと評価データ を変更させる Leave-Food-Out Cross-Validation を行っている。

図1に統計的に有意なアミノ酸部分配列数を示 す。表の左の「パターン長1~20」とあるのが本研 究において抽出したアミノ酸部分配列数を表して いる。一方、表の右の「パターン長6」とあるのは 長さが 6のアミノ酸部分配列のみに着目した場合 のアミノ酸部分配列数を表している。また、両側 検定とは、アレルゲン性タンパク質に頻度が高い もののみでなく、非アレルゲン性タンパク質に頻 度が高い部分配列も探索した場合を、片側検定と は、アレルゲン性タンパク質に頻度が高いものの みを探索した場合を示している。どのような範囲 の部分配列を探索するかによってWestfall Young 法の多重検定補正結果が異なるため、両側検定と 片側検定の"+"における部分配列数は異なってい る。これらの部分配列のなかには特定食品に由来 して抽出されたものも含まれる可能性がある。一 方、部分配列長を1~20とフレキシブルにした場 合にアレルゲン性タンパク質に頻度が高いものが より多く存在しており、アレルゲン性を特徴づけ るエピトープに対応する部分配列が含まれている ことを示唆している。図2に11種類の食品種ごと AUC値を示す(値が大きいほど予測精度が高く、

小さいほど低い)。青色(Two-Sided;両側検定)と オレンジ色(Upper;片側検定)はパターン長1~

20としたときに抽出された部分配列を用いて作成 したアレルゲン性予測モデルの評価値を、緑色

(Two-Sided;両側検定)と赤色(Upper;片側検 定)はパターン長を6に固定したときに抽出され た部分配列を用いて作成したアレルゲン性予測モ デルの評価値を表している。多くの食物群にて、

パターン長を1~20とした場合の精度が高くなっ ている。また、BovineBuck-Wheatなどの一部の

食品群では、長さが6 の部分配列がほとんど抽出 されなかったため、AUC値が0.5程度(ランダムな 予測を行う場合にAUC値は0.5となる)となって しまい、ほとんど予測ができなくなってしまって いることがわかる。以上の結果より、パターンマ イニングを用いて様々な長さのアミノ酸部分配列 を利用することで、より予測精度の高いアレルゲ ン性判定モデルを構築できることを示唆してい る。

D. 結論

本研究では系列マイニングとよばれる情報科学 分野のアプローチを用いて、高精度かつ高信頼度 のアレルゲン性予測モデルを構築する方法を開発 した。高精度化のため、さまざまな長さのアミノ 酸部分配列を抽出できる枠組を導入するととも に、高信頼度化のため、抽出されたアミノ酸部分 配列の統計的有意性を定量化する方法を構築し た。アレルゲン性食品と非アレルゲン性食品を含 むタンパク質データベースにこれらの方法を適用 したところ、一定の精度でアレルゲン性の予測が 可能であることが確認できた。2019年度以降は、

抽出されたアミノ酸部分配列が特定の食品由来の ものであるのか、真にアレルゲン性に関連するも のであるのかを判定できるような枠組を構築し、

より高精度かつ高信頼度のアレルゲン性予測モデ ルを構築する。また、現在はアミノ酸配列情報の みを用いているが、タンパク質の3次元構造も利 用することで精度の向上が可能となるか検討す る。

E. 業績 1. 論文発表

1) Sakuma T., Nishi K., Kishimoto K., Nakagawa K., Karasuyama M., Umezu Y., Kajioka S., Yamazaki S.J., Kimura K.D., Matsumoto S, Yoda K., Fukutomi M., Shidara H., Ogawa H. and Takeuchi I. Efficient learning algorithm for sparse subsequence pattern-based classification and applications to comparative animal trajectory data analysis. Advanced Robotics (to appear)

2) Karasuyama M., Inoue K., Nakamura R., Kandori H., Takeuchi I. Understanding

(5)

colour tuning rules and predicting absorption wavelengths of microbial rhodopsins by data-driven machine- learning approach. Scientific Reports.

vol.8, no.15580 (2018)

3) Kanamori K., Toyoura K., Honda J., Hattori K., Seko A., Karasuyama M., Shitara K., Shiga M., Kuwabara A., Takeuchi I.

Exploring a potential energy surface by machine learning for characterizing atomic transport. Physical Review B.

vol.97, no.125124 (2018)

2. 学会発表

1) Kajioka S., Sakuma T., Takeuchi I.

Comparative sequential pattern mining of human trajectory data collected from campus-wide BLE beacon system. In Proceedings of IEEE International Conference on Pervasive Computing and Communications Workshop (Percom2019 Workshops) (2019)

2) Yoshida T., Takeuchi I., Karasuyama M.

Safe Triplet Screening for Distance Metric Learning. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD2018) (2018)

3) Yamada M., Umezu Y., Fukumizu K., Takeuchi I. Post Selection Inference with Kernels. The International Conference on Artificial Intelligence and Statistics (AISTATS2018) (2018)

F. 知的財産権の出願・登録状況 該当なし

(6)

図1 統計的に有意なアミノ酸部分配

図2 実験結果(AUC: Area Under Curveの比較)

参照

関連したドキュメント

4 A Hybrid Learning Algorithm for MLP If the input vectors are mapped onto around the apex of the hypercube through the first hidden layer with a sigmoidal nonlinear function,

From the geometrical point of view, the GLA in which the learning rate is 2 can be expressed as the algorithm in which the connection weight vector is updated to the symmetric

磁束密度はおおよそ±0.5Tで変化し,この時,正負  

[r]

We traced surfaces of plural fabrics that differ in yarn, weave and yarn density with the tactile sensor, and measured variation of the friction coefficients with respect to the

このため、都は2021年度に「都政とICTをつなぎ、課題解決を 図る人材」として新たに ICT職

Acute effects of static stretching on the hamstrings using shear elastic modulus determined by ultrasound shear wave elastography: Differences in flexibility between

Furthermore, computing the energy efficiency of all servers by the proposed algorithm and Hadoop MapReduce scheduling according to the objective function in our model, we will get