人工知能を用いたアレルゲン性評価のためのアルゴリズム開発

(1)

厚生労働科学研究費補助金（食品の安全確保推進研究事業）

「新たなバイオテクノロジーを用いて得られた食品の安全性確保とリスクコミュニケーションのための研究」

分担研究報告書

研究分担者竹内一郎（名古屋工業大学）

研究要旨：

ゲノム編集技術などを用いて人工的に生成した食品のアレルゲン性を確認する方法は明らかになっていない。アレルゲン性の主要な識別子とされる単一の因子は知られておらず、複数の因子が複雑に関連することでアレルゲン性を持つことが示唆されている。また、人工的に生成された食品のアレルゲン性を都度に実験的に検証するのは様々なコストがかかり、現実的でない。そこで、本課題では、人工知能やデータ科学のアプローチを用い、食品のアレルゲン性を高精度で予測できるシステムを開発することを目指す。これまでに、様々なアレルゲン性を判定・予測のための分析ツールが開発されてきた。残念ながら、これら既存の方法には様々な問題点が存在する。国際連合食糧農業機関/世界保健機関によるガイドラインはアミノ酸配列の類似性に基づく規準であり、精度が低く、大規模データの分析には適していない。また、既知のIgEエピトープに基づく規準、タンパク質構造の物理化学的表現に基づく規準、アミノ酸/ジペプチド組成物に基づく規準など、タンパク質に関する生物科学的・物理化学的な知見に基づく単一、もしくは少数の因子を採用したツールが提案されているが、これらはアレルゲン物質の多様性を十分に反映できるものとなっていない。本課題では、(1) 大規模なデータベースの情報を活用し、データ科学的な手法を導入すること、(2) 複数因子の組み合わせによってアレルゲン性を予測する新たな人工知能技術や機械学習技術を構築すること、(3)アレルゲン性予測の不確実性を定量化する統計学的手法を確立すること、の3つの方針に基づいて上記の課題の解決を目指す。本研究では、まず、既存のデータベースADFSを拡張し、アレルゲン性予測システムの基礎となるアレルゲン／非アレルゲンタンパク情報を公共データベースから精査整理する。データベースから予測モデルを作成するため、情報処理技術、人工知能技術、機械学習技術を適切に組み合わせ、アレルゲン性の予測がどの程度可能となるかを検証する。

A. 研究目的

ゲノム編集技術を用いた人工的な農産物の合成が行えるようになり、これまでにない食用タンパク質製品が登場する可能性がある。新たに合成された食用タンパク質は未知の特性を有しており、

特定の人が摂取するとアレルギー反応が起こってしまうリスクがある。免疫反応においてタンパク質抗原のアミノ酸配列のうち、抗体が結合する部位をエピトープと呼び、エピトープを認識する抗体を人が持っている場合にアレルギー反応が引き起こされる。これまでの様々な研究から、いくつかのアレルゲンタンパク質において共通のエピトープ配列が見出されているが、アレルゲン性の単一因子は知られておらず、複数の因子が複雑に関連することでアレルゲン性を持つことが示唆されている。食品タンパク質のアミノ酸配列からアレルゲン性を判定・予測するツールが欧米を中心に

開発されている。例えば、アレルゲン性予測ツールとしてよく利用されているのがFAO/WHOによって提唱された既知アレルゲンタンパク質のアミノ酸配列相同性を基にした手法であり、Allergen- Online (http://www.allergenonline.org/)で公開されている。しかし、この手法は科学的根拠が明白でないうえに偽陽性が高いとされている。他にもいくつかの方法が提案されているが既存の方法には精度と信頼性の両面で様々な問題点が存在する。

このような背景のもと、本課題では人工知能や機械学習のアプローチを用い、食品のアレルゲン性を高精度で予測できるシステムを開発することを目指す。本研究では、まず、食品タンパク質の大規模データベースを整備し、整備されたデータに機械学習を適用することでアレルゲン性予測システムを構築する。アレルゲン性予測システムを

(2)

高精度なものとし、信頼性を高めるため、特に３つの情報学的課題を解決する必要がある。

（課題１）まず、アレルゲン性の判定に有用なアミノ酸部分配列を探索し抽出する必要があり、

系列マイニング（sequence mining）と呼ばれるアプローチを利用する。系列マイニングとは、アミノ酸配列やDNA塩基配列データから特定の性質を持つ部分配列を抽出する情報技術である。このうち、頻出系列マイニングと呼ばれる方法を利用すると、複数の系列に高頻度で含まれる部分系列を抽出することができる。本研究では、頻出系列マイニングを拡張した比較系列マイニングと呼ばれる方法を利用する。比較系列マイニングとは、2つの系列集合があるとき、一方の集合には高頻度で出現し、もう一方の集合には低頻度で出現するような部分系列を求める方法である。本研究では、

アレルゲン性を持つ食品タンパク質に頻出し、アレルゲン性を持たない食品タンパク質には出現しないようなアミノ酸部分配列を抽出することで、

エピトープの候補を絞り込む。系列マイニングでは、部分配列の候補の数が膨大であるため、データ構造やアルゴリズムの工夫が必要となる。

（課題２）続いて、アレルゲン性タンパク質と非アレルゲン性タンパク質で頻度の異なる部分配列を利用し、アレルゲン性予測システムを作成する。このタスクは、教師あり分類学習（supervised classification learning）と呼ばれる機械学習の問題であり、様々なモデルと様々なアルゴリズムが存在する。本研究で作成するアレルゲン性予測システムは信頼性が高く、解釈可能なものであることが望まれる。また、膨大なアミノ酸部分配列のうち、アレルゲン性の予測に有用なものを選択する必要もある。このため、スパース線形分類モデル（sparse linear classification model）の採用を検討する。スパース線形分類モデルを同定するためのアルゴリズムとして、スパースロジスティック回帰分析を利用する。本研究では、モデルの予測性能を最適化するため、上述の比較系列マイニングのアプローチとスパース分類モデル学習のアプローチを統合した技術を開発する。

（課題３）本研究のような生命科学分野のデータ分析では、誤差の影響を考慮し、統計的信頼性を定量化することが望まれる。上述の比較系列マイニングにおいては、アレルゲン性タンパク質における出現頻度と非アレルゲンタンパク質における出現頻度の違いが統計的に有意なものであるこ

とが望まれる。系列マイニングのような探索アルゴリズムによって抽出された結果の統計的信頼性を考慮する際には選択バイアスを考慮する必要がある。比較系列マイニングでは、あらゆる部分配列の中から頻度の違いの大きなものを探索するため、非常に大きな選択バイアスが生じてしまう。

この選択バイアスを除去するためのアプローチとして、多重検定補正（multiple hypothesis testing correction）と呼ばれる方法があり、これを適用することで抽出されたアミノ酸部分配列の統計的信頼性を定量化する。

以上の 3つの課題を解決するための情報技術を開発することにより、高精度で信頼度の高いアレルゲン性予測システムの構築を目指す。

B. 研究方法

人工知能や機械学習を用いてアレルゲン性予測システムを作成するには、アレルゲン性タンパク質と非アレルゲン性タンパク質のアミノ酸配列データが必要である。本研究では、代表者近藤の所属する国立医薬品食品衛生研究所の生化学部でこれまでに蓄積されたデータを利用した。これらのデータのうち、アレルゲン性タンパク質データは

COMPARE データベースより、非アレルゲンタンパ

ク質データは UNIPLOT データベースより取得した。機械学習によって作成したモデルの予測性能を適切に評価するためには、モデルを学習（作成）

するために利用する訓練データ（training data）

とモデルを評価するために必要な評価データ

（validation data）を用いなければならない。

個々のタンパク質が独立なもので相関がなければ、機械学習において通常利用されている交差検証法（cross validation）と呼ばれる方法を用いることができるが、本研究のタンパク質データには同一の食品由来のものが多く含まれるため、食品群ごとに訓練データと評価データを作成する Leave Food-out Cross-Validationと呼ぶ枠組を導入した。

アレルゲン性予測システムを構築するうえで、

タンパク質アミノ酸配列からアレルゲン性予測に有用な部分配列を抽出する技術を導入する必要がある。上述のように、系列データから特定の性質を持つ部分系列を抽出する技術は系列マイニングと呼ばれ、さまざまな方法が提案されている。系列マイニングでは、系列を木構造と呼ばれるデータ構造で表現し、枝刈りと呼ばれる手順を導入す

(3)

ることにより、膨大な部分系列から、特定の性質を満たすものを探索することができる。本研究の基本的な方針は、アレルゲン性タンパク質に高頻度で含まれ、非アレルゲン性タンパク質には低頻度でしか含まれない（あるいはまったく含まれない）ような部分配列を探索することである。頻度の違いを定量化する指標には様々なものがあるが、分類精度に基づく指標とフィッシャーの正確検定（Fisher Exact Test）に基づく指標の2点を利用した。前者は、部分配列選択と予測モデル学習を同時に行うためのものである（下記、オプション２参照）。また、後者は部分系列の統計的信頼性評価を行うためのものである（下記、オプション３参照）。

アレルゲン性タンパク質と非アレルゲン性タンパク質で頻度の異なる部分系列をもとにアレルゲン性予測システムを作成した。本研究におけるアレルゲン性予測システムは、タンパク質内に特定の部分系列が含まれているか否かによってスコアを積み上げる形式のもので、スコアが高いほどアレルゲン性である可能性が大きく、スコアが低いほど非アレルゲン性である可能性が大きいようなものである。予測システム作成に向けた主な課題は、アレルゲン性の予測に有用なアミノ酸部分配列をいかに選択するかにあるが、本研究では３つのオプションを検討した。

オプション１は、アミノ酸部分配列の選択を通常の比較マイニングで行ったのち、特徴選択によって予測に有益な部分配列をさらに絞り込むものである。オプション２は、我々が開発した技術で、

アミノ酸部分配列の選択と予測モデルの学習を統合して行い、最適化するものである。オプション３は、統計的信頼性が十分に高い部分配列のみから予測モデルを作成するアプローチである。以下、

次段落、次々段落でオプション２とオプション３を詳しく述べる。

上述のように、系列から特徴的な部分系列を抽出する際の課題は候補となる部分系列が膨大である点にある。例えば、20種類のアミノ酸において長さ10 までのアミノ酸の種類は 10の 20乗となり、その頻度を数えたデータデーブルを作ることは実質的に不可能である。そのため、通常の機械学習で用いられる特徴選択法をそのまま適用することは不可能である。我々は、系列マイニングにおける木構造の枝刈りをスパースモデリングにおける特徴選択と統合する方法としてSafe Pattern

Pruning（SPP）と呼ばれる方法を開発した

（Nakagawa et al., KDD2016）。詳細は割愛するが、SPP法では、予測に有用とはなり得ない部分配列を木構造の枝刈りによって排除できるため、膨大な数の候補から予測に最適な部分配列を選択することができる（部分配列の選択と予測モデルの学習を逐次的に行う上記のオプション１では最適性が保証されない）。

アレルゲン性予測モデルの信頼性を高めるため、統計的な有意性を持つ部分配列のみを用いることが望ましい。ある部分配列の出現頻度がアレルゲン性タンパク質と非アレルゲン性タンパク質で異なるかどうかの統計的検定を行う場合、フィッシャーの正確検定を利用することができる。しかしながら、膨大な部分系列の候補のなかから特に頻度の違いの大きなものを抽出してきた場合、

選択バイアスが生じてしまい、所望の誤検出率を制御できなくなる。この選択バイアスの問題は多重検定問題（multiple hypothesis testing）と呼ばれており、その補正を行うためにはフィッシャーの正確検定によって得られたp値（p-value）を適切に補正しなくてはならない。もっともよく使われている多重検定補正にボンフェローニ補正

（Bonferroni correction）と呼ばれるものがあるが、選択における候補数が多い場合、補正が保守的になってしまう問題点が指摘されている。本研究ではこの問題に対処するため、Westfall Young 法と呼ばれるランダム化に基づく方法を採用した。

C. 研究結果および考察

2018年度は上記の方法を用いてアレルゲン性予

測システムのプロトタイプを作成し、どの程度の精度でアレルゲン性予測が可能となるかを検討した。使用したデータは国立医薬品食品衛生研究所の生化学部でこれまでに蓄積されたもので、

COMPARE データベースから取得したアレルゲンタ

ンパク質データ、UNIPLOT データベースから取得した非アレルゲンタンパク質データから構成される。それぞれのタンパク質数はアレルゲンデータが 2038 個、非アレルゲンデータが 10574 個である。

本研究で構築した予測モデルの精度を従来法であるAllergen-Online で用いられている方法と比較した。比較においては、2クラス分類モデルの評価指標として通常用いられている Area Under

(4)

Curve (AUC）を採用した。AUCとは、横軸に偽陽性率、縦軸に真陽性率をプロットした ROC曲線の右下の面積であり、予測モデルが出力したリスクスコアに対するアレルゲン性判定の閾値を変更した際の平均的な性能の良さを示す指標である。AUCが高いほど予測モデルの性能がよく、低いほど悪いと解釈される。従来法では、長さが6 のアミノ酸配列のみを考慮した予測モデルであるのに対し、

本研究で作成したモデルは任意の長さの部分配列で統計的信頼性が保証されているもののみが用いられるという点で異なっている。なお、評価にあたっては、食品群ごとに訓練データと評価データを変更させる Leave-Food-Out Cross-Validation を行っている。

図１に統計的に有意なアミノ酸部分配列数を示す。表の左の「パターン長1～20」とあるのが本研究において抽出したアミノ酸部分配列数を表している。一方、表の右の「パターン長6」とあるのは長さが 6のアミノ酸部分配列のみに着目した場合のアミノ酸部分配列数を表している。また、両側検定とは、アレルゲン性タンパク質に頻度が高いもののみでなく、非アレルゲン性タンパク質に頻度が高い部分配列も探索した場合を、片側検定とは、アレルゲン性タンパク質に頻度が高いもののみを探索した場合を示している。どのような範囲の部分配列を探索するかによってWestfall Young 法の多重検定補正結果が異なるため、両側検定と片側検定の"+"における部分配列数は異なっている。これらの部分配列のなかには特定食品に由来して抽出されたものも含まれる可能性がある。一方、部分配列長を1～20とフレキシブルにした場合にアレルゲン性タンパク質に頻度が高いものがより多く存在しており、アレルゲン性を特徴づけるエピトープに対応する部分配列が含まれていることを示唆している。図２に11種類の食品種ごとのAUC値を示す（値が大きいほど予測精度が高く、

小さいほど低い）。青色（Two-Sided；両側検定）とオレンジ色（Upper；片側検定）はパターン長1～

20としたときに抽出された部分配列を用いて作成したアレルゲン性予測モデルの評価値を、緑色

（Two-Sided；両側検定）と赤色（Upper；片側検定）はパターン長を6に固定したときに抽出された部分配列を用いて作成したアレルゲン性予測モデルの評価値を表している。多くの食物群にて、

パターン長を1～20とした場合の精度が高くなっている。また、BovineやBuck-Wheatなどの一部の

食品群では、長さが6 の部分配列がほとんど抽出されなかったため、AUC値が0.5程度（ランダムな予測を行う場合にAUC値は0.5となる）となってしまい、ほとんど予測ができなくなってしまっていることがわかる。以上の結果より、パターンマイニングを用いて様々な長さのアミノ酸部分配列を利用することで、より予測精度の高いアレルゲン性判定モデルを構築できることを示唆している。

D. 結論

本研究では系列マイニングとよばれる情報科学分野のアプローチを用いて、高精度かつ高信頼度のアレルゲン性予測モデルを構築する方法を開発した。高精度化のため、さまざまな長さのアミノ酸部分配列を抽出できる枠組を導入するとともに、高信頼度化のため、抽出されたアミノ酸部分配列の統計的有意性を定量化する方法を構築した。アレルゲン性食品と非アレルゲン性食品を含むタンパク質データベースにこれらの方法を適用したところ、一定の精度でアレルゲン性の予測が可能であることが確認できた。2019年度以降は、

抽出されたアミノ酸部分配列が特定の食品由来のものであるのか、真にアレルゲン性に関連するものであるのかを判定できるような枠組を構築し、

より高精度かつ高信頼度のアレルゲン性予測モデルを構築する。また、現在はアミノ酸配列情報のみを用いているが、タンパク質の３次元構造も利用することで精度の向上が可能となるか検討する。

E. 業績 1. 論文発表

1) Sakuma T., Nishi K., Kishimoto K., Nakagawa K., Karasuyama M., Umezu Y., Kajioka S., Yamazaki S.J., Kimura K.D., Matsumoto S, Yoda K., Fukutomi M., Shidara H., Ogawa H. and Takeuchi I. Efficient learning algorithm for sparse subsequence pattern-based classification and applications to comparative animal trajectory data analysis. Advanced Robotics (to appear)

2) Karasuyama M., Inoue K., Nakamura R., Kandori H., Takeuchi I. Understanding

(5)

colour tuning rules and predicting absorption wavelengths of microbial rhodopsins by data-driven machine- learning approach. Scientific Reports.

vol.8, no.15580 (2018)

3) Kanamori K., Toyoura K., Honda J., Hattori K., Seko A., Karasuyama M., Shitara K., Shiga M., Kuwabara A., Takeuchi I.

Exploring a potential energy surface by machine learning for characterizing atomic transport. Physical Review B.

vol.97, no.125124 (2018)

2. 学会発表

1) Kajioka S., Sakuma T., Takeuchi I.

Comparative sequential pattern mining of human trajectory data collected from campus-wide BLE beacon system. In Proceedings of IEEE International Conference on Pervasive Computing and Communications Workshop (Percom2019 Workshops) (2019)

2) Yoshida T., Takeuchi I., Karasuyama M.

Safe Triplet Screening for Distance Metric Learning. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD2018) (2018)

3) Yamada M., Umezu Y., Fukumizu K., Takeuchi I. Post Selection Inference with Kernels. The International Conference on Artificial Intelligence and Statistics (AISTATS2018) (2018)

F. 知的財産権の出願・登録状況該当なし

(6)

図１統計的に有意なアミノ酸部分配

図２実験結果（AUC: Area Under Curveの比較）