データサイエンスの波がバイオの世界に AI( 人工知能 ) とバイオテクノロジーの融合へー ( 敬称略 ) 13:00 開会挨拶上田誠 ( 京都市産業観光局長 ) 座長植田充美 13:05 基調講演 AI とスパコンが拓く新生命科学その端緒宮野悟 ( 東京大学医科学研究所教授ヒトゲノム解析セン

(1)

(2)

- 1 -

データサイエンスの波がバイオの世界に

―ＡI(人工知能)とバイオテクノロジーの融合へー (敬称略) 13:00

開会挨拶上田誠

（京都市産業観光局長）座長植田充美 13:05

基調講演

『

ＡI とスパコンが拓く新生命科学―その端緒』

宮野悟

（東京大学医科学研究所・教授ヒトゲノム解析センター長） 13:45

『複雑な生命現象への対処法―感染症や環境問題』

植田充美

（京都大学大学院農学研究科応用生命科学専攻教授） 14:25

『先端バイオ技術の醸造現場への導入と機械学習による

『

イノベーションへの期待』

山本佳宏

（京都市産業技術研究所京都バイオ計測センター管理者） 15:05

情報提供「平成 29 年版科学技術白書の発刊について」

文部科学省科学技術・学術政策局企画評価課

15:10 休憩

座長青木航 15:20

『微生物によるモノづくりのためのトランスオミクスデータ

『

解読をめぐって』

松田史生

（大阪大学大学院情報科学研究科バイオ情報工学専攻代謝情報工学講座准教授） 16:00

『ＡI 創薬の現状と可能性』

奥野恭史

（京都大学大学院医学研究科人間健康科学系専攻臨床看護学講座ビッグデータ医科学分野教授） 16:40

『バイオサイエンス分野における機械学習応用研究の最新動向』

西村亨

（株式会社ハイシンク創研フェロー） 17:20

閉会挨拶吉田多見男

（京都市産業技術研究所研究マネジメント統括理事）交流会 17:45～19:45 （会場：4 号館地下 1 階バンケットホール）

(3)

- 2 -

AI とスパコンが拓く新生命科学－その端緒

宮野悟（東京大学医科学研究所）東大医科学研究所は 2011 年から、ヒトゲノム解析センターのスーパーコンピュータシステム活用し、がんを対象とした全ゲノムシークエンスに基づく臨床ゲノムシークエンス体制を構築してきた。Genomon (https://github.com/Genomon-Project)は、血液腫瘍をはじめとしてがんゲノム研究で実績のあるデータ解析パイプラインで、WGS 解析、WES 解析、 RNA-seq 解析、SV 解析などが可視化も含めスムーズにできるようになっている。また、 Clarity LIMS などのデータマネージメントシステム、生体認証によるセキュリティ管理、網羅的多地点カメラによる安全・データ事故管理などのシステムを構築してきた。また、 IBM の Watson for Genomics 研究用として導入し、ビッグデータを活用したゲノム変異の解釈・翻訳が人工知能技術によりどの程度有効であるかを検証してきた。大腸がんのマルチリージョナル全ゲノム解析始まったこのプロジェクトだが、Watson for Genomics の導入により、Myeloid パネル解析及び全エクソーム解析を使った血液腫瘍の臨床シークエンスも１年半以上の実績を積んできた。これらのシークエンスには、臨床シークエンス専用に用意した HiSeq2500, NextSeq, MySeq, Ion Proton, Ion PGM などを使い、サンガー法でバリデーションをしてきた。Tumor Board を開催し、様々な観点からの議論も行っている。様々なノウハウがこの 6 年ほどの間に蓄積していると考えている。がんの理解の難しさだけでなく、日本において非認可の分子標的薬の問題、パネルを使った解析の限界、WGS の重要性、日本における治験情報の非集中化の問題、改定薬事法の障害、時間との闘いなど、様々な課題に取り組んできた。

(4)

- 4 -

複雑な生命現象への対処法－感染症や環境問題－

植田充美（京大院農・応用生命、京都バイオ計測センター）日本では初めての文部科学省、厚生労働省と経済産業省の３省の枠を横断する研究機構である「独立行政法人日本医療研究開発機構（日本版 NIH）」が稼動しはじめ、「ヘルスケア」の研究開発が本格化しています。研究の中身は、簡単に言うと、少子・高齢化と生活習慣病の増加を背景に多くの生活や医療の質の向上や病気の予防と未病の早期の把握、さらに、環境浄化を含む健康の管理と維持など、多岐にわたります。これらの研究には、時同じく発展してきました、健康に関わる高度な分析機器の発展とナノテクノロジーの導入による開発が駆動力となっています。ゲノム解析ありきの時代を迎え、ゲノムから読まれた転写産物や翻訳産物であるプロテオームやメタボローム解析などの網羅的なビッグデータとなるトランスオミックス解析が重要になってきています。研究対象も、標的となる物質だけでなく、それを取り巻くすべての物資を網羅的に解析して、時々刻々変化する「生命現象のありのまま」の姿をとらえる研究へとギアチェンジし始めています。これらの新しいバイオテクノロジー研究から、新しい発見や化学物質（医薬品など）も創製されつつあります。本日の講演では、高齢化社会で問題となっておりますヒトと微生物の相互作用の感染症（１）や、地球上での食糧生産に影響力の高い植物と土壌微生物の相互関係（２）_{、さらに、農産廃} 棄物の有効利用へつながる微生物の生き様（３）_{を分子レベルで捕らえ、便移植などの新造語} もでてきております「腸内細菌群研究」、すなわち、マイクロバイオーム研究などに進んでいくために、AI などを活用していく研究素地を提唱したいと思います。文献

(1)

Kitahara, Morisaka, Aoki et al. AMB Express, 5, 41 (2015).

(2)

Tatsukami, Ueda, Scientific Reports, 6, 27998 (2016).

(3)

Aburaya, Morisaka et al., AMB Express, 5, 29 (2015).

(5)

- 6 -

先端バイオ技術の醸造現場への導入と機械学習によるイノベーションへの期待

山本佳宏（京都市産業技術研究所バイオ計測センター）バイオ関連分析技術の進歩は著しく、ヒトの遺伝子は 30 億塩基対=3 Gbp（ギガベースペア）と云われているが、1 日にその 10 倍以上の 50 Gbp 以上の解析能力を持つ装置も市販されている。また、タンパク質解析においても 1 回の分析で 3,000 種以上のタンパク質を分離・同定し、比較解析できる装置も利用できる状況である。これらバイオ情報を活用する産業の代表として、抗体やタンパク質を製造する製薬企業が存在する。一方、バイオ情報を利用して製品を製造する食品産業では、このような分析技術は有用ではあるものの、実際の生産に活用している事例はほとんど見られない。しかしながら、バイオ技術の応用製品である食品は一般市民を対象とする基盤産業であり、その市場規模は極めて大きく、特に醸造製品の付加価値は極めて高い。そして京都を主産地とする清酒産業では近年、国内外で拡大する高級清酒の需要に対応できる質・量両面の生産体制のイノベーションが求められている状況である。京都地域では産学公連携のプロジェクトとして京都市産業技術研究所及び京都バイオ計測センターに設置されている先端分析装置を用い、高品質製品製造に係る清酒もろみの分析を行うことにより、生産性・品質向上に寄与する成分の探索が行われている。併せて、現在生産指標に用いられている成分について分析技術開発により高分解能化と低コスト化を図り、生産現場での成分プロファイルの多項目化に取り組んでいる。この成果を融合し、先端バイオ技術を製造現場に導入することにより、生産性・品質向上のための重要な要素技術である工程管理の高度化を実現し、目的とする製品仕様と生産途上の仕掛品の状態をより詳細に比較することが可能となる。この分析技術を活用し、生産のためのアクションとその結果生ずる成分プロファイルの変化を実装することで、製造を補助する有益なアプリケーションが期待できる。目標を達成する最適な手段を予測する方法として機械学習は極めて有効な手段であることは多くの事例より明らかとなっている。これを有効に導入するためには、①達成目標（囲碁・将棋の勝利条件に当たる）の明確化、②生産時のアクションの明確化が必要であり、アクションによりもたらされる成分プロファイルの変化について十分な計測値を蓄積し学習データとして提供する必要がある。また、マシンパワーを有効に活用するためには計測する成分、手段を最小化するなど解析の効率化のための整理が必須となる。バイオ計測技術と機械学習の導入について、当初は製造現場のアクシデントを解決するための補助手段として受動的に利用することになるだろう。しかし、将来的にはアプリケーションの熟成により、想像しなかったような特徴を持つ幅広い製品の生産を効率よく可能とするなど、積極的な利用による醸造産業のイノベーションがもたらされることに大きな期待が寄せられている。

(6)

- 8 -

微生物によるモノづくりのためのトランスオミクスデータ解読をめぐって

松田史生（阪大院情報・バイオ情報）微生物によるモノづくりの効率化を目指し、微生物代謝経路の人為的な改変が試みられている。ブラックボックスだった微生物中心代謝の理解が、ゲノム情報等の蓄積で飛躍的に進み、合成生物学的に代謝経路を「設計（design）⇒構築（built）⇒試験（test）⇒学習（learn）」する、DBTL サイクルの構築が急がれている [1]。「設計⇒構築⇒試験」部分は要素技術が出そろい、今後は「学習」部分、すなわち、代謝律速部位を同定し、新たな代謝設計のアイデアを導出する方法の開拓が求められている。代謝律速部位の同定が困難な原因は、代謝調節機構の圧倒的な理解不足にある。そこで、我々は出芽酵母の中心代謝経路に注目して、１遺伝子欠損変異株からミカエリスメンテン式に登場する反応速度 v、基質濃度[S]、酵素濃度[E]に対応する、代謝フラックス、代謝物濃度、酵素発現量のトランスオミクスデータを取得し、代謝調節機構の理論的解読を試みている[2]。システム生物学でも同様のアプローチが活発化している。トランスオミクスデータ解読を進めるには、データ処理、可視化、データ解釈の効率化が必要である。たとえば、クロマトグラムのピークピッキング作業は、いまだ手作業に負う部分が大きく、データ処理最大のボトルネックとなっている。Woldegebriel らは、ニューラルネットワークと深層学習を組み合わせたピークピッキングＡＩの構築を報告しており[3]、機械学習技術の更なる活用が期待される。また、トランスオミクスデータ解読の最初の一歩は、パスウェイマップ上へのデータ投影である。我々は、このデータ処理作業を簡便化、半自動化するツール群を、システム・バイオロジー研究機構が開発している GARUDA プラットフォーム上に構築、公開した[4]。研究者がデータ解読により注力できる環境の整備が、重要となるだろう。トランスオミクスデータの解読作業では、まず既存の知見と照らし合わせた推論を行う。ケモインフォマティクス分野では、以前から藤田らによる医農薬開発支援システム EMIL (Example Mediated Innovation for Lead Evolution) 等のエキスパートシステムの開発が試みられており [5]、同様のアプローチが有効になると考えられる。そこで、我々の過去の人力でのデータ解読例[2]をもとに、どのような推論を自動化すればいいのか、データベースと推論エンジンをどのように簡単、安価に作るかについて、データ解読実務者の立場から私見を述べ、議論に付したい。

[1] 近藤昭彦・植田充美生物工学会誌 93(9) 522‒541．2015 [2] Matsuda et al. PLoS ONE 12(2) e0172742. 2017

[3] Woldegebriel et al. Anal. Chem., 89 (2) 1212–1221. 2017

[4] http://www.garuda-alliance.org/gadgetpack/shimadzu/ よりダウンロード可能 [5] 藤田稔夫 CICSJ Bulletin 14(1), 1996

(7)

- 10 -

AI 創薬の現状と可能性

奥野恭史（京都大学大学院医学研究科人間健康科学系専攻）近年、あらゆる分野において爆発的に増大し続けるビッグデータから知識発見や新たな価値を創造する科学技術として、ビッグデータ科学が注目されている。創薬に限らず生命科学分野においても、ハイスループット技術やオミクス計測技術の著しい進展に伴いデータ爆発が起こり、ビッグデータ科学の研究開発が急務とされている。このように多種多様かつ膨大なデータに直面する最中、今度はこれらビッグデータを解析する技術として人工知能が注目されるに至っている。言うまでもなく、人工知能分野そのものは新興の分野という訳でないが、Google 社の Deep Learning や IBM 社のワトソンの出現により、近年の人工知能技術のパフォーマンスと可能性にさまざまな分野が大きな期待を寄せている。演者は、約 10 年前より人工知能・機械学習技術の創薬応用に着手してきており、活性化合物のスクリーニングや自動分子デザインの技術開発を行ってきた。また、昨年の 11 月に、ライフ分野を対象とした AI 開発を産学、異業種連携で進めるため、ライフ・インテリジェンス・コンソーシアム（LINC）を立ち上げた。LINC は、京大・理研などのアカデミアの支援のもと、IT 業界と、製薬・化学、医療・ヘルスケア、食品のライフサイエンス分野の企業など約 70 社・団体がタッグを組むことで、AI 戦略による保健医療分野・関連産業の振興を目指すものである。本講演では、演者のこれまでの具体的な研究開発を例に、AI 創薬の現状と可能性について紹介する。

(8)

- 12 -

バイオサイエンス分野における機械学習応用研究の最新動向

西村亨（株式会社ハイシンク創研）機械学習という新しいコンピュータサイエンス方法論が近年さまざまな成果をあげ社会的インパクトをもたらしている。テキストマイニング（記事文献からの有効情報抽出）・音声認識・自然言語理解・写真認識・動画分析などは、旧来重なりの少ない研究分野であったが、機械学習の手法を応用することで研究精度や達成効率が向上した。その理由は、横断的統一的なアプローチが可能となったことにより、アイデアが試され追求される共通の基盤ができたためである。画像による情報検索は広く知られ日々使われている機械学習の実用成果であって、オンライン商業（E-commerce）においては買い手にアピールする類似商品を迅速かつ効率よく提示する手段のひとつとして位置づけられているなど、科学技術に対する精度や効率の追求だけでなく産業経済価値を生む手段として重要度を増している。またこの手法は、これまでのやり方では見逃されていた因果関係を指摘したり、観察対象の変化を実時間で読み取って近未来を予測し続け最良制御を探すなど、新しい着目点や新しい応用をもたらすであろうとの期待高まっている。学術研究のディジタル化は当該分野への機械学習適応と歩調を合わせた潮流を形作っている。研究手法や研究効率の改善を意図してさまざまな取り組みがなされている。こと注目に値するのは研究者向けオンラインサービスの台頭である。研究者向けサービスが目指す方向性には一定の共通項がある。記録や記述を効率化（利便化）することにより知識の流通（共有）を容易にすること、記述を通じて検証可能性・再現可能性を高めること、さらに観察分析から工学そして産業へ至るアプローチ手法の一貫性を追求することである。研究開発そのものを効率化することを目的とした新しいビジネス＝産業も生まれ始めている。利便や効率をオンラインで提供する業態を指してインターネット産業界はそれをプラットフォームビジネス（モデル）と称するが、バイオサイエンスの世界においてそのようなタイプの商用サービスが始まっている。これを可能としているのはアプローチ（手順記述）の規格化である。研究活動のコード化と称することもできよう。生命科学研究を対象とした商用サービスをいくつか取り上げて概要紹介する。このような研究開発ディジタル化潮流を背景にして、機械学習という新しい道具立てが注目を集めているのである。観察分析（分析科学）の高度化のみならず、設計構成（設計科学）の効率化を通じて工学の手法・産業化の手法（engineering discipline）の適応を促す動きを生んでいる。本講演では機械学習手法の応用事例をいくつか取り上げどのような成果があがっているかを解説する。今回とりあげる予定の事例は、順に、菌種分類計測の改善、白血球判定、遺伝子情報解析、そのほかである。