生命科学のためのディープラーニング実践ツールキット (Vijay Pande)

Bharath Ramsundar、Peter Eastman、Pat Walters、そして私は、ある最も重要なメッセージを念頭に置いて、Deep Learning for the Life Sciences を書きました。つまり、今や自分のノートPCを使って、世界レベルのAIをバイオテクノロジー分野で簡単に活用できる時代に突入した、ということです。AIを生命科学に持ち込むことは、かつてないほど胸が踊り、やりがいのあることです。それはゲノムのより根本的な理解から、より迅速で成功の見込みが高い医薬品設計まで、あらゆる成果をもたらしてくれます。私たちはこのような状況下で、新しくできたディープニューラルネットワーク(DNN)の専門職従事者や科学者向けに、この分野において誇大広告と現実を見分ける方法、影響力を最大化するために必要なツール、そして念頭に置くべき基礎的な概念およびアプリケーションに関して、すぐに役立つ実用的な手引書を作成したいと思いました。次に挙げるのは、AIを生命科学に活用したいと考える専門職従事者が考えるべき、最も重要な3つの問題です。

#1:AIの活用に適しているのは、どのような種類の問題なのか。

機械学習に適した問いを立てるには、機械学習を適用することに意味のある状況を把握し、どのような種類のどのようなデータセットに対して有効であるのかを把握する必要があります。一般的に、機械学習は(そして特に深層学習は)、万能策ではありません。しかしそれと同時に、最近の新しい進歩すべてを踏まえて、疑いようのない事実として言えるのは、自分のノートPCを使ってほんの何行か(10行から50行)のPythonコードを直接打ち込むだけで、新しいことをこれまでより簡単にできる機会があるということです。

深層学習を適用する出発地点としてふさわしいのは、画像です。画像認識は、深層学習の取り組みとしては、大きな勝利をおさめてきたものの一つです。元々の発想が、視覚野のような脳の一部から得たものであることを考えれば、おそらく驚くことではないでしょう。顕微鏡検査、放射線医学、病理学などを含む生命科学におけるデータの大部分が画像であることを踏まえれば、画像は、自然な表象(コンピューターに入力されるデータの一形式)であると同時に、ラベルのついたデータの豊かな源泉であるといえます。「この写真には、この場所に腫瘍が写っています」といったデータは、その一例です。

画像はコンピューターにとって自然な表象です。結局のところ、画像は秩序正しく並んだ数字の配列に過ぎないからです。ですが、その一方で、生命科学のすべてのデータが画像形式でないのは明らかです。性質上、画像に極めて近いデータセットもあります—— 例えば、DNAまたはタンパク質配列は、非常に長い一次元の画像と考えることができ、深層学習の画像への取り組みは、当然のことながら、そのまま通用します。けれども、その他のデータセットはこれよりも困難です。例えば、低分子医薬品など、分子を表象する方法は非常に困難であり、最前線の活発な研究領域であり続けています。最近は、 画像を数字の配列として表象する手法から離れ、分子をグラフとして扱う手法を採用することにより、大きな進展がみられました。

この問題に関しては最後になりましたが、機械学習に適した問いを立てられるかどうかは、ラベルのつけられたデータが十分に存在するという状況に、決定的に依存しています。生命科学では、データはふんだんにあるが、ラベルの存在やその精度が課題となる場合が多いです。例えば、小規模のデータセットで0.99のAUC(つまり、非常に高精度な結果)が得られたとすれば、これは実は悪い知らせです。よい知らせではありません。機械学習が正確な判定を導くことを妨げる、何らかの隠れた「偽の要因」があることが多いのです。最近の、そして近いうちに古典となるであろう、病理学における予測のある事例では、画像による腫瘍の予測の精度は、非常に高いものでした。しかし後になって、腫瘍の写ったすべての画像に、腫瘍の大きさを測るルーラーが一緒に写っていることが判明しました。ですから、最終的には、機械学習は、本当はルーラーを検知していたのであって、腫瘍を検知していたわけではなかったのです!利用者の役に立たず、実際にその分野を後退させるような種類の間違いを回避するために必要なのは、何が可能であるのかを把握することです。

ついでに興味深いことを言うと、これらすべてのことは、「データ・クリーニング」がそれ自体として主要な技術になったことを意味しています。質と量の両方の課題について、自然なソリューションはますます、新規のデータ生成に関わるものになっています。これにより、事後のデータ分析のみならず、実験計画の全くの最初の段階から、機械学習のエンジニアは非常に重要な役割を担うようになりました。

#2: どのようなアルゴリズムが、どこで、どのような場合に妥当なのか。

妥当な疑問と適切なデータが手元にあれば、次の段階は、適切なアルゴリズムの適用と、これらのアルゴリズムの基本的な枠組みの把握にあります。画像がより一般的に、深層学習でうまくいくことから、その他の領域でも画像認識のために使用されるアルゴリズムを生命科学に直接持ち込むことは当然のことです。例えば、学習に並進対称性を組み込む畳み込みニューラルネットワーク(CNN)は、生命科学の画像(およびゲノムに見られるような画像に類似する対象)でも特にうまく機能します。

興味深いことに、アルゴリズムは間接的に持ち越すこともできます。アルゴリズムを類似性と関連性のある方法で用いるということです。例えば、CNNの魔法には、その畳み込みの性質があります。画像の中に猫を認識しようとするなら、猫がどこにいても問題ではないということです(画像の真ん中、左上、など)。畳み込みニューラルネットには並進不変性があります。つまり、画像の中の正しい場所を見つけるということです。同様に、グラフ畳み込みニュートラルネットは、CNNの性質の多くを画像に残しています。しかし、分子グラフでは、並進不変性が化学基の位置の不変性に並進します。つまり、認識すべき主要な化学的部分が分子上のどこにでもあり得るということです。

最後の未開拓分野は、生命科学のデータのための新しいアーキテクチャーの開発で、全く新しい種類の表象を用いたものです。これは非常に研究の活発な未開拓分野です—— DNNツールの極めて一般的な性質(一般的なテンソル量ですばやく計算する能力)が促進しているのは、すでにDNN分野でより広範囲に完了しているインフラ構築の顕著な作業を、これらの新しい未開拓分野に強引に取り込むことです。TensorflowやTorchなどのツールは非常に一般的で、ターボチャージされた数学図書館のようであり、現在使用されている特定のネットワーク・アーキテクチャーに制限されるものではありません。

#3: これにより、私たちは今、どのような新しい問題に取り組むことができるようになったのか。

おそらく、こうした努力がもたらす最も胸踊る結果とは、以前はかなり困難であった問いや、あるいはそもそも発することができなかったような問いに取り組む、新たな機会が得られたことです。このカテゴリーに属する問題で、私が気に入っているのは、因果関係を識別する能力です。「相関関係は因果関係を意味しない」は、頻繁に引用される自明の理です。しかし、この自明の理が意味するのは、コンピューター処理が全く因果律に近づけないということではありません。現に、最近の統計理論は、時系列データから原因要素を抽出する扉を、わずかながら開くことに成功しました。つまり、「朝食をとって、健康的になって、毒を飲んで、死ぬ」といった時間上の事象の配列を把握することにより、それらの事象の因果関係を導き出すことができるという考え方です。このような把握が、最も重要となるのは、それがここで私が挙げた例よりも、はるかに複雑な事例についてもなされる場合においてです。

この分野が依然として積極的に開発されている段階にある一方で、そう遠くない将来、妥当なツールとデータが出現すれば、私たちは臨床試験を、因果関係を決定する費用のない人が、代わりに仕方なく採用する手法として理解するようになることさえあるかもしれない、と私は考えています。臨床実験は、次のような特徴をもつ因果関係よりも、一段劣ったものとしてみなされることになるのです。つまり、1つ(もしくは3つ、あるいは10)の臨床試験に含まれているものよりも、はるかに多くのデータから決定される、真にデータに基づく統計学的に厳格な因果関係です。

私たちは、また、AI自体——とその機能——について、ようやく問うことができるようになってきています。機械学習に関連して語られる2つ目のおとぎ話は、機械学習がブラックボックスであり、人間にはわかりづらいというものです。実際に、今ではDNNがどのようにして予測に到達するかを理解するために、DNNに応答司令信号を送る手段があります(私たちはこの話題に1章分を丸ごと使いました)。DNNが形成する枠組みは、皮肉なことに、本来の人間の知能のブラックボックスよりもはるかに容易い仕方で、妥当なツールとアプローチを用いて、直接プローブし、把握することができるものとなっているのです。

より広い目で見た私たちの書籍のプロジェクトと、私たちが提供しようと試みた一連のツールの一部は、オープンソースの生物学を育むことを支援するという、さらに大規模な目標を目指しています。Linuxと呼ばれるオープンソースのOSに取り組んでいた大学生、 Linus Torvaldsが、現在世界中で莫大な数のコンピューティング・デバイスを動かしている主要コードを作ることができるとは、かつてはほとんどあり得ないことのように見えました。けれども、このようにして大きな変化のきっかけを作ることができるのです。当然のことながら私たちが直面している課題は、ノートPCだけでなく、「現実世界」の実験や、研究所、材料、科学的知識を必要とする点で、OSの開発とは異なります。しかしその一方で、私たちは、オープンソースの生物学の時代がまだ始まったばかりであると信じています。そのような時代では、ひとりの優秀な貢献者が、ごく普通のノートPCで——もしかしたら学生寮の一室から!——世界に変化を起こし始めることができるのです。

 

著者紹介 (本記事投稿時の情報)

Vijay Pande

 

記事情報

この記事は原著者の許可を得て翻訳・公開するものです。
原文: A Practical Toolkit for Deep Learning in the Life Sciences (2019)

FoundX Review はスタートアップに関するノウハウを届けるエンジニア向けのメディアです

運営元