アミノ酸配列からタンパク質の立体構造を予測するという生物学における最も大きな課題の1つを解決するための競争が、新しい人工知能(AI)アプローチによって激化しています。
昨年末、GoogleのAI企業DeepMindは、AlphaFoldと呼ばれるアルゴリズムをデビューさせました。このアルゴリズムは、この分野で新たに登場した2つの技術を組み合わせ、タンパク質構造予測に関する競争において、既存の競合他社に驚くべき差をつけて勝利したのです。 そして今年4月、米国の研究者がまったく異なるアプローチを用いたアルゴリズムを公開した。
より広範には、生物学者は、両方のアプローチで使用されている AI 技術である深層学習を、最終的にタンパク質の機能を決定するタンパク質配列の予測に、他にどのように適用できるだろうかと考えています。 これらのアプローチは、X線結晶構造解析などの既存のラボ技術よりも安価で迅速であり、その知識は、研究者が病気をよりよく理解し、薬を設計するのに役立つ可能性があります。 メリーランド大学カレッジパーク校の生物学者であり、2年に一度開催されるCASP(Critical Assessment of protein Structure Prediction)の創設者であるジョン・マウル氏は、「これから何が起こるかわからないというワクワク感があります」と語っています。
革新的なアプローチ
最新のアルゴリズムの開発者である、マサチューセッツ州ボストンのハーバード大学医学部の生物学者 Mohammed AlQuraishi は、まだ自分の手法と AlphaFold の精度を直接比較していませんが、分析対象のタンパク質と似た配列を参照できる場合には、AlphaFold は自分の手法に精度で勝るだろうと推測しています。 しかし、彼のアルゴリズムは、AlphaFoldのように2つのステップではなく、1つのステップでタンパク質構造を計算する数学的関数を使用しているため、最初のステップで類似構造を下地として使用し、数時間または数日ではなくミリ秒で構造を予測することができると言います。 深層学習の進歩に加え、アルクライシが発明した新しいトリックを構築しています」と、カリフォルニア大学バークレー校の計算生物学者、イアン・ホームズ氏は言います。 「
アルクライシのシステムの中核には、ニューラルネットワークがあります。 アミノ酸配列がどのようにタンパク質構造にマッピングされるかについての既知のデータが与えられ、その後、見慣れない配列から新しい構造を生成するように学習します。 他のシステムでは、ニューラルネットワークを使って構造のある特徴を予測し、次に別のタイプのアルゴリズムを使って、その特徴を組み込んだもっともらしい構造を苦労して探し出すのである。
彼がリカレント幾何学ネットワークと呼ぶこのアプローチは、タンパク質のあるセグメントの構造を、その前後にあるものに基づいて部分的に予測するものです。 これは、文中の単語に対する人の解釈が、周囲の単語によって影響を受けることがあるのと同様です。これらの解釈は、今度は焦点となる単語によって影響を受けます。
技術的な問題により、AlQuraishi のアルゴリズムは CASP13 では良い結果を得られませんでした。 彼は4月にCell Systems誌でAIの詳細を発表し1、GitHubでコードを公開し、他の人がこの仕事を基に発展することを望んでいます。 (CASP13 でテストされたほとんどのタンパク質の構造はまだ公開されていないため、彼はまだ自分の手法と AlphaFold を直接比較できていません。)
ニューラルネットワーク
AlphaFold は CASP13 でうまく競争し、ある測定値によると、難しいターゲットで他のすべてのアルゴリズムより 15% 近く優れており、波紋を呼びました。
AlphaFoldは2つのステップで動作します。 タンパク質の配列をデータベース内の類似のものと比較し、鎖状に隣り合っていないものの、タンデムに現れる傾向があるアミノ酸のペアを明らかにします。 これは、この2つのアミノ酸が、折りたたまれたタンパク質の中で互いに近くに位置していることを示唆しています。
予測値を、タンパク質で正確に測定された距離と比較することにより、タンパク質がどのように折り畳まれるかについて、より適切な推測を行うことができるようになりました。
しかし、これらのステップだけでは、構造を予測することはできません。 そこでAlphaFoldは、第二段階として、物理的に可能な、しかしほぼランダムな、配列の折りたたみ配置を作成しました。
他のいくつかのチームは、どちらかのアプローチを使用しましたが、両方を使用したものはありませんでした。
他のいくつかのチームは、いずれかのアプローチを使用しましたが、両方を使用したチームはありませんでした。 第二段階では、ほとんどのチームが、ほぼ自動で行われる勾配降下法ではなく、複雑な最適化ルールを使用しました。
「彼らは素晴らしい仕事をした。 と Xu 氏は語ります。
今後の方向性
DeepMind はまだ AlphaFold の詳細をすべて公開していませんが、他のグループは、DeepMind や CASP13 の他の主要なチームによって実証された戦術を採用しはじめました。 コロンビアにあるミズーリ大学のコンピュータ科学者である Jianlin Cheng は、AlphaFold のいくつかの特徴を持つように、例えば距離予測の段階でニューラルネットワークにさらに層を追加するなど、自分のディープニューラルネットワークを修正すると述べています。
「同様のシステムが実用化されるのを楽しみにしています」と、AlphaFoldチームを率いたDeepMindのコンピューターサイエンティスト、Andrew Seniorは言います。
Moultは、CASP13では、他の深層学習がタンパク質折り畳みにどう適用できるのかという議論がたくさんあったと述べています。 近似構造予測の改良に役立つかもしれない、アルゴリズムが折り畳み予測にどれだけ自信を持っているかを報告する、またはタンパク質間の相互作用をモデル化する、などです。
また、計算による予測はまだドラッグデザインに広く使用できるほど正確ではありませんが、精度の向上により、変異タンパク質が病気にどう寄与しているかを理解したり、免疫療法のためにタンパク質のどの部分をワクチンにするか知るなど、他の応用も可能になっています。 「これらのモデルは有用になり始めています」と、Moult氏は言います。