ホーム
レノボニュースルーム
< ディレクトリに戻る
スーパーコンピュータによるコロナウイルス解析
グローバル・コミュニケーション・マネージャー、Justin Eure
2020年3月16日
わずか一滴の飛沫に数十億個のコロナウイルス粒子が含まれていることがあります。そして、これらの粒子の多くには微妙な差があり、それぞれに約 3 万個の DNA 塩基が含まれています。その驚異的な生物学的密度の中には、病原性から伝搬性まで、ウイルスのあらゆる側面を定義するウイルス・ゲノムが埋もれています。中国を始めとする世界中の研究者がすでにいくつかの COVID-19 のゲノム配列を解析しており、ウイルスに対抗するために不可欠な基本事項を臨床医や科学者に提供しています。
しかし、循環するコロナウイルスのゲノムを解析することは、ほんの始まりにすぎません。このパンデミックを理解するために、同じくらい重要であり、比較にならないほど困難なのが、感染者のゲノム配列の解析です。ここで、ウイルスと同じように多くの疑問が生じます。コロナウイルスはなぜ他のウイルスよりも感染力が強いのか?一部の患者が肺炎を起こして入院が必要になる一方で、その他の患者が軽い咳ですむのはなぜか?さまざまな治療やワクチンに対して個々の患者がどのように反応するか?これらの質問への答えは、個々の患者のゲノムと、その患者を感染させたウイルス株との相互作用の中のどこかにあるはずです。DNAによって決定されるこの相互作用が解析されれば、診断、ワクチン、免疫療法への方向性が見えてきます。
この感染症の最初の診断検査キットを開発したBGI Genomics 社の研究者や世界各地の他の研究者は、COVID-19 の人口規模のゲノミクスという骨の折れるプロセスに取り組んでいます。効果的なワクチンやその他の感染防止策を開発するためには大量のデータセットが必要であり、科学者はそのデータセットから潜在的な防御の遺伝的差異を特定します。この規模での作業では、テラバイトからペタバイトのデータが生成されますが、これはハイパフォーマンス・コンピューティング(HPC)による大規模な分析が不可欠です。
ゲノム配列を決定する速度は、計算能力の急速な加速に伴って飛躍的に向上しています。当初は 1 つのゲノムの決定に 10 年以上の時間と数十億ドルのコストがかかっていましたが、現在では完全に最適化されたハードウェア・アーキテクチャーを実行するスーパーコンピュータ・クラスターを利用し、わずか数時間で実行できるようになりました。ワクチン開発には 非常に長い時間がかかる可能性があると研究者たちは主張していますが、数多くの新しいツールが開発を加速するかもしれません。
BGI Genomics 社の CIO を務める Xiangqian Jin 氏は次のように述べています。「BGI Genomics は感染の合併症を分析して識別するために、数百の臨床サンプルの配列を決定しました。最新のハイパフォーマンス・コンピューティングとゲノミクス分析テクノロジーの利用は、分析効率を向上させるための重要な要素です」。
T7 シーケンサーで作業を行う BGI Genomics の研究者
BGI の取り組みを支援し、コロナウイルスとの戦いを主導できる力を研究者に与えるため、Intel 社とレノボは共同で専用のスーパーコンピュータ・クラスター (※1) を寄贈し、それを最大限に活用してもらうためのソフトウェアおよびハードウェアに関する専門知識を提供しました。
「私たちは、新しいコロナウイルスと最前線で戦うゲノム研究者や医療機関の重要な取り組みに貢献できることを光栄に思います」と、レノボでゲノミクス研究開発部門のグローバル・リーダーを務める Mileidy Giraldo 博士は述べています。Giraldo 博士はアメリカ国立衛生研究所でバイオインフォマティクス・サイエンティストとして長年にわたり感染症のワクチン設計に貢献し、現在はライフ・サイエンスのためのハードウェアおよびソフトウェアを開発するエンジニアと科学者との隔たりを埋める手助けをしています。「私たちは機器と専門知識を提供していますが、BGI の研究者が何かを成し遂げること、そしてその他の生物医学コミュニティの人々が BGI の発見に基づいて学び、開発することが真の貢献につながると考えています」
ゲノムの「本」の翻訳
地球上のすべての人間のゲノムを、それぞれ千ページの本で表すことができると想像してみてください。この奇妙な本には、AGCT という 4 つの文字しか使われません。DNA の塩基対合を表すこの 4 つのアルファベットには、髪の色、身長、さらには COVID-19 などの病気へのかかりやすさなど、人間を形作るありとあらゆる指示が記されています。これらの指示のほとんどは共通していますが、個人間で異なる重要な指示のすべてはほんの数ページに隠されています。
感染しやすさなどの特徴が特定の人にどのように現れるかを理解するには、関連する指示が記された正確なページ (つまり遺伝子) を特定する必要があります。これを実現するには、できるだけ多くの患者のページを比較して有用な共通点を特定し、これらのデータを活用して、その差異を感染に対する感受性または抵抗性と結び付けるしかありません。
このゲノムの翻訳と解釈という非常に困難な作業が、科学者と新しいコロナウイルスとの戦いの中心となっています。関連するヒト遺伝子産物と王冠様突起を持つウイルスとの複雑な相互作用を解読することで、プロセスを抑制または完全に停止する方法を解明できます。また、科学者はコロナウイルス自身の本の共通するページ、つまりウイルスが変異や差異を許容できないゲノム領域も探します。これらの領域が指し示すのは、利用可能なウイルスの弱点、つまり効果的なワクチンや治療法につながる可能性があると言えます。
効果的なワクチンの開発
科学者たちが病気に免疫のある人物を必死に探すという、爆発的感染を描いた映画には、わずかながら真実が隠されています。実際、自然免疫は効果的なワクチンの開発に役立つ重要な見識をもたらすことがあります。
「これらの映画に足りないのは、現実的な時間の尺度です」と Giraldo 博士は言います。「候補ワクチンを開発するためには、患者内および患者間で大きなデータセットを比較する必要があり、数か月から数年かけてゲノミクス作業を行いますが、映画ではそのすべてが描かれていません。また、有効性が高くリスクの低いワクチンが見つかるまでには、ワクチンを何度も微調整して試験を行いますが、映画ではこの臨床試験に必要な時間が無視されています」
ウイルス名の由来となった王冠状の突起を持つ輪を示したコロナウイルスの画像 (コロナはラテン語で「王冠」を意味する)
このウイルスに対する 2 人の患者の反応について考えてみましょう。1 人は命にかかわる肺炎を発症し、もう 1 人は一過性の咳だけです。この差を説明する根本的な違いとは何でしょうか。免疫力の低下、遺伝的素因、過去にかかった別の病気、年齢、性別、栄養状態、ウイルスの 1 つの株の優位性など、さまざまな理由が考えられます。たった 2 人の患者についてこれらの質問に答えることだけでも困難ですが、それが数千人ともなると複雑さははるかに増します。
しかし、大量のデータがあれば、遺伝子と環境の影響の両方について、無数のバリエーションをふるいにかけることができます。科学者が持っている臨床データとゲノムデータが多いほど、患者間の重要な共通点をより効果的に探し出すことができます。
人口規模のゲノミクスは、何十億ものデータ・ポイントからなるパスをもたらします。この新しいコロナウイルスについて、科学者たちは数万人の患者の DNA を比較したいと考えています。これはコンピューティングにおいても極めて大きな挑戦であり、HPC 環境でのみ利用可能な処理能力とデータストレージ容量が必要になります。
HPC レシピの最適化
ゲノムの研究が始まった当初は、読み終わるのに丸 10 年を要していました。最近では世界のゲノム研究者は、1 つのゲノム全体を約 150 時間で解析します。これは確かにすばらしい飛躍です。しかし、COVID-19 のパンデミックに対応できる速度にはまだ及びません。タンパク質をコードし、ウイルスを増殖させるビット (数ページに渡るエキソームと呼ばれる部分) を分離して配列を決定するだけでも、通常は 4 時間以上かかります。
現在、BGI の研究者は、数百のゲノム全体と数千のエキソームを集めて解析するために最適化された HPC クラスターを利用できます。
Giraldo 博士は次のように述べています。「私たちは、この寄付によって BGI の研究者が自由に使える既存のリソースを拡大し、生物医学コミュニティがより多くのことをより迅速に行えるようにしたいと考えています。人類最大の課題へのテクノロジーを利用した取り組みとして、科学者、臨床医、エンジニアの複合チームが、その頭脳を結集してコロナウイルスの世界的パンデミックに対抗するという、すばらしい例です」
レノボは、Intel が最初に開発した強力なソリューションを基に、ゲノム処理の時間を大幅に短縮するために最適化したハードウェアとシステム・アーキテクチャーを開発しました。人口規模のゲノミクスのためにレノボが開発したソリューションであるGenomics Optimization and Scalability Tool(GOAST) は、ブロード研究所のオープンソース・ソフトウェアである Genome Analysis Toolkit(GATK)を最適化したハードウェア・レシピで活用します。ゲノミクスを加速するための適切な最適化とハードウェア構成要素を特定するには、何百もの HPC 構成をテストする必要がありました。
Giraldo 博士は次のように述べています。「1 年間に及ぶこのプロセスは、科学者の実際のニーズに完全に焦点を当てたものでした。研究者の時間は、基盤となるハードウェアではなく、科学に焦点を当てることでより効果的に使われます。そのため、私たちは、実行時間を短縮する適切なハードウェア・レシピを見つけるために、利用できるすべてのハードウェア構成要素の体系的な置換テストを実施しました。このツールをすぐに展開できるものにするために、私たちのテストでは、研究者がラボで使用しているのと同じソフトウェアを使用しました」
その結果、ヒトゲノム全体の配列決定を 5 時間半、エキソームについてはわずか 4 分で完了できるようになりました。これは、最大 40 倍の高速化です。専用のスーパーコンピューティング・クラスターの支援を受け、BGI の研究者たちは間もなく、GOAST を使用して、COVID-19 のワクチン開発のための長い道のりに乗り出すことになるでしょう。
また、短期的には、患者の優勢なウイルス株に基づいて病原性を予測することで、病院がより効果的に患者をトリアージできるようになるかもしれません。つまり、患者が病院に到着してすぐにもっともリスクの高い患者は誰か、そして効果が期待できる治療法は何かを判断できるようになる可能性があります。長期的には、ワクチン開発だけではありません。COVID-19 ゲノムにはその起源を解明するヒントも含まれています。ゲノムの歴史と起源を知ることで、将来の爆発的感染の予測と予防に役立てることができます。
ゲノム解析は驚異的な密度を持つ、非常に難しいパズルのようなものと言えます。
しかしテクノロジーは、COVID-19 に感染した人々の特定とウイルス・ゲノムの特性の研究を加速し、正確な診断、治療、そして感染拡大防止を強力にサポートしていきます。
※1複数のコンピュータを統合化し高い処理速度を得られるもの