2020年10月、新型コロナウイルス感染症の研究においてニューヨーク大学 (NYU) の研究者が画期的な発見をしました。新型コロナウイルス感染症の原因となるSARS-CoV-2ウイルスの構造生物物理学を明らかにしたのです。この発見は、NYUがLenovoの大型スーパーコンピュータを研究のためにニューヨーク都市圏に設置してからわずか数か月後のことでした。
研究技術担当副学長のデイビッド・アッカーマン博士 (Dr. David Ackerman) は「あの化学研究者の仕事は、古いインフラでは完成できなかったものです」と述べています。博士はNYUのITを担当し、NYU図書館の最高デジタル責任者、またNYUの研究技術サービスおよび戦略の責任者も務めています。「新しいインフラではわずか30時間しかかかりませんでした」
博士は、新しいスーパーコンピュータは「私たちにとっても世界にとっても、画期的なもの」だと言います。
しかし、東海岸で感染者数が急増している最中に、ハイパフォーマンスコンピューティング (HPC) クラスタを設置するのは簡単なことではなく、アクセスにも移動にも、顧客に会う条件にも制限がありました。それでもなお、Lenovoの不屈のエンジニア2人を止めることはできませんでした。
7月、クリス・エクホフ氏はNYUのスーパーコンピュータを設置するため、フロリダの自宅から24時間かけてニューヨークまで車を走らせました。距離にして1,600km以上です。
そしてそこで彼に合流したのが、もう一人のベテランLenovo社員、キム・チョルホ氏でした。2人は設置が滞りなく行われるように数か月ホテル住まいをし、ホテルの外では仕事と食料の購入のみという生活を送ります。
「とんでもない状況だったので、とんでもない時間を過ごしました」とクリス氏は振り返ります。「しかしサービスを続けないわけには行きませんでした」
また、設置作業も桁外れに緊急性の高いものでした。
博士は付け加えて、「どうしても早く行動しなければとばかり考えていましたね。Lenovoには『私たちにはこのスーパーコンピュータが必要で、世界を救うために必要なんです!』と書きましたよ」と語っています。
最高の技術は魔法に近いものになると言われますが、これこそ魔法のようなものです
— デイビッド・アッカーマン博士、研究サービス担当アソシエイト副学長兼NYU図書館最高デジタル責任者
Lenovoのスコット・ティーズ (Scott Tease) HPC・ARI担当ゼネラルマネージャーは「このシステムを使用する研究者の多くが新型コロナウイルス感染症の研究や、ウイルス感染の仕組みを細胞レベルで究明する研究を行おうとしていたので、必ず稼働させなければなりませんでした」と述べています。「NYUはこの困難な時期にシステムを稼働させるためのサポートを求め、Lenovoや他のベンダーに難易度の高い業務を要求しました」
これだけのサイズの複雑なシステムを未曾有の時期に構築して出荷するというのは、気弱な人には無理なことです。幸い2人は、業界をリードするLenovoのグローバルサプライチェーンチームに支えられてスーパーコンピュータの組み立てと工場でのテストをし、次にNYUデータセンターへの同期到着のロジスティックス管理まで休むことなく取り組み、稼働に間に合わせました。
NYUはその結果にこの上ない感銘を受けました。博士は、Lenovoを利用することの大きな魅力の1つは、Lenovo Neptune™液冷技術を搭載したハイパフォーマンスサーバーのポートフォリオだと言います。このシステムは、他のシステムよりも環境に優しく費用対効果が高いだけでなく、より強力です。
博士によると「当学独自のTOP500の数値では1.729ペタフロップの評価を得ています」とのこと。TOP500プロジェクトは世界で最もパワフルな500台のスーパーコンピュータのランキングと詳細を出したもので、その数値はペタフロップ数で測定されます。その数値は「直接水冷を採用しただけで」2.008にまで向上し、20%の向上となりました。
「最高の技術は魔法に近いものになると言われますが、これこそ魔法のようなものです」と言う博士。
この魔法の裏側には、HPCクラスタのインストールが間に合うように、専門知識と迅速性をもって24時間体制で仕事をしたチョルホ氏とクリス氏がいました。
「新しいスーパーコンピュータは私たちにとっても世界にとっても、画期的なものです」デイビッド・アッカーマン博士
通常、チームのうち1人のメンバーは、トラブルシューティングとハードウェアの問題の特定だけを担当します。「難しいのはトラブルシューティングで、特定のノードの動作が遅い理由や、ネットワーク設定が正しいかどうかなどの特定が含まれます」何かひとつでも弱点があれば不完全なクラスタになってしまい、非常に小さな問題でも構成に影響を与えます。
しかも今回は「テストをしたり部品を交換したり」と、いく通りものトライが必要でした。スーパーコンピュータの構築は、やはり簡単な仕事などではないのです。スーパーコンピュータには通常、並列に動作するコアが数万個以上使用されています。このようなデバイスのトラブルシューティングは、チョルホ氏によると、干し草の山の中から針を探すようなものだと言います。
クリス氏も「このプロジェクトは数多くの要因によって困難なものになりました」と補足しています。通常、HPCクラスタは、顧客と密接に連絡を取り合い2~3人のチームで設置するものです。今回は状況がまったく違いましたが、クリスはNYUの研究が滞りなく進むよう、仕事を押し進めて期限を守りました。
この経験は不可能に思えることでも成功が可能なのだと教えてくれた、と語るチョルホ氏。少なくとも「やってみるしかない」と悟ったのだと言います。
「他に選択肢があるとは思いませんでしたね」