./note153.html

ToC

151. 富岳の Top500 3連覇と MN-3 の2度目の Green500 1位から、ポストエクサスケールを考える(2021/7/4)

2021年6月の Top500 は大きな動きはなく、富岳が 2020年6月、11月に続き3連覇となりました。関係者の皆様おめでとうございます。一応牧野もこれの開発プロジェクトの副プロジェクトリーダーだったので関係者ではあります。

富岳の1位が長く続いたのは、エクサスケールプロジェクトをもっている米中どちらも開発が遅れている、ということの現れです。米国は当初は2018年予定だった Aurora が(この時にはサブエクサでしたが)、Intel KNH のキャンセルをうけて2021年の予定だったのがさらに Xe が遅れて 2022年以降になる見込みです。中国はいつまでにといっていませんが、2014年頃には 2018年にも、という話だったのがとりあえずそうなってはいません。

米中が遅れている理由は色々あると思いますが、技術と運用コストの関係からみると明らかなのは、電力性能がエクサ超えを実現できるところまできていない、ということです。富岳は最大 40MW 近い巨大な電力供給を実現したことで、 15GF/W の電力性能ながらピーク性能 500PF超えを実現しました。しかし、現行の米中の最大規模のシステムの消費電力はせいぜい15MW であり、1EF マシンでも30MW を想定はしていないようです。例えば 25MW としても、1EFの実現には 40GF/W を達成しなければなりません。

では実際にどの程度の電力性能が実現されているのかは、Green 500 のほうをみればわかるわけです。2020年6月からの3期、PFN の MN-Core と NVIDIA A100 が鍔迫り合いを繰り広げていて、2020年6月は MN-Core, 11 月は A100、今回2021年6月は僅差で MN-Core となりました。

この3回の電力性能は、21.1, 26.2, 29.7 GF/W で、ハードウェアが変わってないのに随分上がっているのでこれからまだもうちょっと上がるかもしれないですが、まあ 30GF/W としましょう。そうすると、これらのプロセッサでそのまま1エクサフロップスのマシン作ったとしても、富岳並みの33MW が必要ということになります。 25MW に抑えるにはもっと高い電力性能が必要です。 A100 は TSMC の N7 プロセスを使っていて、例えばアップルの M1 プロセッサはその次の世代の N5 を使っているわけで、N5 を使えばおそらく A100 の設計から大きく変えないで 40GF/W が実現できると考えられます。実際にそうなるかどうかは別にして、リーゾナブルな電力消費で1EFを実現するにはN5世代が最低線ということです。

まあその、MN-Core はPFNの発表資料にあるように N7 ではなくてその1世代前の 12FFC なので、N5 までいくと2倍以上電力性能をあげることができる計算です。また、色々な制約があってHPLの実行効率はまだ低く、こちらでも改善の余地はあります。ちょっと楽観的かもしれないですが、N5で頑張って設計すれば HPL で 80GF/W 程度はいけると思います。

とはいえ、80GF/W になったところで 1EF が 2EF になるだけです。富岳完成から8年後の2028年に、10年で100倍なら富岳の40倍、 20EFを実現したいわけですが、そんなことは可能でしょうか?

極めて楽観的に、半導体があと3世代変わって、1世代毎に消費電力が 30% 下がるとします。これはもうCMOS スケーリングからでてくるものではなく、主に電源電圧を下げることの効果です。そうすると、電力性能は3倍になって、 MN-Core なら 240GF/W、A100延長でも120GF/W までいきます。それでも、 3-6EF です。

トップ500のページを見ると、例えば合計性能の上昇が 2013/6 で明らかに折れ曲がっていて、2013/6 に229PF、2021/6に2.8EF、7年間に12倍で、これは10年間に36倍、 8年なら17.5倍です。それでも8EF は欲しいところで、MN-Core の延長でもまだちょっと不足です。300GF/W が必要だからです。

日本のコミュニティの活動である NGACI の予測では GPU ベースで 50MW で 18EF で、25MWだと 9EFです。これはピーク性能と思いますが少し楽観的かもしれません。A100 の延長からさらに3倍電力性能をあげる仕掛けが必要です。

一つの方向は、倍精度演算ではなくて単精度演算の性能で十分高いものを目標にすることです。単精度なので目標2倍とすると、単精度 600GF/W が目標になります。これは実は MN-Core アーキテクチャでは実現可能域で、というのは半精度の電力性能はMN-Core でも A100 でも倍精度の16倍あり、同様な回路設計で単精度なら4倍が実現できるはずだからです。つまり、2028年に単精度なら MN-Core 960GF/W、A100 480GF/Wです。概ね 1TF/W, 500GF/Wですね。一方、富岳の 40倍、単精度 40EF を実現するには 1.6TF/W が必要で、 MN-Core アーキテクチャでもまだ 1.6倍不足です。A100 だと3倍です。

クロック速度を犠牲にすれば、コア電圧を極限まで下げることでこの程度の電力消費の低減は実現可能性範囲にはいってくるものと思われます。 TSMC N12e は正式に 0.4V をサポートします。N7 で典型的と思われる 0.7V に比べるとそれだけで 3 倍の電力性能で、0.35までいけば4倍です。もちろん、シュリンク自体がある程度の電圧低下を想定しているので、これが全部余計に使えるわけではないですが、1.5倍程度は可能でしょう。

あとは、プロセッサコアのアーキテクチャでどれだけ稼ぐことができるかです。ここはまだ、演算器だけの電力に比べるとMN-Core でも多分3倍程度なので、演算器以外を演算の半分程度に減らしたアーキテクチャではさらに2倍で、単精度 2TF/W が実現できます。

ここまでの議論をまとめると、MN-Core や A100 の延長で考えて、プロセッサコアアーキテクチャの改良も考慮すれば、2028年の半導体技術で単精度で 1-2TF/W は実現可能あり、25MW でも 25-50EF、50MW 使うなら 100EF が視野にはいる、というところになります。

ここで、演算よりデータ移動のほうに電気使うんだからこんなことを考えてもどうにもならないんじゃないか?という意見を検討します。

まず、データ移動のほうに電気が使われる、というのは全くその通りです。配線1cm のキャパシタンスはオーダーとして 1pF で、これは微細化しても、線幅とグラウンドプレーンと配線の距離の比が変わらなければ変わりません。なので、 0.6V で 1cm の線の電位を反転させるのに必要なエネルギーは、64ビット2語読んで1語書くのに 96ビット反転するとすれば17pJ ですから、これだけで 60GF/W に相当する電力が使われてしまいます。

なお、実際には、微細化すると配線長当りの抵抗が大きくなるので、RC遅延がどんどん大きくなります。これを多少とも改善するためには中継ドライバをいれるわけですがこれにも限界があり、パイプラインレジスタをいれて遅延も電力消費もどんどん大きくなることになります。これはアプリケーションの性能にも電力性能にも大きなインパクトがあります。

このことが何を意味するかというと、 HBM にしても GDDRx にしても、いわゆる 2.5次元配線、つまり、プロセッサチップとメモリチップを横に並べて、その間を配線でつなぐアプローチには限界があるし、さらにいうとそもそも大きなプロセッサチップの中で演算器とキャッシュメモリの間に物理的に距離があるような設計も無理になってきている、ということです。

3次元実装でメモリとプロセッサの距離を短くするなら、現在の HBM のようにプロセッサチップの端からシグナルをだすのでは駄目で、プロセッサチップの上にメモリをのせて、チップ全域にシグナルを分散させることでプロセッサチップ内の横方向のデータ移動を減らす必要があります。これはつまり、オンチップのメモリはプロセッサコア毎のローカルメモリにならざるを得ない、ということでもあります。

階層的なキャッシュでは絶対に駄目か、というと難しいですが、少なくとも現在の典型的なプロセッサで見られるような L1-L2-LLC と下にいくほど容量が大きくなるものでは電力性能をある程度以上あげるのは困難です。どうしても LLC に多くのアクセスが発生するからです。キャッシュを使うとすれば、発想を逆転させた、L1 に主要なデータをすべておいて、Stanford DASH やそれに基づいた SGI の分散共有メモリマシンのようなアプローチでコヒーレンシを実現する必要があるでしょう。

実際問題としてはこれも困難で、Sunway SW26010 でとっているような、あるいは Sony PS3 でとったような、主記憶とは別のアドレス空間にローカルメモリをもつアプローチが電力性能の観点からは現実的ということになります。

これは例えば行列乗算を例にしても明らかで、コア間の放送や総和をサポートすることで、階層キャッシュアーキテクチャに比べて長距離のデータ移動を劇的に減らすことができます。

もちろん、既存のアプリケーションがそのままでは性能がでない、という問題はあるものの、 SW26010 ではコアグループに1つはキャッシュをもつプロセッサとすることで、段階的なアプリケーションの移行を可能にしています。

一般論として、演算よりデータ移動のほうに電気が使われるのならば、ソフトウェアやアルゴリズムの開発としては演算量を増やしてでもデータ移動を減らす方向の開発が重要になります。実際に多くの分野でもう数十年に渡ってそのような方向の研究開発が進んでいます。これはかなり上手くいっており、その結果、演算の電力性能が問題になるわけで、演算よりデータ移動のほうに電気が使われるからこそ、演算の電力性能が今後ますます重要になるのです。

すなわち、これからの方向として、ソフトウェア・アルゴリズムは演算を増やしてでもデータ移動を減らす方向の研究開発が重要になり、プロセッサアーキテクチャ、特にメモリ階層アーキテクチャはそれを可能な限りサポートするものにならなければいけません。その辺の原理的な検討をせずに、現在のアーキテクチャの延長に将来がある、と考えるのは極めて危険なことです。

原理的には、単精度主体として 2028年には 1-2 TF/W は実現可能であり、 50MW を許すなら 100EFはありえる、ということになるでしょう。倍精度だと 25EF程度ですが、2028年に富岳の50倍ならば素晴らしい性能といえるのではないでしょうか。

Previous ToC Next