Cray XT3 はサンディア研究所の Red Storm を商品化した機械です。サンディ
アは 90年代初めから超並列計算機に大きな投資をしてきており、 i860 プロ
セッサベースの Intel Touchstone Delta, Intel Paragon の後、 Pentium
Pro (後に Pentium II 333MHz プロセッサに交換)を使った ASCI Red マシン
を 1997 年に導入し、汎用計算機としては世界で初めて 1 Tflops を超えるピー
ク速度を実現しています。
ASCI Red は ASCI 計画の最初を飾るマシンだったのですが、そのあと Blue,
White, Q, Purple はどういう事情かサンディア以外の研究所に入っていて、
ASCI Red は更新されていませんでした。後継となる Red Storm の計画がアナ
ウンスされたのは 2002 年、地球シミュレータが稼働を始めてからのことです。
ここで、 Touchstone Delta 等 Intel プロセッサを使った並列計算機の
歴史を振り返っておきましょう。 Touchstone は Intel が開発した機械で、
その前身は iPSC/860、さらにその前身は iPCS/2 ということになります。
iPSC/1 と 2 は Intel 80286/386 ベースのハイパーキューブで、 64ノード
程度のものまであったように思います。ネットワーク物理層はイーサネットで、
OS は NX という独自 OS だったようです。これらは実験機としては色々なと
ころで使われましたが、大規模な数値計算に使うにはピーク性能が低いもので
した。
しかし、ノードプロセッサを i860 に変更した iPSC/860 では状況が変わりま
す。 i860 は発表当時ワンチップ・クレイ-1 といわれたこともあったように、
マイクロプロセッサとして初めてほぼ完全なパイプライン化した浮動小数点演
算器(乗算はスループットが2サイクルに1演算でしたが)を持ち 10 Mflops を
大きく超えるピーク速度を実現しました。当時のスーパーコンピューターであ
る Cray YMP の単体性能が 333 MFlops であったことを考えると、差が極めて
小さくなっていることがわかります。 i860 を数十個使った並列計算機は YMP
を超える性能をはるかに安価に実現できることになります。
iPCS/860 はハイパーキューブ構成のためノード台数に限界があり、 128 程度
より大きなものは作られていません。 Touchstone Delta はネットワークを 2
次元メッシュに単純化することで無制限に大きな機械を作ることを可能にしま
した。 1993 年には約 4000プロセッサを結合し、初めて(航技研の NWT とほ
ぼ同時に?)ピーク性能が 100 Gflops を超える並列システムが実現しました。
1996 年には i860 のかわりに 200 MHz Pentium Pro を使い、 9000 プロセッ
サを 2 次元(厳密には3次元だが z 方向は2層だけ)結合した ASCI Red が完成
します。但し、この時に既に Intel は HPC マーケットから撤退しており、
ASCI Red は1台切りの機械となっています。
ハイパーキューブを単純に2次元メッシュにし、さらに台数も増やしたのでは
もちろん効率低下は避けられません。しかし、Touchstone から ASCI Red に
いたる機械では、メッシュ結合を十分に速くすることで問題を相当程度まで回
避しています。
アプリケーションを走らせる側から見ると、 ASCI/Red のフラットで高速なネッ
トワークは他の ASCI マシンで使われた SMP ノードを多階層のスイッチで結
合するものよりも扱いやすかったようです。
サンディア研究所の側から見ると、 RedStorm は ASCI/Red の直接の子孫であ
り、Pentium II プロセッサを AMD Opteron にして作り直したもの、と見るこ
とができるでしょう。伝統的な非常に高速なメッシュ結合を受け継いだものに
なっています。
Cray の側から見ると、これは Cray MPP、つまり、1993 年に発表された Cray
T3D の流れを継ぐものになります。 T3D は Cray が初めて出した MPP であり、
150 MHz の Alpha 21064 をノードプロセッサとし最大 1024 プロセッサを
150MB/s の高速3次元トーラスネットワークでつなぐ、という、設計思想は Intel SSD のマシンと極めて近いものです。Alpha プロセッサが 21064
(EV4) から EV5 に世代を変え、クロックも 150 MHz から 600 MHz まであが
るのにともなって T3D(EV5 版は T3E)は順調に性能を上げ、1990年代中頃の
HPC マーケットでのもっとも重要なプレイヤーとなりました。
しかし、 T3x の成功は Cray Reserach という会社をサポートするには十分で
なく、 1996 年に Cray は SGI に吸収されます。この時点で、 T3E の直接の
後継は開発がストップします。 SGI は分散共有メモリ、 MIPS プロセッサベース
の Origin を主力とする計画だったからです。 SGI はしかし、結局 Cray 部
門を 2000 年に Burton Smith が率いる Tera Computer に売りはらうことに
なります。 HPC 分野で収益を上げることができなかったということでしょう。
この分離により、 T3x 系列が復活できる土壌は出来た、ということになるわ
けです。
この、サンディアとクレイの流れが融合して生まれたのが RedStorm (Cray
X3T) ということになります。T3D の直系の子孫であることを示す 7.6GB/s も
のバンド幅を持つ3次元トーラスネットワークと、Intel SSD の香りを残す
(Intel ではなく AMD となっていますが) AMD Opteron プロセッサの結合です。
Opteron は単体プロセッサの名目ピーク性能は決して高いものではありません
が、2005年末時点では Intel Xeon プロセッサに比べて強力なメモリインター
フェースと低い消費電力を誇り、 汎用性を重視するユーザーには魅力が大き
いものです。
BG/L と比べると、ノード当りのピーク演算性能はほぼ同じ、メモリバンド幅
も大差ありませんが、 CPU クロックは 4 倍近く、消費電力もおそらく数倍に
なっています。これだけではいいところなしですが、ネットワークはバンド幅
では 50 倍程度高速になっています。レイテンシは1マイクロ秒前後で大差な
いようです。このため、 BG/L では通信バンド幅が性能をリミットするような
場合でも、 XT3 では高い性能がでる、ということが理論的には期待されます。
これが実際にユーザーにどう評価されるかは今後の問題ですが、問題は価格差
でしょう。 XT3 のノード当り価格は 100 万円前後と思われ、 Dual Core
Opteron をつけた場合でも、現時点では同じピーク性能の BG/L の数倍の価格
になると思われます。実行効率の差がこの数倍のピーク性能差をひっくり返す
ことができるかどうかは問題によりますが、商品としては微妙な位置付けにな
るでしょう。
とはいえ、 x86 プロセッサは開発コストをプロセッサメーカー(と多くの PC
ユーザー)が負担し、 HPC ベンダが負担する必要がない、というのは標準品に
近いとは言えカスタムプロセッサを開発した BG/L との大きな違いです。順調
に売り上げを伸ばすことが出来れば、開発コストも小さくなり XT3 のほうが
相対的に優位になることも考えられます。また、 T3E でそうであったように
プロセッサが速くなればそれだけで性能向上ができるのが大きな競争力になり
ます。 この 1-2 年を切り抜けることが出来れば、 XT3 とその後継には明る
い将来があるように思います。
2005/12/6 記