Previous ToC Next

41. BlueGene/P と RoadRunner (2007/1/2)

若干旧聞になりますが、 SC06 で IBP は BlueGene/P のボードを展示してい たようです。 安藤 さんの記事で写真が紹介されています。これは 72k ノードで1ペタフロッ プスといわれているとのことで、チップ単体性能を BG/L にくらべ 2.5 倍ほ どにしています。これを、

という程度で実現しようとしていると見られています。上の写真をみると、 BG/L ではアルミだったヒートシンクが銅に変わっていたり、また BG/L では ドータカードに2つ載っていたプロセッサチップが1つに減って、ドータカード の数が倍になっていたりするのがわかります。ボード中央にある巨大なブロッ クは DC/DC コンバータとのことで、かなり消費電力、発熱密度が上がってい ることが想像されます。例えば 1.5 倍程度になっているとすると、電力当り の性能は 1.5 倍程度にしかなっていないと思われます。つまり、 BG/L は 1Gflops あたり 4W 程度でしたが、これが 2.5 W になる程度でしょう。 1Pflops システムでは従って消費電力が 2.5MW ということになります。

ちなみに、 CELL の倍精度強化版を使うと発表があった IBM RoadRunner は IBM な人のブログ によるとピーク 1.7Pflops で電力は 6MW になる見込みのようです。 BG/P と大した差ではないので、どっちか止めてしまってもいいような気がしますが、 それでも両方進められるところが IBM の、というかアメリカの懐の大きなと ころです。

Ken Kochのプレゼンテーション資料にもう少し細かい情報がありますの で、少し詳しくみてみましょう。 スライド 9 では、2007年末に倍精度拡張版 の CELL を作る、となっています。スライド 11 で1ノードの構成がでていて、 AMD Opteron 4 ソケットのノードに 2 チップの CELL ノードを4個、合計 8 個の CELL チップをつけるとなっています。ピーク性能は CELL 側で 800 Gflops、 Opteron 側で 40 Gflops 程度を想定しているようです。

これはなんだか不思議な構成で、 2008年なら Opteron は 4コア4演算になっ ているので 1ソケット 50 Gflops は軽いので、 CELL の 100Gflops と倍しか 変わりません。消費電力もあまり差はないでしょう。あえて 2008年になって も2コア2演算の Opteron を使うつもりなのかもしれませんが、なんか割にあ わない話です。もっとまっとうな方針は Opteron 4 ソケットを止めて2ソケッ トにすることです。 これは非常に大きくコスト減になるし、また性能につい て不確定要因が減るので望ましいことと思われます。

とはいえ、2008年時点で性能・消費電力で倍精度版 CELL の Opteron に比べ たメリットはかなり小さくなっていると思われます。そうすると、それを Opteron と組み合わせたシステムの有効性はあるのか?というのは気になると ころ、というのは修辞表現で、まあ、早く止めたほうがいいのではないかと私 は思います。

もっとも、IBM の計画では CELL は汎用のブレードラックに入るように設計さ れて、接続も汎用の IB なので、これを本当に Opteron ブレードに交換する だけでより使いやすく、安価で実効性能も高いシステムに即座に切換えられる し、また Power 6 とかでブレードを出すならそっちにも交換できるわけです。 その意味では、良く考えられたリスクが少ない計画だと思います。

RoadRunner システムの問題点はなんだか一杯あるのですが、基本的なことは 元々 CELL チップの中に PowerPC コアと SPE コアがあってどう使えばいいか わからないのに、なぜさらにOpteron を追加してもっとややこしくて使いかた がわからないシステムにしないといけないのか?ということでしょう。もちろ ん、 PowerPC コアの性能は汎用プロセッサとして見劣りするものなので、も うちょっとなんとかしたい、というのはわからなくはないですが、さらに Opteron を追加することで使いやすくなるかというとそれは難しいわけです。倍 精度版にするついでに PPC コアも強化するほうが無難だったように思います。

あ、話がすっかり RoardRunner のほうにいきました。このように問題だらけ に思われる RoardRunner にくらべて BG/P はどうでしょうか?おそらくクロッ ク 900MHz 程度、4コア4演算で 14.4 Gflops と Intel Core 2 Quad や今年後 半には登場すると思われる AMD K8L コアのプロセッサに比べて 1/3 以下の性 能です。消費電力はシステムとして1チップ当り 35-40W 程度でしょうから、 まあ、うーん、というところです。現在の 4 コア Intel chip で作ったシス テムに比べて倍程度はいいかもしれません。

CELL にしても、 BG/x にしても、基本的な問題は製品開発サイクルが長いこ とです。 CELL は 2005年始めにはチップが動いていたわけで、あまり性能が 上がらず倍精度になるだけのために3年以上かかったわけです。普通の 10年で 100倍のトレンドではその間に周りは5倍性能があがるので、始めによほど大き な性能メリットがないとできた頃には陳腐化するのは当然です。 BG/x もやは り3年程度の開発サイクルになるので、元々 PC と差がない分いっそう厳しい 状況におかれます。x86 プロセッサの開発方向が急激に変化して、高い性能を 目指すのを止めるのでなければ、これらのシステムは HPC マーケットの中で も決して主流にはならないでしょう。

まあ、その、色々な実験をするのはいいのですが、成功する可能性がもうちょっ と高いものを考えてみてもいいような気もします。
Previous ToC Next