./note072.html

ToC

71. June 2009 Top 500 (2009/6/23)

2009/6 の Top 500 リストがでました。とりあえず自分のところの話を書くと、 69 に書いたようにまだ効率がでていないのと、建物その他の関係もあってまだ 128ノード、1ノード1カードで動いているので理論ピーク 85Tflops、実測22 Tflops と低い数字です。まだチューニング作業その他の真最中、というのが現状で、秋にはもうちょっとまともな数字にもっていけると思います。が、これは主に場所の手配が間に合うかとかそういう話です。

GRAPE-DR のエントリーの特色は、 Nmax が 368640 と、非常に小さい、ということです。1位の RoadRunner は 2329599、2位の ORNL Cray XT5 は 4712799 ですから、 10倍程度違い、メモリ量で 100 倍、計算量では 1000倍以上の違いがあります。これは、もちろん、我々がGRAPE-DR のホスト計算機に掛けるお金をけちっていて、メモリがあまり沢山ついていないからです。この、メモリが少ない、ということが、HPL の実行効率が低いもっとも大きな要因であるのは既に69 に書いた通りです。 GRAPE-DR システムは、あくまでも天文を含む様々な大規模シミュレーションのために構築したシステムで、 LINPACK 専用機ではないので、実際に使う時にあまりいらない大きなメモリにお金を使ってもしょうがない、ということもあります。

この数字から色々雑音を立てる人もいるとは思いますが、まあ、効率はあと何割かはあがると思います。で、動作クロックは現在既にかなり上げて動くようになったので、これもいけるとは思います。

まあ、実際上の意味として重要なのは、現在のあまりチューニングが進んでいない段階でも、ホスト計算機の性能をアクセラレータを使うことで5倍程度引き上げることに成功した、ということだと考えています。アクセラレータ、といっても、例えば TSUBAME のようにアクセラレータのほうが遅いのでそんなに大きな効果はないシステムとか、 RoadRunner のように HPL が全部そっち側で走ることができるので Opteron の側が(HPLに関する限り)むしろ意味がないシステムとかと違って、実際に汎用の x86 PC にアクセラレータを搭載し、DGEMM だけを加速した上にHPL のソースコードを一部変更するだけで 5 倍の加速を実現した、ということは、アクセラレータの有用性を十分に示すものと思います。

まあ、もうちょっとメモリがあってチューニングすれば5倍ではなくて20倍くらいに、、、というのは繰り言になってしまいますね。Top 500 のリリース文からは

  Energy Efficiency and Other Trends

  As energy efficiency becomes a more critical issue for
  supercomputing centers, the TOP500 list now provides data on energy
  use, expressed as the number of megaflop/s per watt. While the most
  energy efficient supercomputers are based on IBM QS22 Cell processor
  blades (up to 536 Mflop/watt), A GRAPE-DR custom accelerator system
  (429 Mflop/watt) and IBM BlueGene/P systems (up to 372 Mflop/watt),
  the Intel quad-core blades are catching up fast, with the
  Nehalem-based system achieving up to 273 Mflops/watt and
  Harpertown-based systems up to 265 Mflop/watt.

というところで、現在の恐ろしく低い実行効率でも energy efficiency では Cell 以外の全てのシステムにまさる、ということになります。さすがにあと2 倍くらいはあがるので、そうするとしばらく Energy Efficiency ではトップになれるといいなあ、と思います。

世界では、上位のシステムはあまり変わりがなくて、BG/P が増えたとかくらいですが、国内では色々変化があります。天文台までの日本のシステムは

  22  JAMSTEC  SX-9     122.4 131.07
  28  JAXA     FX-1     110.6 121.28
  40  RIKEN    Xeon     87.89 96.75 <--- Nehalem EP
  41  TIT      ???      87.01 163.19
  42  U-Tokyo  Opteron  82.98 113.05
  47  Tsukuba  Opteron  77.28 95.39
  65  NIFS     IBM      56.65 77.00
  69  U-Tokyo  Xeon     54.21 69.12
  78  Kyoto-U  Opteron  50.51 61.24
  93  NIMS     Xeon     42.69 45.88 <--- Nehalem EP
  259 NAOJ     Opteron  22.93 28.58
  277 NAOJ     GDR      21.96 84.48

で、天文台は11位、上位10位は Xeon が3、 Opteron 3、後は SX-9, FX (Sparc), Power 6 (IBM), 東工大のヘテロジニアス、となります。数字をみて感心するのは Nehalem-EP のシステムの驚異的な実行効率で、 SX-9 や FX-1 に見劣りしないものになっています。これは、なんといっても、素晴らしく高いメモリアクセス性能が貢献していると思います。基本的に、コードを一切いじらなくても、行列乗算以外のところの速度が Harpertown とかの数倍になっているわけですから。

この、素晴らしく高いメモリアクセス性能は、 GRAPE-DR のホストとしては理想的だというのは既に述べた通りですが、普通に使う上で一体何の役に立つんだろう？というのは疑問でなくもないです。まあ、 HPC では多くのアプリケーションがメモリバンド幅リミットなので、大変素晴らしいプロセッサです。 HPC 以外でも、例えばデータベースサーバとかならやはりメモリアクセスリミットでしょうから、方向性としては良いのだと思います。

Previous ToC Next