Previous ToC Next

71. June 2009 Top 500 (2009/6/23)

2009/6 の Top 500 リスト がでました。とりあえず自分のところの話を書くと、 69 に書いたようにまだ効率がでていな いのと、建物その他の関係もあってまだ 128ノード、1ノード1カードで動いて いるので理論ピーク 85Tflops、実測22 Tflops と低い数字です。まだチューニ ング作業その他の真最中、というのが現状で、秋にはもうちょっとまともな数 字にもっていけると思います。が、これは主に場所の手配が間に合うかとかそ ういう話です。

GRAPE-DR のエントリーの特色は、 Nmax が 368640 と、非常に小さい、という ことです。1位の RoadRunner は 2329599、2位の ORNL Cray XT5 は 4712799 ですから、 10倍程度違い、メモリ量で 100 倍、計算量では 1000倍以上の違い があります。これは、もちろん、我々がGRAPE-DR のホスト計算機に掛けるお金 をけちっていて、メモリがあまり沢山ついていないからです。この、メモリが 少ない、ということが、HPL の実行効率が低いもっとも大きな要因であるのは 既に69 に書いた通りです。 GRAPE-DR システムは、あくまでも天文を含む様々な大規模シミュレーションのために構 築したシステムで、 LINPACK 専用機ではないので、実際に使う時にあまりいら ない大きなメモリにお金を使ってもしょうがない、ということもあります。

この数字から色々雑音を立てる人もいるとは思いますが、まあ、効率はあと 何割かはあがると思います。で、動作クロックは現在既にかなり上げて動くよ うになったので、これもいけるとは思います。

まあ、実際上の意味として重要なのは、現在のあまりチューニングが進んでい ない段階でも、ホスト計算機の性能をアクセラレータを使うことで5倍程度引き 上げることに成功した、ということだと考えています。アクセラレータ、といっ ても、例えば TSUBAME のようにアクセラレータのほうが遅いのでそんなに大き な効果はないシステムとか、 RoadRunner のように HPL が全部そっち側で走る ことができるので Opteron の側が(HPLに関する限り)むしろ意味がないシステ ムとかと違って、実際に汎用の x86 PC にアクセラレータを搭載し、DGEMM だ けを加速した上にHPL のソースコードを一部変更するだけで 5 倍の加速を実現 した、ということは、アクセラレータの有用性を十分に示すものと思います。

まあ、もうちょっとメモリがあってチューニングすれば5倍ではなくて20倍くら いに、、、というのは繰り言になってしまいますね。Top 500 のリリース文か らは

  Energy Efficiency and Other Trends

  As energy efficiency becomes a more critical issue for
  supercomputing centers, the TOP500 list now provides data on energy
  use, expressed as the number of megaflop/s per watt. While the most
  energy efficient supercomputers are based on IBM QS22 Cell processor
  blades (up to 536 Mflop/watt), A GRAPE-DR custom accelerator system
  (429 Mflop/watt) and IBM BlueGene/P systems (up to 372 Mflop/watt),
  the Intel quad-core blades are catching up fast, with the
  Nehalem-based system achieving up to 273 Mflops/watt and
  Harpertown-based systems up to 265 Mflop/watt.  
というところで、現在の恐ろしく低い実行効率でも energy efficiency では Cell 以外の全てのシステムにまさる、ということになります。さすがにあと2 倍くらいはあがるので、そうするとしばらく Energy Efficiency ではトップ になれるといいなあ、と思います。

世界では、上位のシステムはあまり変わりがなくて、BG/P が増えたとかくら いですが、国内では色々変化があります。天文台までの日本のシステムは

  22  JAMSTEC  SX-9     122.4 131.07
  28  JAXA     FX-1     110.6 121.28
  40  RIKEN    Xeon     87.89 96.75 <--- Nehalem EP
  41  TIT      ???      87.01 163.19
  42  U-Tokyo  Opteron  82.98 113.05
  47  Tsukuba  Opteron  77.28 95.39
  65  NIFS     IBM      56.65 77.00
  69  U-Tokyo  Xeon     54.21 69.12
  78  Kyoto-U  Opteron  50.51 61.24
  93  NIMS     Xeon     42.69 45.88 <--- Nehalem EP
  259 NAOJ     Opteron  22.93 28.58
  277 NAOJ     GDR      21.96 84.48
で、天文台は11位、上位10位は Xeon が3、 Opteron 3、後は SX-9, FX (Sparc), Power 6 (IBM), 東工大のヘテロジニアス、となります。数字をみて 感心するのは Nehalem-EP のシステムの驚異的な実行効率で、 SX-9 や FX-1 に見劣りしないものになっています。これは、なんといっても、素晴らしく高 いメモリアクセス性能が貢献していると思います。基本的に、コードを一切い じらなくても、行列乗算以外のところの速度が Harpertown とかの数倍になっ ているわけですから。

この、素晴らしく高いメモリアクセス性能は、 GRAPE-DR のホストとしては理 想的だというのは既に述べた通りですが、普通に使う上で一体何の役に立つん だろう?というのは疑問でなくもないです。まあ、 HPC では多くのアプリケー ションがメモリバンド幅リミットなので、大変素晴らしいプロセッサです。 HPC 以外でも、例えばデータベースサーバとかならやはりメモリアクセスリミッ トでしょうから、方向性としては良いのだと思います。
Previous ToC Next