./note037.html

では、メモリバンド幅がいる計算の典型である流体コードではどうか？というと、本当はそんなに事情は変わりません。計算コードは結構膨大なサイズになりますが、その全てに演算時間が同じように分布するわけではもちろんないからです。結局、計算量の大半は単純な差分計算であったりします。特に並列化するとか、適応格子にするとかになると、計算コードのほとんどの行はそういった、数値計算とは無関係な処理をするわけで、それらには大した時間はかかりません。

しかし、流体コードの面倒なところは、だからといって GRAPE でやっているように計算コードのほとんどはそのままホスト計算機で動かして、計算が重いところは専用機で、というわけにはいかないことです。その理由は、格子点データ当りの計算量は粒子コードのようには大きくないので、ホスト計算機のメインメモリと専用機のメモリの間をステップ毎にデータ転送していたらそれだけでもう性能がでないからです。このため、あまり極端に面倒なことをしないで性能をだそうと思うと、格子点データをボード側に載せたままで、ホスト計算機のプログラムからそこそこ高速にアクセスできればいいような気がしてきます。

実は、落ち着いて考えるとこれは何か変な話です。というのは、例えば PCI-Express 16 レーンを使うと双方向で 4GB/s の転送バンド幅があるわけですが、これは現在の PC の主記憶の理論ピーク性能と大して変わらないからです。実際に問題がないかというとそうでもなく、それは特にランダム読み出しが非常に遅くなるからです。 PCI-Express で特に転送幅が大きいものはグラフィックカードが主な用途なので、 CPU 側からの書き込みは結構な速度がでるように出来ていますが読み出しはあまり必要がないので非常に遅いのが普通です。このため、単純に PCI-Express ボード上のメモリを主記憶にマッピングして CPU がアクセスするので性能を出す、というのはちょっと難しい話になります。もっとも、この辺はソフトウェア分散共有メモリのシステムで使っているようなページ単位でキャッシュする仕掛けで済むかもしれません。もうひとつの方法は、チップ側に CPU をのせてしまうことでしょう。大して速いものでなくていいわけですから、演算速度も大していりません。

ここまで書いてようやく気が付きましたが、これは、要するに IBM Roadrunner そのものですね。CELL が、非常に演算性能は高いけどどうやってプログラムを書くつもりなのか想像がつかない 8 コアのプロセッサと、まあ普通な PowerPC アーキテクチャのマイクロプロセッサを統合したチップで、でもこれだけだとなんかまともに使える気がしないのでOpteron もつけてみました、というものだからです。RoadRunner 自体プログラミングモデルをどうするつもりかとかは不明です。が、流体計算とかでまともな性能を出すためにはにはデータは CELL につながったメモリに置く必要があるからです。この構成だと、例えばネットワークの制御とか OS を走らせることとかには Opeteron が使えるのでその辺の開発の手間が省けるのが利点です。

そういう観点で見ると、CELL の問題はメモリバンド幅が PC 並でしかないことと、そのためにメモリバンド幅を同じにした時の価格や発熱があまり PC と変わらないことです。まあ、これはつまり、 PS2 の時と同じで、数年チップが速くならないということもあって x86 系に追いつかれる、というだけです。もちろん、細かく見ると、浮動小数点演算性能、メモリバンド幅ともに中途半端で、HPC に使うならもうちょっと上げるべきであった、ということになります。ゲームにそんな性能が本当に必要かどうかは疑問ですが。

ここでの結論を整理すると、結局のところ

非常に高いメモリバンド幅(GPU 並以上)
そこそこの浮動小数点演算性能(チップ当り 50-100Gflops)
簡単だけどコンパイラがある CPU

を組み合わせ、

今どきのハイエンドGPU よりは低い発熱

を実現するようなチップを例えば 130nm プロセスで作るのは必ずしも不可能ではなく、その辺があると GRAPE-DR ではカバー出来ていないアプリケーションも結構速く走る、ということになります。

AMD は ATI を買収して CPU、 GPU を統合するので、 GPU 側をもうちょっと HPC で使いやすいものにすれば上が実現されます。なので、この方針で何か作るならそれと競争して勝てるかどうか、という話になるでしょう。

AMD の場合の鍵は、結局統合した GPU の側が普通にプログラムできるようなものかどうかになると思います。

メモリバンド幅を増やすのはどうしてもプロセス技術、チップ製造技術、パッケージ技術といったものに投資する必要があって、チップの中身だけではすまないので、そういう技術が全部既にあってそれを組み合わせればすむ、というのでない限りお金がかかります。

大学とか国の研究所とかでお金も人手もないところで AMD とかにまともに対抗しようというのは国家プロジェクトになって湯水のようにお金がふってくるとかいう話でなければ現実的ではありません。

まあ、これは結局のところ私が流体計算の専門家ではないから良くわからない、というだけの話で、誰かがちゃんと考えればいいのかもしれません。

Previous ToC Next