Next: 5 GRAPE における「成功」 Up: 専用計算機の将来――GRAPEの挑戦 Previous: 3 GRAPE アーキテクチャ

4 専用機の利点 -- 汎用機の欠点？

前節では、 GRAPE アーキテクチャの基本的な原理と、それが最新の GRAPE-6 ではどのように実現されているかを簡単にみた。汎用計算機と比べた時の本質的な利点は、専用化してやることを固定しているために、チップ上のトランジスタのほとんど全てを演算器に使い、それらを全て並列に動作させることが可能であるということである。

これは、言い換えると現在の汎用計算機のアーキテクチャには、多数の演算器を1チップに集積することも、それらをを並列に使うことも難しい、あるいは少なくともそういうことになっているということである。実際、既に述べたようにインテルや AMD の最新のプロセッサで演算器の数は1-2個であり、マイクロプロセッサを設計・製造する側は多数の演算器をいれても商品価値にはさしてつながらないと考えていることは間違いない。

この判断は、商品として大量にマイクロプロセッサを売るという観点からは正しいものであろう。絶対性能が重要でないというわけではないが、過去のソフトウェア資産が使えることなどの要求を無視できないからである。

しかし、それと同時に、仮に「商品として大量に売る」という観点を無視したところで、インテル等のマイクロプロセッサよりも高い性能が得られるかといえば、理論的にはともかく現実的には現在そういうものが存在しているとはいいがたい。既にみたように、汎用とはいえ科学技術計算に特化しているはずの地球シミュレータでも、そのへんのマイクロプロセッサにくらべて価格性能比ではむしろ悪いからである。

もちろん、地球シミュレータ、あるいはそれに代表される(といっても他にはほとんど存在しなくなったが)ベクトルプロセッサについては、その演算能力当りのコストがマイクロプロセッサに比べて高いことには明確な理由がある。端的には、これはメインメモリのバンド幅が高いことによっている。例えば 2GHz の P4 の場合、主記憶はのバンド幅は高価と言われる DRDRAM を使った場合で 3.2GB/s であり、もちろん連続アドレスのアクセスの場合にしか(まあ、少なくともキャッシュラインサイズ単位以上ないと)これに近い数字も実現されない。これに対し伝統的なベクトルプロセッサのデザインでは、演算器一つ当り最低 1 クロック 1 語、可能であれば 2 語の転送を、連続アドレスだけでなく一定ストライドアクセス(多次元配列の外側の添字を回すような場合) にも可能にしている。このため、バンド幅だけでなくメモリアクセスレイテンシをほぼ隠蔽できるだけの数のメモリバンクが必要になり、これがコストを引き上げている。単に必要なバンド幅を供給するだけでも容易なことではない。 2GHz のプロセッサでは 1 演算としても 16GB/s と現在の 5 倍であり、 800 Mb/s の信号線が 160 本必要になる。

ベクトルプロセッサではこの大きなメモリバンド幅と単純なメモリ階層が、実用プログラムで高い実効性能を実現することを容易にしていることはいまさら詳しく議論するまでもないと思う。

しかし、他方では、その高いコストに見合っただけの実効性能が得られているかというと、必ずしもそうは考えてないユーザーの割合が増えてきていることは確かであり、そのために大規模な計算機はほとんど PC クラスタや 4-8 CPU 程度の SMP マシンのクラスタに置き換わってきている。

この辺りの、科学技術計算に使われる計算機はどんなものか、あるいはどんなものであるべきかという話はなかなか難しい。難しい理由の大きなものは、現在の解が歴史的なものであることであろう。「なぜ現在使っているものがこういうものであるか」、「なぜもっとましなものがないか」を理解することはできなくはないが、、、というような抽象論をしてもしょうがない。以下、もう少し具体的に考えてみよう。

Jun Makino
平成14年10月4日