GRAPE-5 は低精度型の GRAPE-3[OME+93] の後継機である。現在、 プロセッサチップの設計がほぼ終了した段階であり、システム全体の詳細につ いてはまだ検討中である。
表1 に GRAPE-3との比較の形で GRAPE-5パイプラインプロセッサの概要をまとめる。
データの内部表現や演算方式などは GRAPE-3 のものをほぼ踏襲している。改 良点の重要なものは以下の 4 つである:
動作速度と集積度の向上の結果、チップ当たりの性能はほぼ一桁向上する。す なわち、現在の GRAPE-3A ボード一枚と同等な性能がチップ単体で得られる。 実際のシステムでは、 GRAPE-3と同様に 8 個程度のチップを載せるとして、 ボードあたり 50 Gflops 程度の性能がえられることになる。直接計算を行なっ たとして、 10 万体が1ステップ 6 秒で計算できる。
計算精度に関しては、今回は必要精度ぎりぎりにするというよりはある程度高 い精度にして応用範囲を増やすという方針をとった。 GRAPE-3 では、データ の内部表現は底が2の対数フォーマットをとり、その小数点以下(ほぼ、普通 の浮動小数点表現の仮数部に相当)に 5ビットを使った。これにたいし、 GRAPE-5 ではここを 8 ビットとし、相対精度をほぼ一桁改善した。これによ り、 GRAPE-3 では若干精度に不安があった(もっとも、数値実験の結果は大 きな問題はないことを示してはいる[APB97])円盤銀河 などの場合でも問題なく計算可能にする。また、位置座標についても同様にレ ンジをひろげる。
GRAPE-3 に比べた新しい機能として、有限距 離での相互作用のカットオフを実装した。これは単純なRAM によるテーブルで 実現されていて、力、ポテンシャルに対して、距離のある区間で定義された任 意関数を掛けることができる。これにより、PM法、 Ewald 法などの周期 境界を扱う方法が低精度の GRAPE を使っても高速に計算できるようになる。
Brieu ら[BSO95] は、 GRAPE-3 を使ってPM法を実現した。彼ら は、ソフトニングを変えて複数回重力を計算し、その線形結合をつくることで 近似的にカットオフを実現した。しかし、この方法では実効性能が低下するだ けでなく、精度的にも問題が多い。ハードウェアでカットオフを実現すること で、大きく計算精度を上げるとともに計算速度も向上できる。
すでに述べたように、 GRAPE-5 システム全体の設計はまだ確定していない。 以下に、現時点での案を示す。
設計において、最も重要なのはホストインターフェースの選定である。 GRAPE-3 では VME バスを使ったが、これは GRAPE-3 の段階でも性能のボトル ネックになる場合があった。特にGRAPE用ツリーコード[Mak91] では、ホスト計算機の性能が向上するに従ってインターフェース速度が大きな 問題になってきていた。
GRAPE-5では、ここには GRAPE-4 用に開発された PCI インターフェースボー ド[KFTM97]を使う。これにより、 GRAPE-3 では実効 2--3 MB/s であっ た転送速度が 60 MB/s 程度と 20 倍程度にできる。また、 PCI バスを使うこ とで、安価な Intel マシンから超並列計算機、あるいはベクトル計算機まで 多種多様なホスト計算機を使えることになる。
さらに、GRAPE-3 では必 要であったホスト計算機の I/O バスと VME バスの間をつなぐアダプタや VME バスのための匡体、バックプレーンなどが不要になり、安価にシステムを構成 出来る。
GRAPE-4 ではPCIインターフェースボードにまずコントロールボードがつな がり、その先にプロセッサボードがつながるという構成をとった (図 1)が、 GRAPE-5 ではそうしないでPCIインターフェースボー ドに直接プロセッサボードをつなぐ。こうすることで、最小構成のシステムを 安価に構成できる。この構成の問題点は、複数ボードを使う時にボード数に比 例した枚数のPCIインターフェースボードと PCI スロットが必要になることで ある。これに対しては、ボード1枚に載せる GRAPE-5チップの数をなるべく増 やすことで対応したい。
ツリーコードに対して予想される性能は、川井[KFTM97]の GRAPE-4 のデータから推測するとホスト計算機が 500 MHz の Alpha、GRAPE-5 が8チッ プ であった場合に 100万粒子で 1 ステップ 20 秒程度、その内訳はGRAPEの 計算が3秒、通信が4秒、残りがホストでの計算である。ホストはこれからも速 くなるであろうし、GRAPEの計算速度はチップ数を増やせば改善できるので、1 ステップ10秒程度までは大きな困難はないであろう。 Dubinski[Dub96]は 256 プロセッサの Cray T3D で100万体1ステッ プ20秒程度の速度を得ている。これと比べると、 GRAPE-5一枚でかなり大きな 超並列計算機と同等の速度が得られるということがわかる。
1998年1月現在において、チップの設計は完了し、現在メーカー側が作業を行 なっている。一年以内にシステムとして完成させられる見込みである。