Next: 3 GRAPE-6 Up: 無題 Previous: 1 はじめに

2 GRAPE-5

GRAPE-5 は低精度型の GRAPE-3[OME+93] の後継機である。現在、プロセッサチップの設計がほぼ終了した段階であり、システム全体の詳細についてはまだ検討中である。

2.1 パイプラインプロセッサの概要

表1 に GRAPE-3との比較の形で GRAPE-5パイプラインプロセッサの概要をまとめる。

表 1: GRAPE-3 と GRAPE-5

データの内部表現や演算方式などは GRAPE-3 のものをほぼ踏襲している。改良点の重要なものは以下の 4 つである：

動作速度を 4倍（予定）に向上させた
チップ内に2本の演算パイプラインを集積し、さらに2倍の性能向上を実現した。
位置座標の分解能、ペアワイズの相互作用の相対精度を向上させた。
PM法、 Ewald 法などの周期境界を扱う方法で必要になる、有限距離での相互作用のカットオフを実装した。

動作速度と集積度の向上の結果、チップ当たりの性能はほぼ一桁向上する。すなわち、現在の GRAPE-3A ボード一枚と同等な性能がチップ単体で得られる。実際のシステムでは、 GRAPE-3と同様に 8 個程度のチップを載せるとして、ボードあたり 50 Gflops 程度の性能がえられることになる。直接計算を行なったとして、 10 万体が1ステップ 6 秒で計算できる。

計算精度に関しては、今回は必要精度ぎりぎりにするというよりはある程度高い精度にして応用範囲を増やすという方針をとった。 GRAPE-3 では、データの内部表現は底が2の対数フォーマットをとり、その小数点以下（ほぼ、普通の浮動小数点表現の仮数部に相当）に 5ビットを使った。これにたいし、 GRAPE-5 ではここを 8 ビットとし、相対精度をほぼ一桁改善した。これにより、 GRAPE-3 では若干精度に不安があった（もっとも、数値実験の結果は大きな問題はないことを示してはいる[APB97]）円盤銀河などの場合でも問題なく計算可能にする。また、位置座標についても同様にレンジをひろげる。

GRAPE-3 に比べた新しい機能として、有限距離での相互作用のカットオフを実装した。これは単純なRAM によるテーブルで実現されていて、力、ポテンシャルに対して、距離のある区間で定義された任意関数を掛けることができる。これにより、PM法、 Ewald 法などの周期境界を扱う方法が低精度の GRAPE を使っても高速に計算できるようになる。

Brieu ら[BSO95] は、 GRAPE-3 を使ってPM法を実現した。彼らは、ソフトニングを変えて複数回重力を計算し、その線形結合をつくることで近似的にカットオフを実現した。しかし、この方法では実効性能が低下するだけでなく、精度的にも問題が多い。ハードウェアでカットオフを実現することで、大きく計算精度を上げるとともに計算速度も向上できる。

2.2 GRAPE-5システムの概要

すでに述べたように、 GRAPE-5 システム全体の設計はまだ確定していない。以下に、現時点での案を示す。

設計において、最も重要なのはホストインターフェースの選定である。 GRAPE-3 では VME バスを使ったが、これは GRAPE-3 の段階でも性能のボトルネックになる場合があった。特にGRAPE用ツリーコード[Mak91] では、ホスト計算機の性能が向上するに従ってインターフェース速度が大きな問題になってきていた。

GRAPE-5では、ここには GRAPE-4 用に開発された PCI インターフェースボード[KFTM97]を使う。これにより、 GRAPE-3 では実効 2--3 MB/s であった転送速度が 60 MB/s 程度と 20 倍程度にできる。また、 PCI バスを使うことで、安価な Intel マシンから超並列計算機、あるいはベクトル計算機まで多種多様なホスト計算機を使えることになる。

さらに、GRAPE-3 では必要であったホスト計算機の I/O バスと VME バスの間をつなぐアダプタや VME バスのための匡体、バックプレーンなどが不要になり、安価にシステムを構成出来る。

GRAPE-4 ではPCIインターフェースボードにまずコントロールボードがつながり、その先にプロセッサボードがつながるという構成をとった (図 1)が、 GRAPE-5 ではそうしないでPCIインターフェースボードに直接プロセッサボードをつなぐ。こうすることで、最小構成のシステムを安価に構成できる。この構成の問題点は、複数ボードを使う時にボード数に比例した枚数のPCIインターフェースボードと PCI スロットが必要になることである。これに対しては、ボード1枚に載せる GRAPE-5チップの数をなるべく増やすことで対応したい。

図 1: GRAPE-4の構成

ツリーコードに対して予想される性能は、川井[KFTM97]の GRAPE-4 のデータから推測するとホスト計算機が 500 MHz の Alpha、GRAPE-5 が8チップであった場合に 100万粒子で 1 ステップ 20 秒程度、その内訳はGRAPEの計算が3秒、通信が4秒、残りがホストでの計算である。ホストはこれからも速くなるであろうし、GRAPEの計算速度はチップ数を増やせば改善できるので、1 ステップ10秒程度までは大きな困難はないであろう。 Dubinski[Dub96]は 256 プロセッサの Cray T3D で100万体1ステップ20秒程度の速度を得ている。これと比べると、 GRAPE-5一枚でかなり大きな超並列計算機と同等の速度が得られるということがわかる。

2.3 開発状況

1998年1月現在において、チップの設計は完了し、現在メーカー側が作業を行なっている。一年以内にシステムとして完成させられる見込みである。

Jun Makino
Thu Jun 4 17:54:18 JST 1998