next up previous
Next: References Up: 無題 Previous: 2 GRAPE-5

3 GRAPE-6

GRAPE-6 は高精度型の GRAPE-4[MTES97] の後継機である。日本 学術振興会未来開拓学術研究推進事業の研究分野「計算科学」のプロジェクト の一つとして、1997年度から開発を始めた。 現在、システム全体とプロセッサチップの概念設計がほぼ終了した段階であり、 プロセッサチップの詳細設計を進めているところである。

3.1 システム全体の構成

GRAPE-6 は、図 2に示すように

ピーク性能200テラフロップス程度の重力専用プロセッサと、粒子系に専用化し たアーキテクチャを持つが相互作用を計算するパイプラインを再構成可能論理 (FPGA、Field Programmable Gate Array)で実現した多用途粒子系プロセッ サを汎用のホスト計算機につないだものになる。FPGAを使ったプロセッサは、集積度において専 用プロセッサに劣るが、そのかわり多様な問題に適用可能である。自己重力系 への応用としては、

など、さまざまなものが考え得る。以下、まず重力専用プロセッサについて、 次に多用途粒子系プロセッサについてその概要を簡単に述べる。

  
図 2: システム全体の構成

3.2 重力専用プロセッサの概要

2 に GRAPE-4との比較の形で GRAPE-6重力専用プロセッサの概要をまとめる。

  
表 2: GRAPE-4 と GRAPE-6重力プロセッサ

データの内部表現や演算方式などは GRAPE-4 のものをほぼ踏襲している。改 良点の重要なものは以下の 4 つである:

  1. 動作速度を 4倍程度に向上させた
  2. チップ内に6本の演算パイプラインを集積し、3サイクル必要とする GRAPE-4 に比べてさらに18倍の性能向上を実 現した。
  3. 予測子計算パイプラインも内蔵し、システム設計を単純化した。
  4. GRAPE-5と同様な有限距離での相互作用のカットオフを実装した。

動作速度と集積度の向上の結果、チップ当たりの性能はほぼ50倍に向上する。 すなわち、現在の GRAPE-4 ボード一枚と同等な性能がチップ単体で得られる。 実際のシステムでは、 16 個程度のチップを載せるとして、ボードあたり 500Gflops 以上、すなわち現在の GRAPE-4 に匹敵する性能がえられることに なる。直接計算を行なったとして、 100 万体が1ステップ 1分で計算できる。 システム全体ではさらにこの200倍以上の性能になり、100 万体が1ステップ 1 秒以下となる。

以下に、重力プロセッサ全体のアーキテクチャを簡単にまとめる。

基板1枚に16プロセッサをのせてプロセッシングボードとし、プロセッシング ボード16枚とコミュニケーションボード1枚で1クラスタ、16クラスタでシステ ム全体を構成する。これらの16のクラスタは、インターフェースを集中制御す るコントロールユニットを介してホスト計算機に接続される。

なお、プロセッサチップはそれぞれ自分のメモリを持つ構成とし、2-4チップ をまとめてモジュールとする。従って、そのモジュールが載る基板には通信ネッ トワークだけがあることになる。

ホスト計算機とコントロールユニットの通信速度は最低2 GB/s 程度が必要に なる。なるべく多様な応用を可能にするためには、それ以上の通信速度がある ことが望ましいので、必要に応じて拡張可能な構成とする。

プロセッサボード内およびボード間のネットワークのトポロジーと物理的な実 装方式についてはこれから検討する必要がある。最近になって、 Gigabit Ethernet や IEEE-1394 などの非常に高速なシリアル接続技術が安価に利用可 能になってきたので、これらを利用して高速でしかも柔軟なネットワークを構 成する。

3.3 多用途粒子系プロセッサ

多用途粒子系プロセッサは、要するにこれまでの GRAPEでは市販の LSIを配線 したりカスタム LSI を作ったりして実現していた演算パイプラインを、 FPGA (Field Programmable Gate Array) というソフトウェアで実現論理が変更可能 な LSI に置き換えようというものである。これにより、パイプラインの中身 を変えていろいろな計算に使おうというわけである。

FPGA を使って計算機を作る試みはいろいろあるが、主に画像処理などのデー タ長が短く、しかも入出力が多い処理に使われている。そのために、これまで に開発された計算機は強力な入出力機能を持つものがおおい。

しかし、粒子系への応用を考えると、強力な入出力機能は不要である。特に、 演算結果を高速に取り出したり、ボード上で複数の FPGA が通信したりする必 要がない。このために、比較的簡単なハードウェアで高い性能を実現できる。

昨年 11 月に、プロトタイプシステムである PROGRAPE-1 を完成させた。現在 応用プログラムを実装する作業中である。プロジェクトの目標としては、以下 のようなものを想定している。

主要部の演算精度に単精度を要求した場合で、チップ単体の性能は1Gflops、 システム全体の性能は1Tflops程度となる。これはもっとも悪い場合で、例え ば実効的な精度が12ビット程度で良ければ4Tflops、さらに8ビット程度なら 10Tflops以上の速度が期待できる。

システム構成としては、重力/クーロン用計算機と同様に各プロセッサチップ がメモリユニットを持つ構成とし、プロセッサボードやホストとの接続インター フェースのハード・ソフトについては重力/クーロン用計算機と完全に同一の ものを利用することで開発の手間を押える。

3.4 開発計画

予定としては、これから1年程度のうちに重力プロセッサチップを完成させる。 全体システムとして完成するのは2000年の予定である。



Jun Makino
Thu Jun 4 17:54:18 JST 1998