Next: 3 研究計画の概要 Up: 無題 Previous: 1 研究組織

2 研究の目的

この研究の目的は、粒子系に特化した次世代超並列計算機を開発し、汎用計算機では不可能な規模のシミュレーションを可能にするとともに、その応用範囲をさらに拡大することである。多粒子系の場合は、粒子間相互の計算に専用化したプロセッサを作ることでコスト・パフォーマンスを大幅に向上させることができることがわかっている。我々が1995年に完成させた GRAPE-4 [TMF+96], [MTES97]は、世界で初めてテラフロップスの速度を達成した計算機となった。

本研究では、GRAPE-4 の性能を100倍以上向上させたサブペタフロップスの計算速度をもつ専用計算機を実現する。さらにその専用計算機と、汎用の超並列計算機、さらにこの二つの中間に位置するFPGAを用いた再構成可能論理を使った多目的計算機を組み合わせてヘテロジニアス・マルチコンピュータを構築する。このシステム全体を GRAPE-6 と呼ぶ。

以下に、汎用の高速計算機に比べた GRAPE-6 システムの位置づけと、高速が実現できる理由を簡単にまとめる。 GRAPE-6 のピーク性能は既に述べたように 100 Tflops 以上を予定しており、これは計画の最終年度をもって実現できるみこみである。その時点での最高速の汎用超並列計算機はいわゆるASCIプロジェクト、あるいは地球シミュレータにより実現されるであろう。いずれも速度は 3--10 Tflops 程度、コストは 100億円以上と見込まれる。これに対して本プロジェクトの総予算は5億円である。すなわち、価格性能比で GRAPE-6は汎用並列計算機の400ないし1000倍以上よいことになる。GRAPE-4ではこの比は 100ないし200程度であったので、 GRAPE-6ではいっそう改善していることがわかる。

差が広がっていく本質的な理由は、汎用計算機では使っている半導体の面積のうち有効な計算に使える割合が次第に減少していくからである。 1990年代の間に、1つのマイクロプロセッサに使われているトランジスタの数は 20倍以上に増えた。しかしながら、実装されている浮動小数点演算器の数は 1から多くて2 でこの 10 年間ほとんど変わっていない。つまり、相対的には演算器の占める割合は 10年前の 1/10 以下になったわけである。このように演算器が増えない理由は、並列化が難しいこととメモリ転送速度が追いつかないことの2 つであり、メモリ転送速度のほうが解決が困難である。

これに対し、 GRAPE ではメモリとプロセッサ間の転送速度を押えたままで、プロセッサチップ内のほとんどのトランジスタを有効に演算に使うことができる。これは、根本的には、対象とする物理系の性質、すなわち多数の粒子が長距離相互作用によって影響しあい、しかも高精度の計算が必要であるということによるものである。このために、データ量は粒子数に比例するのに対し、演算量は粒子数の自乗に比例する。この性質をうまく生かしたアーキテクチャを構成することで、増えたトランジスタを有効に使えるのである。このために、専用計算機の相対的な優位性は、これから大きくなりこそすれ小さくなることはない。

すなわち、今後の計算科学研究の進展に対して、専用計算機のアプローチが果たす役割はますます大きくなるものと考えられる。これは、汎用計算機に比べた相対的な利益が大きくなっていくからである。このことを実証し、専用計算機の開発の一つのモデルを提供することが、本研究の目標の一つである。

もう一つの目標は、FPGA を使った粒子系向け多用途計算機の構築である。 FPGAとは、内部回路を書き換え可能なLSIであると思ってよい。通常のカスタムLSIに比べると集積度、速度に大きなペナルティがあるが、そのかわりに開発の初期コストがかからない、また、間違えても修正可能であるといった、少数生産に向いた特長を持つ。このため、粒子系計算でも重力／クーロン力計算ほどコストがかからない、そのかわり演算自体は複雑で多様性がある相互作用に使うのに適していると考えられる。

自己重力系、プラズマ物理、分子動力学シミュレーションなどでは、ミクロレベルで粒子として表現されている、あるいは遠隔相互作用が卓越するといった理由で従来から粒子モデルが主に用いられてきた。これに対し、連続体を扱う構造計算や流体計算では、従来は、構造格子による差分法、あるいは非構造格子による有限要素法が主な解析手段であった。しかしながら、これらの分野においても、近年粒子的アプローチを使った計算法（メッシュレス法、エレメント・フリー法など様々な名称がある）が注目されている。これは、複雑な境界条件（移動、変形するものを含む）の実現が容易であること、並列化もそれほど複雑ではないことによるもののようである。

そのような利点があるものの、格子を使った方法に比べて粒子法では本質的に計算量が多くなる。この計算量の増大に対して、FPGA を使った粒子系向け多用途計算機は極めて有効な解決策になると期待できる。

FPGAを計算に使う試みは[BA96]を代表として非常に多数あるが、現在までのところ、非常に限られた応用、例えば DNA のシーケンスマッチングなどを除いてはさほどの成果を上げていない。これは、基本的にはこれまでは FPGAの集積度が小さかったことにもよる。もちろん、FPGAの集積度が上がると同時に通常のマイクロプロセッサの集積度も上がるが、すでに述べたようにマイクロプロセッサの性能は集積度に比例しては上がらない。このために、当面はFPGAが相対的に有利になっていくのである。

現在のFPGAでも、まだ通常の浮動小数点演算を行なうのは困難である。しかし、多くのアプリケーションで、すべての演算に高い精度が必要なわけではない。実際、 GRAPE の場合には、演算パイプラインの中で必要に応じて演算精度を変化させることで回路規模を大幅に小さくすることができている [IMES90], [MIE90]。従って、同様な最適化を行なうことが可能なアプリケーションにおいては FPGA が汎用計算機に比べて有利になってきていると考えられる。このことを実証することが、本研究の第二の目標である。

Jun Makino
Mon Dec 27 11:39:15 JST 1999