Next: 6. それぞれの方法の歴史と現状 Up: 研究展望：高速多重極展開法---粒子法への応用を中心として Previous: 4. FMMの原理

5. ツリー法、FMMの高速化

ツリー法、FMMのどちらにしても、直接計算よりも速く計算できるというところに値打ちがある。アルゴリズムの理論的な研究としては、計算量のオーダー評価とか理論的なオペレーション数を数えるとかして少なければよい方法であるということになるが、実際に使う側から見れば、理論的に良いかどうかよりも

容易にプログラムが作成、デバッグでき
現実に使える高速な計算機の上に実装して速い

ということが重要になる。以下では、それぞれどのような研究がなされていて、どの程度の成果をあげているかを簡単にみていきたい。

5.1 理論的に良い方法

ツリー法については、多重極展開が個あってそれを評価するというのはもうどうしようもないので、あまり改良の余地はない。これに対し、 FMM では特に多重極展開を局所展開に変換するところでさまざまな方法が提案されている。いくつか見ていくことにしよう。

多重極展開から局所展開への変換は、結局展開係数のベクトルに変換行列を掛ける操作になる。 Greengard と Rokhlin [11] はこの変換を FFT を使って高速化できることを示唆した。 Elliott と Board はこの方法を実現し、詳細な性能評価を行なった[10]。例えば p=16までとったときには変換自体は3倍ほど高速化されている。ただし、上に述べた直接計算とのトレードオフがあるので、計算全体の高速化は倍程度ということになる。また、通常は p=16 というようなところまでとることはまずあり得ないので、実際の効果はさらに小さい。

FFT を使う方法は、理屈はともかく実装は非常に大変で、原論文を読むと苦労がうかがえるのと同時にあまり自分でやりたいという気は起きなくなる。これに対し、「コロンブスの卵」的なアイディアで変換の計算量をからに減らす方法も提案されている。この方法では、変換を一度に行なうのではなく、まずz軸を移動の方向に持ってくるような回転を行なう。すると、方向の次数 m が違うものはカップリングがなくなるので、変換行列は変換前と変換後で m が同じ個以外はゼロになり、計算量が減るわけである。変換前と変換後に回転する必要があるが、この回転の計算量自体もである。したがって、変換はで済み、最適化すればとなる。これは FFT よりも漸近的には計算量が大きいが、実用的な p の値では同じ程度の効果があり、実装はずっと簡単である。

この他にも同じようなアイディアの方法がいくつも提案されているが、効能も大差ないようなのでここでは省略する。

5.2 プログラム作成を容易にするような方法

FMM を実装する上での大きな障害の一つは、定式化、特に球面調和関数のシフトや多重極展開から局所展開への変換が複雑であり、プログラムの開発や高速化が難しいということであった。

Anderson [3]は実装をずっと単純にする画期的な方法を提案した。この方法を使うとプログラムが簡単になるだけでなく実行速度の観点からもメリットがあるという結果が得られている[9]。以下、この方法を簡単に紹介しよう。

基本的なアイディアは、球面調和関数の展開係数をデータとして使う代わりに球面でのポテンシャルの値そのものを使おうというものである。半径 a の球の中の粒子が外に及ぼすポテンシャルは、球の表面でのポテンシャルの値がわかっていればラプラス方程式の境界値問題を解けば与えられる。解はポアソンの公式を使って以下のように書ける

ここでは n次ルジャンドル関数である。この積分を、球面上での適当な標本点を使った数値積分に置き換える。2次元であれば、円を等分割すればいい。、3次元では、数値積分が球面調和関数の直交性を満たしている必要がある。そのような置き方は良く研究されていて、文献 [23,19]を見れば数値的にそのような点が求められているので、それを使えばよい。なお、技術的な注意としては、エリアシングによる誤差を防ぐために数値積分で表現出来ている次数に応じて中の無限和を適当なところで打ち切る必要がある。

子セルの外の多重極展開をその一つ上のセルでのそれに変換するには、上の式に従って親セルを含む球面上でのポテンシャルを求めればいい。また、局所展開も、での展開が rでの展開に変わるだけで上と同じ式である。さらに、多重極展開を局所展開に変換するには、上の式をつかって局所展開する球面上でポテンシャルを評価するればよい。つまり、上の式だけで、 FMM に必要な数学がすべて表現されていることになる。これに対し、オリジナルの FMM のための変換式は全部書くと 1 ページいっぱいに式が並ぶようなものであった。

Anderson の方法では別に計算量のオーダーが減るわけではなく、変換の計算量はのままであるので理論的には前節で述べた方法に比べて良い点はない。しかし、式が簡単になっていることでプログラムの最適化やチューニングがずっと容易になるという現実的なメリットはけっして小さくない。

ここで、著者らが最近提案したPM法 (pseudo-particle multipole method)[22,20] にも簡単に触れさせていただきたい。基本的な考え方は Anderson の方法とほとんど同じものであるが、違いは球面上でのポテンシャル分布を使うのではなく球面上の質量分布によって多重極展開を表現するというものである。定式化は Anderson の方法と同様に行なえ、

という形で実粒子の分布から仮想粒子の質量が表現される。ここで, はそれぞれ実粒子、仮想粒子の質量であり、は展開の中心から見て実粒子と仮想粒子がなす角度、は実粒子の原点からの距離、 r は仮想粒子を置く球の半径、Kは仮想粒子の数である。子セルの展開を親セルの展開にシフトするには、子セルの仮想粒子を実粒子であると思えば同じ式が使える。

局所展開については、Anderson の方法を使ってもよいし、上と同様に仮想粒子を置くという形で表現することもできる。現在のところ、我々はツリー法との組み合わせでしか実装していないので、こちらについては省略する。

普通のプログラマブルな計算機の上では、PM法には Anderson の方法同様にプログラムが簡単であるということ以上になにかメリットがあるわけではない。しかし、専用ハードウェアとの組み合わせでは大きなメリットがある。我々は GRAPE[26,24] という重力相互作用だけを高速に計算する専用計算機を開発しており、これと組み合わせると PM法はセルからの重力も専用計算機で計算出来て画期的な高速化ができるのである。

5.3 高速な計算機への実装

ツリー法や FMM が提案されたのは 1980 年代中頃であり、大規模計算にはベクトル計算機や場合によっては並列計算機が使われるようになったころである。特に実装が簡単なツリー法は提案後すぐにベクトル化、並列化が精力的に研究された。

まず、ベクトル化について簡単にまとめておこう。並列化についても、共有メモリ型の機械では同じアイディアで行なえる。以下、アルゴリズムのなかでもっとも計算量が多いツリーを再帰的にたどって粒子への重力を計算するところに話を絞る。全体については文献[25]や原論文 [21,15,5]を参照されたい。

ベクトル化のためには、アルゴリズムの並列性を生かす必要がある。ツリーをたどるところでは2種の並列性がある。一つは別の粒子への重力は独立に計算出来るという並列性であり、もう一つはある粒子への重力のうち、ツリーのなかで上下関係にないセルからの力は独立に計算できるというものである。

前者の並列性を使うには、粒子全部を一度に見るような形にプログラムを書き換えればよい。これには、まず再帰によって表現されたアルゴリズムをスタックやポインタを使う明示的な繰り返しループに変形し、さらに一番外側の粒子を順番に処理するというループを一番内側に持ってくる。これはかなり繁雑な作業になるが、ツリー法の場合はもともとのアルゴリズムが単純であるので注意すれば出来る。後者の並列性を使うには、やはり再帰を明示的な横型探索 (Breadth First Search) のループに書き換え、ツリーの1階層づつをベクトル化されたループで処理していく。前者の方法のほうがベクトル長は長く、一般には高い性能が出るようである。

分散メモリの並列計算機の場合には、アルゴリズムの並列性だけでは十分ではなく、どのように空間分割をして粒子と領域をプロセッサに割り付けるかが問題となる。逆にいえば、それが決まれば並列化そのものはそれほど複雑ではない。メッセージパッシングの機械では Warren と Salmon による ORB（再帰的直交分割）や Morton ordering による領域分割が良く知られている [27,28]。物理的に共有メモリである機械や、分散共有メモリの場合は、Morton ordering によって粒子をソートしておくことで自動的に空間分割が実現でき、かなり良い性能が得られている [18]。また、最近は HPF などのデータ並列型の言語を使った並列化も試みられている[16]。

前節で触れたが、専用計算機との組み合わせについてもここでまとめておこう。

筆者らのグループでは、GRAPE という名前で粒子間相互作用を計算することだけに特化した計算機を開発し、実際に天文学の研究に使っている [24,26,17]。FMMやツリー法のような速い方法があるのに、そもそもこういった計算機を作ることに意味があるのだろうか。

もちろん、我々は意味があるから作っているつもりであるが、その意味は実は 2つあると考えている。一つは、粒子毎にタイムスケールが大きく違うような問題では、ツリー法や FMM を使うのは非常に難しい、特に並列計算機で使えるような実現法はまだ存在しないということである。直接計算の場合には、多重時間刻みに適した高精度な積分公式が知られていて、これは並列化や専用計算機への実装も可能である。しかし、ツリー法や FMM の場合、特に並列化では多数の粒子への重力を並列に計算できるということを利用しており、多重時間刻みにするのは難しい。また、このような問題では要求される計算精度も高いのが普通であり、直接計算に対する優位性がそもそも小さいのである。

もうひとつの理由は、ツリー法も FMM も、実は直接計算の部分を高速化するだけで非常に速くなるということである。例えばツリー法の場合、それほど計算精度がいらない場合には、セルからの力はその重心からの力（モノポール）と思って良い。これはモノポールといっても実際には1次の項まで入っているし、セルが立方体なので高次の項の寄与は想像するより小さくなる傾向があるからである。この時には、粒子からの重力が計算出来ればよい。また、実際に高次の項まで入れる場合でも、先に述べた疑似粒子多重極法を使えば粒子で表現できる。

もっとも、順番にツリーをたどっていくような計算自体をハードウェアで実現するのは、不可能ではないかもしれないが面倒である。我々は、Barnes によるベクトル化の方法[5]を応用して、汎用計算機の方でツリーをたどるがその回数を減らすような工夫をして使っている。

専用計算機の効果であるが、以下に実例をあげてみよう。昨年度の Gordon-Bell 賞のコスト・パフォーマンス部門で、DEC Alpha のクラスター70 台を並列に使うという計算が、賞をとったわけではないが最終選考まで残った。これは 533MHz の Alpha 70 台で並列ツリー法のプログラムを走らせ、実効 6.8 Gflops を達成したというものである。これに対し、我々は今年度の Gordon Bell 賞に昨年完成した GRAPE-5 を使った同じツリー法の計算で応募した。我々の計算は、 DEC (Compaq) Alpha のホスト一台にGRAPE-5 ボード2 枚をつけた計算機で、昨年の Alpha 70 台とほぼ同じ実効速度を得た。（理論ピーク性能も同程度である）コストパフォーマンスでは数倍良くなっているし、占有スペースや消費電力ではほぼ2桁良い。これは一例であるが、問題にあまりよらないでこの程度の性能を得ることができ、専用計算機のメリットは非常に大きい。

Jun Makino
Thu Jul 8 11:44:39 JST 1999