./note017.html

Previous

ToC

Next

16. 何故自動並列化は使えないか？(2006/1/5)

前項で、PC クラスタの大きな問題の一つはネットワークが遅い、特に安いとレイテンシが大きいことだ、という話をしました。レイテンシはいろんな場面で問題になるのですが、特に普及という観点から問題なのは、通信レイテンシが大きいと自動並列化で性能をだすのが非常に困難になる、ということです。

HPF VPP-Fortran でも Co-array Fortran でも UPC でも、あるいは分散共有メモリモデルでもなんでもいいのですが、並列実行自体は明示的に表現するにしても通信は MPI のようなメッセージパッシングでなく、なんらかの意味で暗黙に通信が行われるような言語を考えてみます。そうすると、基本的には通信はコンパイル時に解決するなり実行時に解決するなりすることになります。

コンパイラなりランタイムシステムが神のように賢いなら、通信を可能な限りまとめて起動オーバーヘッドを少なくし、さらに可能な限り計算と通信を並行動作させてレイテンシを隠蔽するようなタイミングで通信する、といったことができるかもしれませんがまあなかなか無理なので、比較的細かい通信があまり最適ではないタイミングで発生する、ということになりがちです。こうなると、イーサネット上での TCP/IP 通信のようなレイテンシが大きい方法を使っていると、並列化した時の効率が大きく低下する、ということになります。ある程度レイテンシが大きいと、通信の回数に比例して時間がかかる、ということになり、比較的すぐにノード数が増えても計算時間が減らない、あるいは逆に増える、という領域にはいってしまうからです。現在の例えば GbE イーサネット上の TCP/IP 通信で実現されているレイテンシと、現在のハードウェアで実現可能なレイテンシとは20-50倍程度の違いがありますから、これは並列化効率に非常に大きな差をもたらすことになります。

例えば、通信起動オーバーヘッドがノード数に依存しない並列アルゴリズムを考えると、レイテンシが 1/n になれば n 倍の数のプロセッサを使っても性能がでることになり、計算自体を n 倍加速できるわけです。

MPI を使って手で通信を入れるなら、通信回数とかを最適化するのは面倒ですが難しいわけではありません。で、これは非常に大きな性能差をもたらすことが多いわけです。

並列計算は速くならなければ意味がなくて並列にしないほうがいいので、MPI で手で注意深く書けば速くなるけど自動並列化では速くならない、という状況では誰も自動並列化は使わなくなります。そうすると、自動変換化は誰も使わないから頑張って速くすることには意味がない、ということになって誰も研究しなくなり、結果的に使えないものに留まるわけです。これがハードウェアの限界によってそうなっているならまあしょうがない、という面もあるかもしれないのですが、現状では全然そうではなくてソフトウェアやハードウェアにしても特定の規格の性質によるものだったりすると、もうちょっとなんか考えられないものか？という気がします。

プログラムを書くほうの観点からすると、 MPI を使った並列プログラムを開発するというのは非常に面倒で手間がかかる上に間違いやすく、ある程度以上複雑なアルゴリズムを実装したり、多様なアルゴリズムを実装して実験するといったことには向きません。これは、基本的に MPI では通信の記述が明示的である上に異常に冗長であることによります。このため、アルゴリズムの何かを変更すると、それに応じて通信部分も書き換える必要が発生し、しかも通信部分の書き換えがとっても面倒な上に間違いやすいのです。

ここでの問題は、並列言語とか並列化コンパイラ自体にあるというよりは、通信レイヤの本質的ではないオーバーヘッドが莫大である、ということです。実際、1990 年代の、 PC クラスタでない並列計算機が生息していた頃は MPI とかでない並列言語や自動並列化がそれなりに使いものになっていました。 PC クラスタが主流になるとそういう言語では性能がでないしそれ以前にコンパイラもないのでフリーで使える MPI とか PVM とかを使わざるを得ない、ということになってきたわけです。

この問題をある程度緩和するためにレイテンシ隠蔽をソフトウェアが頑張ってする、という種類の研究は掃いて捨てるほどあるのですが、ソフトウェアとか規格のために大きくなっているオーバーヘッドをさらにソフトウェアをつみ重ねることによって回避しようというのが生産的かどうかは難しいところだと思います。

もちろん、いわゆる Grid が目指すところということになっている、地理的に遠いところの計算機が連携して1つの計算をする、というような話では光の速さでレイテンシが制限されるわけで、そういうようなものを真面目に考えるならレイテンシ隠蔽とかいったことは大事なことです。しかし、落ち着いて考えてみるまでもなく、そういう Grid 環境でできるようなことしかしないのなら並列計算機でレイテンシがどうとかいうのはそもそも問題にならないわけです。

要するにいいたいことは何か、というと、 PC クラスタの通信ソフトウェア・ハードウェアがタコなせいで MPI のような程度の低い開発環境を使う羽目になっているのはいい加減なんとかして欲しい、ということです。もっとも、これは誰かが怠慢なせいとかではなく、もうちょっと深いところに原因があるというのは前項でみた通りです。つまり、PC クラスタでまともな通信ハードウェア、ソフトウェアが使えないのは COTS アプローチからくる必然であり、根本的に解決するには 1 ノードの価格を引き上げ、さらにそれ以上に性能を上げる必要があるのです。

Previous ToC Next