./note008.html

ToC

7. SSE の限界(2005/12/23)

1スレッドの性能を極端に落とさずに演算器の数を増やすには色々なアプローチがありえますが、実際に採用されているのは

のどちらかです。ヘテロジニアス・マルチコアのことはまた後で触れることにして、ここでは SIMD 拡張のことを考えてみます。

現在では SIMD 拡張としてもっとも広く知られているのは Intex IA32 (x86-64 となってこの名前もなんだか座りが悪い)の SSE/SSE2/SSE3 でしょう。これは、基本的には 128 ビット幅のレジスタを 8 (x86-64 では16だだったような)ワード用意して、それを 32ビット単精度 4 語あるいは 64 ビット倍精度 2 語の固定長ベクトルとみなし、その各要素に同じ演算をする命令を用意する、というものです。

ソフトウェアの側から見るなら、 Cray-1 のベクトルレジスタが 64 語だったものが 2 語になった、と見ることもできなくはありません。しかし、ハードウェアの実装は根本的に違います。ベクトル計算機では長いベクトルレジスタに対して演算器は(もっとも単純な形では)1つだったのに対して、SSE/SSE2 では基本的には 4/2 個の演算器が並列に動くからです。

この違いは、なんのために SSE 命令なりベクトル命令なりを導入したか、という目的の違いによっています。既に見たように、ベクトル命令は比較的簡単なハードウェアで1つの演算器を有効に使うために導入された、といってよいと思いますが、 SSE はありあまるハードウェアを少しは演算にも使おうというものです。

SSE の前身は MMX で、64ビットレジスタを 16 bit の整数4語(8ビット8語もあったと思います)に分けてそれらに同じ演算を行うというものです。歴史的には、それを 32ビット浮動小数点 4 語に拡張したのは AMD 3DNow! ですが、後発の Intel SSE のほうが広く受け入れられたようです。このような形の並列処理自体は、ゲームコンソール用の CPU、例えば Sony PS2 用のプロセッサや日立 SH4 で使われたほうが先だったと思います。これらのもっとも直接的な応用は座標変換で、ジオメトリ演算が 4x4 の行列演算になるので、長さ 4 のベクトルを扱ったり、また内積をとったりする命令をつけているわけです。

演算器の数を増やして並列に実行できる演算数を増やすやり方は理論的には色々ありえるわけですが、実際に使われているのは基本的には以下の3つです。

スーパースカラ
VLIW
SIMD

それぞれ、どういう考え方かを簡単にまとめると、以下のようになるでしょう。

スーパースカラ: プログラム(コンパイラが出した機械語でも)は1命令が1動作を記述する。実行時にレジスタアクセス等の依存関係を判断して、どういう順番で命令を実行するかを決めて、同時に実行できるものは同時に実行します。いわゆる RISC なプロセッサの場合、 MIPS では R10K, Sparc では Supersparc 以降。 HP は忘れました。すみません。 Power はワークステーション用の系列では初めからスーパースカラだったような。 Intel は Pentium から。但し、 P5 と P6 以降では本質的に違う実行方式になっています。

VLIW (Very Long Instruction Word) : 命令自体が、同時に実行する複数個の命令を束ねた非常に長いものになっています。ここから VLIW の名前がでいます。古典的なものは Multiflow で、7命令とか 14 命令とか 28 命令を同時に実行できはずです。プログラムは高級言語で普通に書いたものをコンパイラが解釈して同時に実行できる命令を検出します。というか、少なくとも人間がアセンブラを書くのは不可能です。 Multiflow の場合はちょっとしたプログラムでもコンパイルにかかる時間がコーヒー一杯では終わらなかったという話です(今は IIJ にいる吉村さんから昔聞いたような気がします)。現行のプロセッサでは Intel Itanic がこれです。

SIMD: 既に述べた通り、1つの命令によって複数の演算器が同じ動作をします。原理的には、これをさらにスーパースカラや VLIW と組合せることも可能、というか、少なくとも Intel SSE/SSE2 の場合はスーパースカラな実行ユニットになっていて、ロード/ストアと演算は並列に起こるしレジスタシャドウイングもしていると思われます。

これらはどれも、クロックサイクルあたり複数の演算をしようというもの、計算機屋さんの用語では IPC (Instructions Per Cycle) を上げよう、というものですが、ハードウェアの複雑さは並列ユニット数が同じなら

  スーパースカラ > VLIW >>> SIMD

という感じになります。スーパースカラは原理的にはもっとも複雑です。問題は沢山あるのですが、ハードウェアとしては例えばレジスタファイルが非常に沢山のポートが必要になる、というのが嫌なところです。しかも、シャドウレジスタもいるので語数も増えます。

もっとも、レジスタファイルがややこしいのは VLIW でも原理的には同じです。 28 命令とかいうともう 1 つのレジスタファイルをで読み書きするのは不可能なので、レジスタファイルををいくつかに分けて命令によってどれに書けるかが違う、といった話になります。もちろんその結果コンパイルは一層大変なわけです。

これに対して SIMD は圧倒的に単純です。レジスタファイルとかでも別にデータ幅が広くなるだけでポート数は増えないので、ハードウェア規模が並列ユニットの数に比例してしか増加しません。スーパースカラでは少なくとも2乗程度でハードウェア規模が大きくなっているようです。

このようなわけで、素人考えでは SIMD が有利なのはあまりに当たり前なことに見えます。

しかし、実際のメインストリームのマイクロプロセッサでは、スーパースカラが最初に導入され、 VLIW ははなばなしく登場はしたものの主流にはならず、 SIMD の利用は極めて部分的なものに留まっています。その理由はいくつかありますが、大きなものは SIMD はコンパイラ言語からの利用が難しい、ということです。

スーパースカラは(実際に上手くいくかどうかは別問題として)、ハードウェアが自動的に並列処理をするのでコンパイラは普通にシーケンシャルな命令列を出せばよくて、まあ、上手くいけば高い性能がでます。VLIW も、原理的にはシーケンシャルな命令列から並列実行できるように並べかえるわけですから、まあ、なんとかなるわけです。どちらの場合でも、基本的にはアセンブルしてから最適化が可能です。

ところが、SIMD 的な並列処理は、並列実行できるループを SIMD 命令に書き換えるといった、要するにベクトル計算機的な並列化が必要になります。実際、 Intel はベクトル的コンパイラをずっと作っていた KAP (Illiac IV のコンパイラをやってたグループが会社になったもの)を買収して並列化技術を導入しました(その前には DEC のコンパイラグループも吸収しています)。

さて、では、ベクトル化できるようなプログラムなら SIMD 並列処理で性能がでるか？というと、実はそうではない、というのが問題の本質です。例えば

   do i=1, n
     c(i) = a(i) + b(i)
   enddo

というのはベクトル化できるループの典型です。もちろん、これから SIMD 命令を使うアセンブラを出すのは容易なことです。しかし、問題は、このループを実行すると演算速度がメモリバンド幅で決まる、ということです。 n が大きくてデータがキャッシュに入っていないと演算速度は極度に遅くなりますし、 1次キャッシュに入っていても、 2 ロードと 1 ストアで1演算ですから、素晴らしく気の効いたスーパースカラ実行ユニットがあって、しかも恐ろしくバンド幅の大きな1次キャッシュがあって初めてピークに近い演算性能がでます。

ところが、ベクトル化できるように書かれたプログラムは、原理的にキャッシュに収まりにくくなっています。若干抽象的ですが、以下のような計算をすることを考えてみます。

一次元の格子
各格子点に変数 , , がある
時間ステップ毎にこれらを更新する。新しい値は自分の古い値と両側の格子点の古い値による。

境界条件がどうとか細かいことを別にすると、普通に書いたプログラムの1ステップ更新する部分は以下のような感じになるでしょう。

    double precision a(n), b(n), c(n)
    .....
    do i=2, n-1
      a(i) = f(a(i),a(i-1),a(i+), b(i), ...)
      b(i) = g(a(i),a(i-1),a(i+), b(i), ...)
      c(i) = h(a(i),a(i-1),a(i+), b(i), ...)
    enddo

f, g, h は実際にはなんか計算式が書かれるわけです。この形のプログラムはベクトル化コンパイラが容易に認識してベクトル命令、あるいは SIMD 命令を使うコードを出すことができます。

あまり意味がある例ではありませんが、 a(i) が単純な拡散項みたいなものだと、例えば

   do
     atmp = a(i)
     a(i) = alpha*(atmp+a(i+1)) + (1-alpha*2)*a(i)
   enddo

しかし、普通には、この時にベクトル化コンパイラが出すコードは、この各演算をベクトル命令に置き換えるわけで、原理的には、例えば

  x1= a(始点-1ずらした)+a(始点1ずらした)
  x2= x1*alpha
  x3= (1-alpha*2)*a
  x4= x2+x3
  a= x4

というような演算を配列全体に適用するわけです。ここで、配列 a のサイズがキャッシュより大きいと、これらの各演算でデータを主記憶から持ってきて主記憶に書き戻すことになって、演算器のピーク性能は全くでなくなります。

もちろん、ベクトル化コンパイラが十分に賢いならばこういう無駄は起きないわけで、キャッシュに入る範囲に収まるようにループを分割すれば多少はましになります。ベクトル計算機の場合にはベクトルレジスタの長さでループを分割するのに対応するわけで、これはできないことではありません。但し、現在のところそういう処理を自動的にするコンパイラはないと思います。

自動的にやったとしても、例えば a, b, c と複数の配列があると、同時にアクセスする領域がちゃんとキャッシュ上で共存できるような工夫も必要になります。これも理論的に不可能、というわけでではありません。多次元配列になるとさらに面倒ですが、まあ、できなくはないでしょう。

これに対して、ベクトル化しない普通のスカラ計算機では、 a, b, c の1要素がはいった構造体の配列、という形にすることでキャッシュ上でデータがぶつかる可能性をほぼ 0 にでき、高い効率を保証できます。n個の演算器が並列に動作する SIMD 命令に対応するなら、配列のn要素毎に構造体にしたものにすればいいし、そういうふうにコードを書き換えることは不可能ではないし、コンパイラがするのも可能でしょう。

しかし、それでいいか、というと実は SIMD 命令の場合はまだ駄目、というのが問題です。これは、現在のほとんどの SIMD 拡張命令では、2語とか 4 語をアドレス境界をまたいでロード/ストアすることができないからです。つまり、 aが16バイト境界から始まっていたとすると、 a(0), a(1)を一つの SIMD 命令でロードすることは出来ても、 a(1), a(2) をロードすることはできないわけです。

これは、ハードウェアの作りやすさを考えると不思議な話ではありません。 128 ビットのデータを読出すのに 128 ビット幅のメモリがあったとすると、 a(0), a(1) を読んで演算器 0, 1 に送るには単にアドレスをいれてデータがでてくればいいわけでですが、 a(1), a(2) では128ビットのデータの上位64 ビットと下位 64 ビットでは違うアドレスがはいった上に、でてきたデータを入れ替えないといけないからです。演算器2つなら入れ替えの回路や別アドレスを入れる回路をつけるというのも考えられなくはないですが、演算器が 4 つとか、それ以上に増えると入れ換えのための回路は演算器数の 2 乗に比例して大きくなり、速度低下にもつながります。

このようなわけで、 SIMD 命令はハードウェアが極めて簡単ですむ、というメリットはあるものの、実用的なプログラムで性能がでるようにしようとするとどんどん複雑になる、ということになります。実際、 SSE3 になってロード/ ストア命令のバリエーションが増えているのはそういうことです。

結局、、 SIMD 命令を使いやすくするにはベクトル計算機並の強力なメモリアクセス機構をつけないといけない、ということになって、あまりありがたくないわけです。 SIMD なら演算器を無制限に増やせそうなのに、そうなっていないのはその辺に理由があります。

Previous ToC Next