./note027.html

ここで重要なのは、マイクロコードを基本的にはもたない、ということです。マイクロコードとはそもそもなにか、というのが問題ですが、これは、非 RISC な計算機アーキテクチャでは、「機械語」というのがそのまま実行されるわけではなく、多くの命令は実際にはより低いレベルのサブルーチンのようなものの呼び出し、という形で実行されていて、そのサブルーチンのことをマイクロコードという、というような感じのものです。サブルーチンといっても、普通のソフトウェアでのサブルーチンと違ってそこから先はハードウェアで解釈されるので結構高速です。例えば、ハードウェア乗算器をもたないプロセッサで乗算するのは、加算器を繰り返し使うわけですが、そのためのマイクロコードからしか使えないレジスタとかがあってそれを使うプログラムを書いて乗算するわけです。また、メモリ転送とかでも長さを指定するオペランドがあって、その指定に従ってループを回る、といったことがマイクロコードではできます。

VAX アーキテクチャでは、多項式評価命令、なんてものがあって、それを使うと浮動小数点演算ユニットの理論ピークに近い性能がでる、逆にいうと普通のプログラムではまず性能がでない、といったこともありました。この、マイクロプログラム方針というのは、比較的複雑な、あるいはハードウェアで実現しようとすればハードウェアが大規模になりすぎるような命令を、小規模なハードウェアで実現することを可能にしたもので、 IBM 360 や DEC VAX のような、同じ命令セットで性能が違う製品系列を作ることを可能にする、あるいは世代が変わっても前の命令セットと互換性をとることを可能にする、というような意味で、機械語プログラムの再利用性を高める重要な技術でした。もちろん、機械語でのプログラム開発自体も、1つの命令が複雑な処理をしてくれる分容易になります。また、機械語が短くなるので、少ないメモリでプログラムが収まる、というのも重要なメリットでした。

但し、コンパイラを使うことを考えるとそういう複雑な命令が可能なことがいいかどうか、が問題になります。例えばコンパイラが Fortran や C のソースプログラムをみて、「これを多項式の計算だ」と判定して多項式の計算機命令を出す、なんてのはあまりありそうにない話だからです。もちろん、言語自体がそういう表現をもっていれば、その表現を命令に変換することはできます。しかし、それでは言語が特定のプロセッサアーキテクチャに依存することになって、移植可能性に制限がでてきてしまいます。

そういったことを考えると、コンパイラはあまり複雑で多機能な命令はどうせ使えないんだから、マイクロコード自身みたいな基礎的な命令だけあればいいんじゃないか？ということになります。 RISC の基本的な考え方はそういうものでした。これにより、コンパイラは結局より効率が良いコードを出せるようになり、ハードウェアは単純になって性能が上がり、と2重に良いことがあったわけです。

80年代の終わりから90年代の初めにかけては、これらの RISC プロセッサがそれまでの RISC ではないアーキテクチャのシステム、インテルの 80386 やモトローラの68K 系、 DEC VAX、 IBM の 370 アーキテクチャといったものに比べてクロック当りで高い性能をより小規模なハードウェアで実現し、さらにクロックも上げることに成功しました。その結果、 80386 以外の非 RISC プロセッサは、少なくとも汎用コンピュータ用としてはほぼ絶滅します。その中には日本の TRON プロジェクトで開発されたプロセッサもありました。

しかし、 RISC プロセッサが高い性能を出すようになった時期というのは、実はその後の発展の方向が見えなくなった時期でもありました。浮動小数点演算については、既に述べたように Intel が開発した RISC プロセッサ 80860 が 1 チップでほぼ完全な浮動小数点演算パイプラインを実現しました。整数演算についてはもっと初期の RISC で完全なパイプライン化が実現されています。そうなると、さらに沢山のトランジスタが使えるようになった時にどうすればいいか？という問題が生じるわけです。

そこでとられた開発方向の1つがスーパースカラでした。これは、要するに、ハードウェアは2つとか4つとかそれ以上の命令を並列に実行できるように作る、命令は順番に並べるけど、実行時に解析して実行できるものから実行し、可能なら並列に実行できるものは並列に実行する、というものです。これは、とても大変な上に先がない技術で、例えば 4 個実行ユニットをつけても 1 つだけの単純な RISC に比べて 1.5-2倍くらいしか速くならないのですが、ハードウェアは4倍どころか 16倍くらいいる、という感じのものです。

もうひとつは、実行パイプラインを深くして(段数を増やして)クロック周波数を上げる、というものです。結局、 RISC であったプロセッサでもこういうことを一杯してどんどん複雑になることになりました。

さて、CISC は 80386 とその後継の 486 以外は殆ど絶滅した、というのは既に述べたわけですが、これら x86 プロセッサは絶滅しませんでした。その理由の1つは単純に MS-DOS や Windows はこれらのプロセッサでしか動かなかった、ということでしょう。もう1つは、これらのプロセッサは沢山作られたせいもあって非常に安価で、安い計算機というのは値段に比例以上に性能が落ちても売れるからです。そういうわけで、 386、486 と安いけれどあんまり速くないプロセッサ、という存在であったわけですが、 1993 年の Pentium から話が変わってきます。浮動小数点演算に関する限り、完全パイプライン化した演算ユニットを持ち当時のいくつかのスーパースカラ RISC プロセッサ、特に SuperSPARC に比べてむしろ高い性能を発揮しましたし、整数演算でもスーパースカラを採用してそこそこ高い性能を実現したからです。これは、当初 0.6m のプロセスで 500万ものトランジスタを集積することで可能になったものです。

1995 年に投入された Pentium Pro、その改良版の Pentium II となると、もっとすさまじいことになります。これらは普通 P6 アーキテクチャと呼ばれますが、P6 アーキテクチャでは x86 命令がそのまま実行されるのではなく、命令がキャッシュから読み出された時点で RISC 風の命令に変換され、そのRISC 風の命令がスーパースカラな実行ユニットで実行される、という仕掛けになったのです。これにより、同時期の多くのRISC プロセッサに匹敵する速度を、しかしはるかに安価に実現したのです。しかも、1978年に投入された8086 と相変わらず互換性をもったままでそれを実現したわけです。

この方式は、ある意味でマイクロプログラム方式の復活みたいなものですが、変換されたマイクロプログラムがスーパースカラユニットで実行時に並列動作することで、互換性を維持したままで高い性能を実現できるようになりました。互換プロセッサメーカーであった AMD も K5, K6 といったプロセッサで同様な方式を導入しました。歴史的には、最初にこの方式を導入したのは Nexgen 586 だったようで、この会社は次の Nx686 の開発中に AMD に吸収され、 AMD は K6 の名前でこれを販売します。さらに、その開発チームが AMD K7 (Athlon) を完成させ、 Pentium Pro 系列の最終版である Pentium III を上回る性能を発揮することになります。

この頃になると、半導体工場の建設も多額の費用を必要とするようになり、元々半導体工場をもっていなかった Sun や MIPS はともかくとして、自分で工場まで作っていた DEC や HP はプロセッサ開発を続けることが困難になります。 DEC は会社自体がなくなって Compaq に吸収され、その Compaq 自体が数年のうちに今度は HP に吸収されることになりました。インテルは巨大な販売額を背景に、半導体プロセスの進歩で他のマイクロプロセッサの1歩も2歩も先をいくことになります。さらに、自社で論理設計から半導体製造までやっていること、莫大な開発費をかけられることを生かして、他のマイクロプロセッサでは困難な非常に高いクロックでの動作を実現します。

つまり、P6 アーキテクチャになって x86 の命令セットとスーパースカラな実行ユニットが切り離された時点で、 RISC か CISC かという命令セットの違いは殆ど意味をもたなくなり、実行性能は回路設計や半導体工場自体にかけられるお金で決まる、というのに近い状況になってきたわけです。

そうなると、生産量が少ない分開発費がかけられない x86 以外のプロセッサが死滅するのは時間の問題、ということになります。それをもっとも象徴的に表しているのがインテル自身が開発してきた Itanium プロセッサでしょう。

Itanium は 1994 年頃からインテルと HP が共同開発してきた、 64ビット VLIW プロセッサです。 VLIW (Very Long Instruction Word) は、 RISC をもっとも力任せに並列動作させようというもので、複数の実行ユニットに対する命令を1つの「長い命令語」としてまとめて、それがクロック毎に投入される、というものです。80年代終わりに Multiflow といった会社で開発されていました。一見よさそうにみえますが細かい技術的な問題が一杯あります。レジスタファイルをどうするか、条件分岐命令をどうするか、機械語プログラムがやたら長くなるのをどうするか、といったものです。レジスタファイルの問題は特に深刻で、実行ユニットが2つあってパイプライン動作できるためには、演算だけを考えてもレジスタファイルから同時に4語読出して2語書ける必要があります。アクセスポートが6個いるわけです。メモリ転送命令もあるので必要なレジスタファイルの能力はもっと増えます。また、結局同時に沢山アクセスされるので、トータルのレジスタファイルの語数も大きくないと効率がでません。そうなると、ハードウェアのサイズは語数とアクセスポート数の積くらいで大きくなる(実装によりますが最近はそういうのが多い)ので、実行ユニット数の2乗くらいに比例してレジスタファイルが大きくなってしまいます。

条件分岐も問題で、実行時に条件分岐を少なくするようなコンパイル手法などが研究されています。

そういうわけで VLIW はなかなか上手くいかないのですが、インテルは x86 とは別に 64 ビット化した新しいアーキテクチャとして Itanium の開発を始め、それに VLIW を採用したのです。 VLIW といっても Multiflow で開発されていたような 7 命令とか 14 命令とかではなく、 3 命令にすぎないものでした。

しかし、その開発は難航し、製品がでるころには自社の x86 プロセッサに価格性能比で全く対抗できない、という状態が最初の製品の出荷を始めた 2001 年(当初は 1999年に出荷開始予定)からずっと続いています。難航した一つの理由は、3命令では並列度が足りなくて、スーパースカラな実行方式もとりいれることになった、ということでしょう。それではなんのために VLIW にしたのかわからないわけです。

結局、1つのプロセッサに使いきれないほどの沢山のトランジスタが1チップに載るようになった時点で、命令セットの違いを実行時のコード変換で隠蔽することが可能になり、その結果アーキテクチャの違いにあまり意味がなくなった、というのが現状です。このため、沢山お金をかけて頑張って作ったところが勝ち、みたいな状況になってしまっているのです。

スーパーコンピューティング、という観点から見ると、しかし、これはなんだかつじつまがあわない話になっています。単純な話として、1989 年の 80860 に比べて 2006年のマイクロプロセッサはトランジスタ数が 500倍なのに、演算器の数は4倍にしかなっていないのは何故か？もうちょっと違う方法はないのか？というのにあまり理解できる説明はないからです。

次章では、スーパーコンピューターではそもそもどんなことをしているのか、という観点から、もう一度その辺りを検討することにしましょう。

Previous ToC Next