つっても、非公開のを別につけているわけではない。
Copyright 1999- Jun Makino
2024/11 2024/10 2024/09 2024/08 2024/07 2024/06 2024/05 2024/04 2024/03 2024/02 2024/01 もっと昔栗原室長が滅茶苦茶濃い発表ですごい。
HPCI の運営 173億。補正予算19億。来年度予算今日閣議決定とのこと。
富岳の開発今年度補正69億来年度予算8億。
高木さん私見。(富岳の経験から)ハードウェアよりもソフトウェア開発、 運用費の充実が重要。
ポスト富岳ではソフトウェアの開発が負担になる。ここの手当が必要。
性能チューニング、フルスクラッチからの開発。
成果をだす人が重要、コンパイラの機能回路も重要。
高木さんのって要するに「京」と富岳でこれが足りなかったよねという話 だ。
GPU は国産して欲しいと。
LLM の教師データを作るのは HPC。単精度はせめて。
焼野藍子さん。
流体の HPC でなければ分からない性質。
市村さん。わりと行列乗算使う方向で一杯アルゴリズム開発しているという話だったような。
小島熙之さん Kotoba Technologies。生成AI。音声認識、同時通訳等。
現在は学習90%、推論1%、データ準備9%。1年後は推論35%。
学習。ハードウェアの陳腐化のスピードが速い。沢山計算資源をもってい るところが開発が進む。
学習ではやりかたが固まってきている。
推論ではコスト面が厳しいので逆にあんまり陳腐化は問題になりにくい。 並列化もあんまり問題にならない。
推論の高速化の人材不足。
推論のモデルは2桁Bくらい。量子化も有効。
栗原さん。
割と色々やられているっぽい。
DRAM セルの容量 : 10-20 fF。従ってアクセスの消費電力は 10fJ程度 でしかない。ゲートの消費電力は 1ゲートあたり 0.1-1 fJ 程度。沢山 ゲートいれてもしれてる。
ところが、配線の寄生容量は 1cm あたり 2pF あっ て、アクセスの消費電力は 1pJ 程度。HBMでは 色々あわせるとまだ 10pJ近い。
つまり、現在の DRAM およびロジック製造技術でも、メモリアクセスエネルギー はもう2-3桁下げる余地がある(配線長を 1mm 以下にすれば)
Memory Wall(Wulf and McKee 1995, Wilkes 1995) は3次元実装と分散 メモリアーキテクチャで本当に解消する。BF=4 の計算機も将来にわたって可 能。
さらに IGZO DRAM とかにすると低電圧化ができるはずで、もう1桁くらいエネルギー下がってもいい。
せっかく TSMC に先行して GAA 導入したんだから頑張って欲しいところ。
なんか、ソ連相手だと先端技術禁輸が効果あったと思うんだけど、中国相 手で半導体だとあんまり上手くいってない気がする。これ、根本的には、EUV 使わないと作れない半導体の性能メリットが、EUV なしでつくれる14nm あた りに比べてそんなに大きくないからではないか。
もちろん、同一アーキテクチャのシングルコアとかだとそれなりの性能向 上があるんだけど、 CMOS スケーリングが成り立たっていた時代とは違うので コストとか電力あたりで10倍とかの差にはなかなかならない。
そうすると、結構実装方式やアーキテクチャの違いが効いてくるので、既 存のエコシステムを捨てられるほうが有利になる。
2015年くらいまでの CMOS スケーリングが生きていた時代とはゲームのルー ルが変わってるんだけど、あんまりみんなそのことを理解しないで同じやり方 で勝てると思ってるところがある。
本当に電圧さげた分がほぼ電力向上の理由だから、はじめから 0.55V と かだとプロセスノードが進んでも電力低減の効果は小さくなる。同じ電圧だと12%くらい速くなって2%くらい電力減るので、まあ10%ちょいは電圧さげた以外の貢献もある。
このグラフ、書いてある数字に意味があるとすると縦軸も横軸も原点通ってないことがわかる。
グラフだけ見ると電圧 0.3-0.5V くらいで動きそうにみえるけどそうなのこれ? Off 電流も小さくなってるのでリフレッシュ減らせるのと高温でも動作可能かも?
まあ随分昔から話はあってなかなか実用化まできてなかったわけだけどそろそろ本当にくるのかも。
なんかこう人生の選択を誤った気がする。もうちょっとこうシミュレータとかRTLとかRTL生成ツールとか書く生活をしたい。
こっちだと Gaudi 3 も推論用みたいなことが書いてある。
Gaudi 3 って、 今時珍しく巨大な行列乗算器があってメモリバンド幅がオンチップさえ低い アーキテクチャで、バッチサイズものすごく大きくしないと H100に負ける って公式資料に書いてあってなかなかつらい。
まあ計算機ってなにかしら物理で殴るところがないと数の力で勝つしかないからねえ、、、(CPUはマイクロアーキテクチャの差に意味があるけどアクセラレータはもちろん駄目なアーキテクチャはあるけどそこまで駄目でないとあとは物理)
ここでは「今後可能性があるのは貫通配線を使って別に作った論理 LSI とメモリ LSIを 非常に沢山の配線でつなぐ技術でしょう。これは沢山のメーカー、大学その他 で活発に研究されており、向こう数年くらいで実用化が進むものと思います。」と書いてる。
まあ実際には Wide I/O は死んで、ある意味折衷案である HBM がでてきたわけで、実用化が進むというのは半分はあたっているけど半分は外れた。
で、ようやくプロセッサダイの上に 3D 積層 DRAM を載せる時代がくる、 と私は確信しているわけだけど、どうなるかな。
ついで、 embedded DRAM は成り立たない、DRAM プロセスでの PiM も×、と書いてあってこれは今もその通り。
3Dは熱の問題をいう人が多いんだけど、これはマイクロバンプ(CoC/CoW)に固有の問題でハイブリッドボンディング(WoW)では問題にならないということは知っていてもいいと思う。
マイクロバンプは要するに 20um くらいのハンダボールで2枚のウェファの電極をつなぐわけで(最近は5umとかいう話もあるけど)、これはウェファの間の隙間を樹脂で埋める。樹脂なので熱伝導率が低くて、これが問題になる。
SK Hynix は競合他社よりここの熱伝導率が高い技術をもってて、なので高クロックができるということらしい。これはでもメモリだけでも大変発熱するということでもある。
ところが、ハイブリッドボンディングでは接合される絶縁層は元々ある SiO2 なので、薄い上に熱伝導率が大きい。熱伝導率が3-4倍で厚さが半分とか。なので、マイクロバンプで1層と、ハイブリッドボンディングで8層が同じくらいの熱抵抗になる。
まあこれはそうなんだけど、JEDEC 標準にならないとなかなか難しいよね、、、
台湾から ANA の で羽田に移動中なんだけど、ネットワークがクレジット カード番号いれてクリックしたところから先に進まない。これで金だけとられ てつながらないままとかって大変ありそうではある。
10人くらいいると定年まだ学科長回ってこないとか、こいつは危ないから学科長止めとこうとかあるけど、2人とか3人だとそうはいかないしね。
今「推論」といえば LLM 推論なわけで、これはものすごくメモリ量と計 算パワー、特にメモリバンド幅を使う。これには、学習用をダウングレードし たみたいな「推論用」チップは役に立たない。
まあ、LLM 推論って B/F が重要みたいな本当に恐ろしい世界で、これに HBM3e とか 4 で対応しようとして死にそうになってるのが今の GPU なんだけ ど、これは HBMx 使う限りどんな設計しても同じ問題が起こる。
もちろん、GDDRx とか LPDDRx とかではもっとエネルギー消費増 えて問題は悪化する。
なので 3D 積層に、というのがもちろん我々の主張なんだけど、じゃあ積 層なら問題は全て解決するかというとそうでもない。
一つはチップ内同期の問題で、LLM 速く動かそうと思うとサブマイクロで 同期とか通信できないと厳しいのは段数と計算内容評価すればわかる。明示的 に同期しないようにしても問題があるのは同じ。
もうひとつはチップ内データ移動の問題で、階層キャッシュや物理共有メ モリをもつと、水平方向のデータ移動が長いためデータアクセスエネルギーが 下がらない。
LLM 推論ははアプリケーションの性質としては基本的に密行列ベクトル積で、 B/F が小さくてアクセスの局所性もない、キャッシュとかメモリ階層がほぼ無 意味なアプリケーションなので。
まあ、我々の主張としては MN-Core L1000 はその辺の全ての問題を解決したということで、ほんまかいなという気もするがどうも本当に解決していそうである。
おそらく問題なのは、 3D積層 DRAM は disruptive technology で、そのポテンシャルを引き出すためには今までのエコシステムを捨てる必要がある、ということ。
例えば IBM のハードウェアビジネスはメインフレームと共に終わり、Intel の半導体ビジネスも x86 アーキテクチャと心中しようとしているんだけど、GPUアーキテクチャはどこにいくのか?という。
我が社的には Samsung はともかく死なないで欲しい。