つっても、非公開のを別につけているわけではない。
Copyright 1999- Jun Makino
2024/11 2024/10 2024/09 2024/08 2024/07 2024/06 2024/05 2024/04 2024/03 2024/02 2024/01 もっと昔グラフだけ見ると電圧 0.3-0.5V くらいで動きそうにみえるけどそうなのこれ? Off 電流も小さくなってるのでリフレッシュ減らせるのと高温でも動作可能かも?
まあ随分昔から話はあってなかなか実用化まできてなかったわけだけどそろそろ本当にくるのかも。
なんかこう人生の選択を誤った気がする。もうちょっとこうシミュレータとかRTLとかRTL生成ツールとか書く生活をしたい。
こっちだと Gaudi 3 も推論用みたいなことが書いてある。
Gaudi 3 って、 今時珍しく巨大な行列乗算器があってメモリバンド幅がオンチップさえ低い アーキテクチャで、バッチサイズものすごく大きくしないと H100に負ける って公式資料に書いてあってなかなかつらい。
まあ計算機ってなにかしら物理で殴るところがないと数の力で勝つしかないからねえ、、、(CPUはマイクロアーキテクチャの差に意味があるけどアクセラレータはもちろん駄目なアーキテクチャはあるけどそこまで駄目でないとあとは物理)
ここでは「今後可能性があるのは貫通配線を使って別に作った論理 LSI とメモリ LSIを 非常に沢山の配線でつなぐ技術でしょう。これは沢山のメーカー、大学その他 で活発に研究されており、向こう数年くらいで実用化が進むものと思います。」と書いてる。
まあ実際には Wide I/O は死んで、ある意味折衷案である HBM がでてきたわけで、実用化が進むというのは半分はあたっているけど半分は外れた。
で、ようやくプロセッサダイの上に 3D 積層 DRAM を載せる時代がくる、 と私は確信しているわけだけど、どうなるかな。
ついで、 embedded DRAM は成り立たない、DRAM プロセスでの PiM も×、と書いてあってこれは今もその通り。
3Dは熱の問題をいう人が多いんだけど、これはマイクロバンプ(CoC/CoW)に固有の問題でハイブリッドボンディング(WoW)では問題にならないということは知っていてもいいと思う。
マイクロバンプは要するに 20um くらいのハンダボールで2枚のウェファの電極をつなぐわけで(最近は5umとかいう話もあるけど)、これはウェファの間の隙間を樹脂で埋める。樹脂なので熱伝導率が低くて、これが問題になる。
SK Hynix は競合他社よりここの熱伝導率が高い技術をもってて、なので高クロックができるということらしい。これはでもメモリだけでも大変発熱するということでもある。
ところが、ハイブリッドボンディングでは接合される絶縁層は元々ある SiO2 なので、薄い上に熱伝導率が大きい。熱伝導率が3-4倍で厚さが半分とか。なので、マイクロバンプで1層と、ハイブリッドボンディングで8層が同じくらいの熱抵抗になる。
まあこれはそうなんだけど、JEDEC 標準にならないとなかなか難しいよね、、、
台湾から ANA の で羽田に移動中なんだけど、ネットワークがクレジット カード番号いれてクリックしたところから先に進まない。これで金だけとられ てつながらないままとかって大変ありそうではある。
10人くらいいると定年まだ学科長回ってこないとか、こいつは危ないから学科長止めとこうとかあるけど、2人とか3人だとそうはいかないしね。
今「推論」といえば LLM 推論なわけで、これはものすごくメモリ量と計 算パワー、特にメモリバンド幅を使う。これには、学習用をダウングレードし たみたいな「推論用」チップは役に立たない。
まあ、LLM 推論って B/F が重要みたいな本当に恐ろしい世界で、これに HBM3e とか 4 で対応しようとして死にそうになってるのが今の GPU なんだけ ど、これは HBMx 使う限りどんな設計しても同じ問題が起こる。
もちろん、GDDRx とか LPDDRx とかではもっとエネルギー消費増 えて問題は悪化する。
なので 3D 積層に、というのがもちろん我々の主張なんだけど、じゃあ積 層なら問題は全て解決するかというとそうでもない。
一つはチップ内同期の問題で、LLM 速く動かそうと思うとサブマイクロで 同期とか通信できないと厳しいのは段数と計算内容評価すればわかる。明示的 に同期しないようにしても問題があるのは同じ。
もうひとつはチップ内データ移動の問題で、階層キャッシュや物理共有メ モリをもつと、水平方向のデータ移動が長いためデータアクセスエネルギーが 下がらない。
LLM 推論ははアプリケーションの性質としては基本的に密行列ベクトル積で、 B/F が小さくてアクセスの局所性もない、キャッシュとかメモリ階層がほぼ無 意味なアプリケーションなので。
まあ、我々の主張としては MN-Core L1000 はその辺の全ての問題を解決したということで、ほんまかいなという気もするがどうも本当に解決していそうである。
おそらく問題なのは、 3D積層 DRAM は disruptive technology で、そのポテンシャルを引き出すためには今までのエコシステムを捨てる必要がある、ということ。
例えば IBM のハードウェアビジネスはメインフレームと共に終わり、Intel の半導体ビジネスも x86 アーキテクチャと心中しようとしているんだけど、GPUアーキテクチャはどこにいくのか?という。
我が社的には Samsung はともかく死なないで欲しい。