つっても、非公開のを別につけているわけではない。
Copyright 1999- Jun Makino
2024/07 2024/06 2024/05 2024/04 2024/03 2024/02 2024/01 もっと昔Vicor がこの辺のやる気ゼロ感があるし、
でも昔と違って、熱くあるべきものがちゃんと熱く、そうでないものは普通の温度で、になってるような。細かいところで進歩している?
なんかやっぱり、HC も、こんな複雑なの作ったんだよ凄いでしょ、みたいなのが通っちゃう傾向あるような。
データフローってまあみんなの夢なんだよね、というのがわかる。CGRA がその何度めかのリバイバル。
でも、GRAPE みたいな application-specific hardwired pipeline はメ リットおおきいけど、 reconfigurable hardware でそれを実現しようとするの は SIMD PE array に決して勝てないというのはいい加減学習されてもいい気がする。
おおお、 GF12nm だ。これ Samsung の FinFET だっけ。
ベンチマークはオンチップメモリ 4.5MB にはいる行列の範囲での疎行列なんとかなのね、、、
CPU や GPU もデータがL2にあるところから始めないとフェアじゃないかも。
TSMC N5 421 mmsq 90W INT8 356TOPS FP16 177TF 2.35B gates 128GB LPDDR5 204.8GB/s
8x8 の PE ネットワークの外側に SRAM がある構成。8x8 はメッシュネッ トワーク。
この構成は、SRAM のバンド幅がすごく低くなる、という問題があって、 実際 2.7TB/s しかないと書いてある。
なぜ PE に分散させないんだろう?
N5 でこの面積のチップで FP16 177TF なら MI300X でも H100 でも買っ たほうが安くないかというか MN-Core 2 も多分だいぶ安い値段で倍以上の性 能出せる気が。
あ、Dojo の話になった。 N7 645mmsq BF16 362 TF @ 2GHz 440MB SRAM。 これ電気喰いそう。400W という数字もでてる。
これ使えば NVIDIA SuperPOD みたいなのが Broadcom にも NVIDIA にも 依存しないでつくれそうではある。 Ethernet NIC と PCIe インターフェース が統合されているのは面白い。
まあホストもこれにつけるのか?そうすると CPU と GPU の間のバンド幅は? という問題はある、、、CPU-GPU は直結にしたいものね。
2 つの CPU 間を 32Gbps の光 64 本でつないだという話に見える。Gen5/CXL2 とのことで要するに PCIe gen5 なのねこれ。
ハードウェアの例が全部 DEC と AMD。いやもちろんそういう人なんだけど。
LLM 推論が GPU の20倍速い(single user output token/s で 1800)というんだけ ど、、、これ 8B だから1枚フルに使った速度だな。
メモリバンド幅が7000倍あるなら20倍しか速くないのは何故か?まあこっちは演算速度がみえるからのはず。
70B は FP4 かな?FP16 で4枚使うと書いてあるか。
現状ではよさげでも中国のというと使いにくいよね、、、
7nm で RTL-Freeze まできたと書いてあるけどファブはいずこ?
そういえばオープンソースのハードウェアでソースみても分からないトラップいれるのって可能なのかな? UNIX C コンパイラのあれみたいなの。
TSMC N5 820mmsq 1.8TB/s HBM2e BF16 0.8PF 9, 6 bit 1.5, 3PF。6bit 3PF はがんばってる気が。
16 clusters in SOC, 4 tiles/cluster これキャッシュなくて L1/L2 ス クラッチパッドだ。
自分の発表(最後だった、、、)終了。ふう。
なんというか、、、大変そう。LPDDR5x をパッケージに統合。
比較が全部当社従来品比でなかなかよくわからない。
基本的にメインフレームのためなので AI アクセラレータも独自に作るん だ的なお話。AI アクセラレータが 32コアで 2MB のスクラッチパッドでキャッ シュはないっぽい。
コア内に 8x8 のシストリックアレイ風の行列乗算ユニットがある模様。 32コアの間はなんか不思議なネットワーク。
Spyre は Samsung 5 LPE 330mmsq 26B trs
実際の性能の話が一切なかったな。
人の発表では。「何が語られなかったか」が重要ではある。
Blackhole は N6, 745TOPS FP8、 512GB/s GDDR6。
SemiAnalysis の質問が厳しい。DRAM プロセスのロジックではまともな性 能でないんだからI/O なんとかしたほうがよくね?的。まあそれはそうでその ための WoW である。
AMX がこんなに速くなったよとのこと。相変わらず Intel アクセラレー タの敵は Xeon である。
コアは Intel 3 でI/O ダイは Intel 4と Lunar Lake は、、、発表資料 に書いてないと思ったら TSMC N3B+N6 なのか。おお、、、
オンチップメモリは 520MB で大きいけど MN-Core 2 の倍しかない。 N5 で1600mmsq とかあるからトランジスタ数では4-5倍ある。
FP64 ピーク性能の謎は相変わらず解明されない、、、
レイアウトから HBM の配線のすごい幅がみえる、、、
Rust, Chiesel と、、、
多次元のテンソルを直接サポートって思想が間違ってる気がする。それを 連続アクセスにだけしたのが matmul/matv なので。
なんというか、インナーサークルの中ではなかったのかなみたいな。
私の意見としては Chip design に必要なのはまともな並列アルゴリズム で AI じゃないんだけど、まあ。
そういえば我が社(というか私)の発表の 記事 が TECH+ にでとる。
CNN で IR drop を推定するとか。普通にやると数時間が秒単位でとか、 Macro placement に AI 使うとか。DRC を RL でとか。
データパスには SA 使うといってたような。SA は AI ですかそうですか。
なんかね、スレッド並列しかできてない設計ツールの代わりに GPU クラスタで動く深層学習モデルもってきて500倍速いぜ、みたいな話なんだよねこれ。
せめて MPI 並列くらいしてから比べて欲しい。
じゃあ密度が高いほうは?というと、原理的には、水冷で冷やせる限りに おいて密度が高いほうがコストが低いというか、密度あげて発熱密度あたりの コストが上がる要因があんまりない気がする。
とはいえそもそも水冷必要でないところから水冷必要になるところでコス トがジャンプするので、そこに最小値がある可能性はあるか。
液浸の話がちょっとあった?
コンテナ水冷で2相冷却でというプロジェクトを ARPA でやってるとのこと。
2相冷却って単なるヒートパイプと何か違うんだっけ?
なんか一般的な話にとどまってる気が。あんまり具体的にこんなふうという話がない。
次は FRORE Systems というところの人。
Solid-state active cooling chip basd on MEMS というものらしい。 MEMS がファン的なエアフロー作るものになるということ?
薄い遠心ファンと比べてメリットあるのかしらこれ?
次は PHONONIC。これも solid state cooling platform。サーバー用みた い。
Thermoelectric devices で、要するにペルチェ素子の類?
シリコンで作ったヒートポンプとのこと。
ロジックのトランジスタコストはこんなにはさがってない気がするというかN7以降さがってない気が、、、
DRAM のビットコストはまあこんな感じで、2x から 1c で半分と 1/3 の間くらいと。
半導体技術の指数関数的な進歩というのは DRAM と CMOS Logic については本当におわってるんだなと。
ここのところ海外って台湾と韓国しかいってなかったのでアメリカいく時になんか準備があったかとか忘却の彼方である。UA のオンラインチェックインはできてESTA も期限きれてなくてパスポートもったから大丈夫かな。
と思ってたら一杯トラブルがあったが時間に余裕があったので特に大きな問題はなし。
というわけで ITER いつだっけと思ったら2025年の予定が今年になって2034年になったと。
延びるというと LISA だがこれはいつのまにか 2037年に。
むしろ、ハードウェアとして、例えば、このループの間 L1B から 放送されてくるデータをどっかにストアしながらそれとローカルメモリに もってる行列との部分積の計算を裏で行列レジスタを入れ換えながらやる、 みたいなデータの流れと演算器のモードをイメージする必要がある。
で、そのデータフローになるようにアセンブリコードを書く。
L1BMとかL2BM もキャッシュじゃないので、どの時点で何のデータを どこに置くかは完全に制御できるので、チューニングについては キャッシュベースより全然簡単で、書いた通りに動いて書いた通りの性能がで る。
まあ、「チューニングは」楽だというだけでそこまでは大変だというのは 否定しがたいし、ちゃんとしたコンパイラいるよねというは全くその通りでは ある。とはいえコンパイラが出すコードの最適化も上の「書いた通りに動く」 という理由からそんなに難しくない。
難しくないなら立派なコンパイラあるんだよね?といわれるとそこはまあ 色々としかいいようがないところがあるが。
まあそうわかっていてもなんとかできるわけでもない。
まあ遅延が大きくてバンド幅が小さくてもいいから安価に大容量が欲しい、という需要はあるわけで、それにはいいと思う。
現状もっとも安価なエネルギー源は時間変動に文句をいわなきゃ太陽電池等なわけで、メタネーションとか含めてそれを有効利用する方向しか将来はなさそうと思うんだけど。
まあなので、ロボ太先生あたりには是非ともポスト富岳のアプリケーショ ンの取りまとめ(富田さんの後任ですな)を引き受けていただいて、「主要な アプリケーションほぼ全部」というのはどういう感じかをみておいて欲しい とは思う。
まあ、私の感覚では、主要なアプリケーションを規則格子、不規則格子、 粒子、密行列、それ以外(富岳というかポスト「京」の重点アプリケーションは概ね こういう観点で選択されている)とわけたとして、
規則格子はまだ小グループ(スーパーマンなら一人)で先端の MPI プログ ラムを作れることがある。不規則格子は大きなチームによる継続的な開発 が必須。粒子は Volker みたいな超スーパーマンがいるのでややこしいが 基本的にはチーム必須。
密行列は MPI 以前の段階で既に大規模グループ必須(これは、量子化学とか深層学習 とかアプリケーション自体がわりとややこしいため)、「その他」は 多くの場合そもそも MPI化できてない(OpenMP とか PThread で書いてあってそれもスケー ルしなかったりする)
概ねいった回数順。三叉路は3回くらいいった気がする。そのうち2回は 和達さんがいたような気がする。
東電からの発表も今のところ8/9のこれが最新と。 2号機の使用済燃料プール冷却系一次系ポンプの手動停止について(続報)
構造の概略は これの2ページ目かな。
概ね2号機にある分くらいの使用済み燃料があると。10年たって発熱量が 熱出力の 0.01-0.03% くらいだとして230-690kWと。まだそんなにでるのか。
あるいは除染がすんだ地域は汚染されていないとか?撤回された宮崎早野第二論文では「除染には効果がない」と主張されていたことが思い出される。あれは科学的に正しい論文だと皆様思ってるんだよね?
福島県及びその近隣県における 2023 年 11 月 27 日時点(事故から約 152 か月後)の空間線量率 の分布マップを見るとなかなかうーむではある。
夜中にその辺(駅近く)にいるのが大体若い人で東京(というか神田あたり)と全然違うんだけどたまたま?人口分布はむしろ東京のほうがまだ若い人多いよね?
未来開拓の時からしか知らないので元々は素粒子理論だったとか宇宙論もやってたとか全然知らなかった。
ファブ切り離さないと将来はないと思うけど、切り離して競争力がある CPU 作れるかというと?だし。
インテル® Gaudi® 3 AI アクセラレーターのホワイトペーパーを眺める。
N5のダイ2枚で 1.2KW でOAM モジュールに載って電源供給できるのはすご いんだけど、ピークの FP8性能でH100 に勝ててないのはなんか厳しい。
TPC とMME ハードウェア的に別にもってるの?で、それらが L2/L3(コン フィグ可能)キャッシュをシェアするのか。うーん。
結局、メインストリームのハードウェアは使いにくいものであってもメインストリームである時点でみんなそれなりに使ってるので、メインストリームのハードウェアより使いやすいけど性能低いハードウェアって絶対売れない。
こんなのはわかりきっていると思うんだけどそれなのになぜ N 以外のところが出すものはダイ面積あたりも電力あたりもNより性能が低くなってしまうのか?というのは分析に値すると私は思う。
「速くなければ誰も買わない」「使いやすくなければ買う人が限られる(かもしれない)」「(伝統的な意味で)使いやすくすれば速くならない」。これはどれも正しくて、なので「使いやすさ」の再定義が必要という話ではある。