つっても、非公開のを別につけているわけではない。
Copyright 1999- Jun Makino
2024/02 もっと昔"The Falcon Shores will be the first GPU architecture designed solely for AI workloads." とのことで、 HPC とか眼中にない感じ。
まあ学習したものが元の解法より速いかどうかは知らんけど、疎行列 反復が必要な有限要素法の解が推論ででるなら、1回の反復に比べて計算量 が1万倍くらいになっても速いわけだし。
パッケージ小さいのは大変素晴らしい。
まあそんなところか。
【資料4-2】次世代計算基盤に関する報告書 中間取りまとめ(案) (PDF:983KB) PDF
色々なことを読み取れるがもうちょっと公式発表待つほうがいいのかな?
FP64 は4枚で90TF なので、FP64 の演算器削ったんだな、、、うーん。
まあ実際問題として多くのHPCアプリケーションでは倍精度乗算ってそこまで重要なじゃない。わりと色々なことが単精度で十分ではある。加減算は倍精度欲しいことが結構ある。
なので、FMA 1 に対して加減算3くらいの割合で加減算できればあとは単精度乗算ですむことは多いはず。まあ型変換に時間かかるようでは駄目だけど。
いやまあ死ぬよねあれ。
SK Hynix and Nvidia reportedly working on a radical GPU redesign that 3D-stacks HBM memory directly on top of the processing cores -- 人のとこのリークは色々役に立つんだけどさ、、、
と、それはともかく、このタイプの logic と DRAM の積層は、神戸大学チームのポスト富岳検討のベースになっていて、3次元積層により「チップ内分散メモリ」アーキテクチャに移行することが必要、というのが我々の主な主張でございます。
コマンドラインでできないと使い勝手悪すぎ。
で、その状態で音声設定を閉じて、BT オフ-オンしてプロファイルに HSP があったらそっちに切換える。なかったら色々する。
エクセルでcut&paste で1行ずれるとかはちゃんと join 的なものを使えば防げるはずではある。
しかし A にとって失われた10年という感じが。AMD/Xilinx はどうするのかな。
結局、FPGA でアクセラレータってAI でも HPC でも大規模ビジネスにな らない(GPUに勝てない)ので、その辺のベンダがもってると本来のFPGAマーケッ トで失敗するということである。1bit LLM ではいけるかというとそんなこと はないのは性能推定すればわかる。