牧野の公開用日誌

つっても、非公開のを別につけているわけではない。

2024/07 2024/06 2024/05 2024/04 2024/03 2024/02 2024/01 もっと昔

2006/10/xx UPn 〆切仮題「重力多体系と専用計算機」
2024/8/3 13:30 HHME なし
2024/8/4 14 黒川さん
2024/8/18 14 黒川さん
2024/8/30 17 チーム別
2024/9/1 14 黒川さん
2024/9/17-20 実習E
2024/9/18 夜から? 台湾出張
2024/9/20 12 ポスト富岳評価委員会
2024/9/20 13:30 アドバンスセミナー
2024/9/26-27 アクセラレーション研究会
2024/9/30 17:30 チーム別
2024/11/17-22 SC24
2024/12/14 13 神戸車検
2024/12/27 ポスト富岳FS合同シンポジウム
2025/1/6 15-17 NEDO 技術推進委員会

定例

2023 4Q 木曜1限惑星学基礎III
2023 4Q 木曜2限惑星学基礎III 演習
火曜 13 学生自主ゼミ
火曜 10 GFC
火曜 13 コデザインチーム定例 (23/4-)
火曜 16:30 CPS 定例
水曜午前(原則)研究室セミナー
水曜:惑星学初年次セミナー(第1Q水2) 牧野がいないといけないのは 6/1
水曜 13 神戸大B4定例
木曜 13 PFFS arch 定例
木曜 14 PFK 定例 (biweekly)
木曜 14 PFFS software 定例 (biweekly)
金曜 11 GPFN4 SW
金曜 13 GPFN4
金曜 16 PFFS all 定例 (biweekly)
木曜:専攻会議 12:20 (月に一度)
神戸大学カレンダー神戸大学予備日 6/11, 8/11, 11/22, 2/10 7/19 木曜 7/20 金曜

地震・原発関係リンク

2024/8/30

昨日帰宅してから朝まで寝てた。ちょっと回復。 HotChips が9時から 6:30 くらいまでの長丁場で普通にメイルとかその他もろもろも対応する(時差の関係で夜遅くまでやればできるのが問題、、、)ので睡眠不足が、、、

2024/8/29

というわけで 8/28 が時差の狭間に消えていった。
Ferric というところがすごく薄い電源モジュール作ってるんだけど、どっか採用例ってあるのかな？これだと基板の裏におけそう。大電力低電圧基板設計がすごく楽になるというかまあできそうになる。
Vicor がこの辺のやる気ゼロ感があるし、
UA837 で帰国。UA のアメリカンな機内サービスを満喫する。何故かミールがメインなしできて、おーいとか声かけてもとどかないとか。
でも昔と違って、熱くあるべきものがちゃんと熱く、そうでないものは普通の温度で、になってるような。細かいところで進歩している？

2024/8/27

今日の(ポスタートーク別の)最初のセッションは石井さん@テンストレントが座長。
最初は AMD (Xilinx) Versal。
次は Stanford の Onyx アクセラレータ。CGRA。いやその、、、本気で疎行列やるならCGRAは向いてないと思います。
なんかやっぱり、HC も、こんな複雑なの作ったんだよ凄いでしょ、みたいなのが通っちゃう傾向あるような。
データフローってまあみんなの夢なんだよね、というのがわかる。CGRA がその何度めかのリバイバル。
でも、GRAPE みたいな application-specific hardwired pipeline はメリットおおきいけど、 reconfigurable hardware でそれを実現しようとするのは SIMD PE array に決して勝てないというのはいい加減学習されてもいい気がする。
おおお、 GF12nm だ。これ Samsung の FinFET だっけ。
ベンチマークはオンチップメモリ 4.5MB にはいる行列の範囲での疎行列なんとかなのね、、、
CPU や GPU もデータがL2にあるところから始めないとフェアじゃないかも。
次は META MTIA。憶えにくい。
TSMC N5 421 mmsq 90W INT8 356TOPS FP16 177TF 2.35B gates 128GB LPDDR5 204.8GB/s
8x8 の PE ネットワークの外側に SRAM がある構成。8x8 はメッシュネットワーク。
この構成は、SRAM のバンド幅がすごく低くなる、という問題があって、実際 2.7TB/s しかないと書いてある。
なぜ PE に分散させないんだろう？
N5 でこの面積のチップで FP16 177TF なら MI300X でも H100 でも買ったほうが安くないかというか MN-Core 2 も多分だいぶ安い値段で倍以上の性能出せる気が。
次。Tesla。 Tesla Transport Protocol over Ethernet (TTPoE) でチップの話ではないっぽい？
あ、Dojo の話になった。 N7 645mmsq BF16 362 TF @ 2GHz 440MB SRAM。これ電気喰いそう。400W という数字もでてる。
次。 Enfabrica。8-Tbit/s SuperNIC と書いてある。100GE 32 レーンと PCIe gen5 160 レーン (16レーン x 10) が集積されたチップ。
これ使えば NVIDIA SuperPOD みたいなのが Broadcom にも NVIDIA にも依存しないでつくれそうではある。 Ethernet NIC と PCIe インターフェースが統合されているのは面白い。
まあホストもこれにつけるのか？そうすると CPU と GPU の間のバンド幅は？という問題はある、、、CPU-GPU は直結にしたいものね。
RTX 4090 のボードとパッケージをみて色々考える。うーん。
午前の最後は Intel 4 Tbit/s Optical Compute Interconnect Chiplet for XPU-to-XPU Connectivity
2 つの CPU 間を 32Gbps の光 64 本でつないだという話に見える。Gen5/CXL2 とのことで要するに PCIe gen5 なのねこれ。
午後の最初のセッションが終わったらすぐに演台にこいとメイルには書いてある。
午後最初のトークはキーノート。 The Journey to Life with AI Pervasiveness
ハードウェアの例が全部 DEC と AMD。いやもちろんそういう人なんだけど。
次。Celebras WSE-3。N5, 46,225 mmsq 125PF (2PF for 800mmsq), 44GB memory
LLM 推論が GPU の20倍速い(single user output token/s で 1800)というんだけど、、、これ 8B だから1枚フルに使った速度だな。
メモリバンド幅が7000倍あるなら20倍しか速くないのは何故か？まあこっちは演算速度がみえるからのはず。
70B は FP4 かな？FP16 で4枚使うと書いてあるか。
次。XiangShan: An Open-Source Project for High-Performance RISC-V Processors Meeting Industrial-Grade Standards Chinese Academy of Sciences
現状ではよさげでも中国のというと使いにくいよね、、、
7nm で RTL-Freeze まできたと書いてあるけどファブはいずこ？
そういえばオープンソースのハードウェアでソースみても分からないトラップいれるのって可能なのかな？ UNIX C コンパイラのあれみたいなの。
Ampere One 192 core TSMC 5nm
Inside Maia 100 MS の推論アクセラレータ
TSMC N5 820mmsq 1.8TB/s HBM2e BF16 0.8PF 9, 6 bit 1.5, 3PF。6bit 3PF はがんばってる気が。
16 clusters in SOC, 4 tiles/cluster これキャッシュなくて L1/L2 スクラッチパッドだ。
自分の発表(最後だった、、、)終了。ふう。
女性が寒がりなのは本当か、科学研究で分かってきたことナショナルジオグラフィック -- 要するに個人差は確かにあるということらしい。

2024/8/26

今日の最初は Quaalcom Oryon。がんばってます的な。
次は Luner Lake。
なんというか、、、大変そう。LPDDR5x をパッケージに統合。
比較が全部当社従来品比でなかなかよくわからない。
次は IBM。IBM Telum II and Spyre accelerator
基本的にメインフレームのためなので AI アクセラレータも独自に作るんだ的なお話。AI アクセラレータが 32コアで 2MB のスクラッチパッドでキャッシュはないっぽい。
コア内に 8x8 のシストリックアレイ風の行列乗算ユニットがある模様。 32コアの間はなんか不思議なネットワーク。
Spyre は Samsung 5 LPE 330mmsq 26B trs
次は Tenstorrent blackhole。ひたすらソフトウェアスタックの話をしている。スタンドアローンにしたから大変なんだよね、、、
実際の性能の話が一切なかったな。
人の発表では。「何が語られなかったか」が重要ではある。
Blackhole は N6, 745TOPS FP8、 512GB/s GDDR6。
次は SK Hynix。 GDDR6-AiM BF16 512GF 512 GB/s。LLM 推論でバッチサイズ1ならこれでも、という話なんだけど、、、
SemiAnalysis の質問が厳しい。DRAM プロセスのロジックではまともな性能でないんだからI/O なんとかしたほうがよくね？的。まあそれはそうでそのための WoW である。
次。Intel Xeon 6。なんかみんな I'm super-excited とかで始めるよね。
AMX がこんなに速くなったよとのこと。相変わらず Intel アクセラレータの敵は Xeon である。
コアは Intel 3 でI/O ダイは Intel 4と Lunar Lake は、、、発表資料に書いてないと思ったら TSMC N3B+N6 なのか。おお、、、
次は OpenAI の人。
次は NVIDIA Blackwell. あんまり聞いたことがない話はない気が。
次は SambaNova SN40L。N5 102B trs 638 BF16 TF。性能ちょっと厳しい。
オンチップメモリは 520MB で大きいけど MN-Core 2 の倍しかない。 N5 で1600mmsq とかあるからトランジスタ数では4-5倍ある。
Gaudi 3 も N5 でダイ大きい。BF16 の性能は SN40L の3倍あってこれなら戦えるが、ベクトルモードの性能が××な気が。MME が本当に大きい、初代 TPU みたいな構成なのね。
次世代AI半導体開発等に向けた資本業務提携に関する基本合意のお知らせ
MI300X は12?チップレット。8 compute dies, 4 base dies.
FP64 ピーク性能の謎は相変わらず解明されない、、、
Broadcom、Co-packaged Optics の話。
Furiosa A Tensor Contraction Processor 5nm 653mmsq で FP8 512TF。うーん。
レイアウトから HBM の配線のすごい幅がみえる、、、
Rust, Chiesel と、、、
多次元のテンソルを直接サポートって思想が間違ってる気がする。それを連続アクセスにだけしたのが matmul/matv なので。

2024/8/25

兵庫県知事、告発職員を「調査結果待たずに処分できないか」…人事当局に検討指示 -- こういう話がでてきちゃうというのはもう知事はどっか上のほうから切られたということかなあ。まあ切られるとねえ、というのは字は違う別の誰かのことが思い出される。
なんというか、インナーサークルの中ではなかったのかなみたいな。
サンノゼ涼しいというか朝晩は寒い。天気予報だと最低気温14度とかである。
台湾でなんか話すの英語だと思って英語でスライド作って送ったら、同時通訳がはいるので日本語でやって下さいとのこと。全く想定外であった。あらま。
HotChips 日曜の今日はチュートリアル。Intriduction to AI for Chip Design
私の意見としては Chip design に必要なのはまともな並列アルゴリズムで AI じゃないんだけど、まあ。
そういえば我が社(というか私)の発表の記事が TECH+ にでとる。
CNN で IR drop を推定するとか。普通にやると数時間が秒単位でとか、 Macro placement に AI 使うとか。DRC を RL でとか。
データパスには SA 使うといってたような。SA は AI ですかそうですか。
なんかね、スレッド並列しかできてない設計ツールの代わりに GPU クラスタで動く深層学習モデルもってきて500倍速いぜ、みたいな話なんだよねこれ。
せめて MPI 並列くらいしてから比べて欲しい。
あれ、Tesla Dojo も Alchip? AWS のなんかもあるしすごいな。
GPU の電源の話をしているトークの途中でプロジェクタか何かの電源が落ちた模様。
大学のほうのなんかの停電?で15分ほど発表中断。
再開した。
水冷はこんなに素晴らしいという話をしている。まあ水で冷やした空気で計算機冷やすより直接水で冷やすほうが効率がいいというのはそれはそう。
1KW GPU 8K 個のDC 5年で OPEX 60M USD とか。
Supermicro DLC は 2-4W で納入しますって。
NVIDIA の人が水冷の話をするはずなんだけど今のところ単に AI すごいな話をしている。演台を歩き回りながら話をできるのは偉いかも。
発熱密度上がるよねという話に到達。
発熱密度あたりのハードウェア構築コストって発熱密度の関数なはずだけど、どこかに最小値があるのかしら？発熱密度がゼロの極限では明らかに発熱密度あたりのコストが発散するから、ある程度高いほうがいいのは明らか。
じゃあ密度が高いほうは？というと、原理的には、水冷で冷やせる限りにおいて密度が高いほうがコストが低いというか、密度あげて発熱密度あたりのコストが上がる要因があんまりない気がする。
とはいえそもそも水冷必要でないところから水冷必要になるところでコストがジャンプするので、そこに最小値がある可能性はあるか。
水冷DCのデジタルツイン作りましたという話をしている。
液浸の話がちょっとあった？
コンテナ水冷で2相冷却でというプロジェクトを ARPA でやってるとのこと。
2相冷却って単なるヒートパイプと何か違うんだっけ？
次は edge AI の冷却の話。Qualcomm の人。
なんか一般的な話にとどまってる気が。あんまり具体的にこんなふうという話がない。
次は FRORE Systems というところの人。
Solid-state active cooling chip basd on MEMS というものらしい。 MEMS がファン的なエアフロー作るものになるということ？
そうだった。
薄い遠心ファンと比べてメリットあるのかしらこれ？
次は PHONONIC。これも solid state cooling platform。サーバー用みたい。
Thermoelectric devices で、要するにペルチェ素子の類？
シリコンで作ったヒートポンプとのこと。

2024/8/24

この資料なかなか面白い。NAND, Logic, DRAM のトレンド。
ロジックのトランジスタコストはこんなにはさがってない気がするというかN7以降さがってない気が、、、
DRAM のビットコストはまあこんな感じで、2x から 1c で半分と 1/3 の間くらいと。
半導体技術の指数関数的な進歩というのは DRAM と CMOS Logic については本当におわってるんだなと。
明日から Hot Chips なのでお出かけ。
ここのところ海外って台湾と韓国しかいってなかったのでアメリカいく時になんか準備があったかとか忘却の彼方である。UA のオンラインチェックインはできてESTA も期限きれてなくてパスポートもったから大丈夫かな。
と思ってたら一杯トラブルがあったが時間に余裕があったので特に大きな問題はなし。
核融合研の研究教育職員（教授、准教授又は助教）の公募について（依頼）任期5年だけど再任可で10人。
というわけで ITER いつだっけと思ったら2025年の予定が今年になって2034年になったと。
延びるというと LISA だがこれはいつのまにか 2037年に。

2024/8/23

MN Server 2 MN-Core 2 Devkit ハードウェアカタログ公開されてます。注文可能になってるはずなので問い合わせはここまで。

2024/8/21

阪大、盗撮で40代教授2人解雇　スマホで女性に繰り返し-- 一人のほうに見覚えがあったのは6月に逮捕されたという記事があったからか。

2024/8/20

MN-Core のプログラミングというかチューニングするのに、アセンブラというのは意味的に適切なレイヤではない、ということはあると思う。
むしろ、ハードウェアとして、例えば、このループの間 L1B から放送されてくるデータをどっかにストアしながらそれとローカルメモリにもってる行列との部分積の計算を裏で行列レジスタを入れ換えながらやる、みたいなデータの流れと演算器のモードをイメージする必要がある。
で、そのデータフローになるようにアセンブリコードを書く。
L1BMとかL2BM もキャッシュじゃないので、どの時点で何のデータをどこに置くかは完全に制御できるので、チューニングについてはキャッシュベースより全然簡単で、書いた通りに動いて書いた通りの性能がでる。
まあ、「チューニングは」楽だというだけでそこまでは大変だというのは否定しがたいし、ちゃんとしたコンパイラいるよねというは全くその通りではある。とはいえコンパイラが出すコードの最適化も上の「書いた通りに動く」という理由からそんなに難しくない。
難しくないなら立派なコンパイラあるんだよね?といわれるとそこはまあ色々としかいいようがないところがあるが。
【独自】「暴言、無視、舌打ち…」斎藤知事パワハラ疑惑アンケート調査　具体的な回答内容明らかに「資料共有されてるはずなのに『聞いていない』と叱責」約300人が実名で回答 -- なんか色々すごい。

2024/8/19

ポスト富岳FSの昨年度の額の確定調査に対応するので今日は神戸。何故かそのあと船にのって移動、、、

2024/8/18

お互いに「自分は科学的であり相手はそうでない」と信じているもの同士の不毛な論争というのもアレななんとか、というのは科学史上では普通に起こることで、まあ、今現在でもおこることだなと、、、
まあそうわかっていてもなんとかできるわけでもない。
“青森再処理工場建設 2年半ほど延期の方向で検討”日本原燃 -- できて動かしたとして無駄なお金をかけて莫大な放射性物質を環境にだして非常に高い MOX 燃料と処理できない高レベル放射性廃棄物を作るだけで経済的合理性はないしねえ、、、
次世代半導体「CXL」、AI時代のスターなるか -- 一方では PCIe では不足だからチップレットで UCIe という話をしてるのに他方ではメモリをPCIe物理層経由でという話をしていると。
まあ遅延が大きくてバンド幅が小さくてもいいから安価に大容量が欲しい、という需要はあるわけで、それにはいいと思う。
時々ここからメイルくるんだけど、これ本物？
SoftBank's Intel AI processor plans in doubt as insiders say it is now considering a TSMC partnership -- SB インテルと AI チップっていう話あったんだっけ？ Gaudi?

2024/8/17

ポーランドに旅立つパートナー氏を成田まで送る。

2024/8/16

2024/8/15

2024/8/14

福島第一原発2号機放射性物質含む水約25トン建屋に漏れ出る -- ようやく続報。結構大変で、25トンが「建屋の中」(って外とつながってるけど)に漏出。
某君の新しい論文(まだ arxiv にでてない)のレフェリー依頼が別の某君、、、あら、エディタですか、お疲れさまです、、、から回ってきた。ちょっと私がやってはいかん気がするのでそう書いて辞退。
lshw -C display でつながってるディスプレイがみえるというので外部ディスプレイをみたら Generic Billboard Device となってて、これは接続に失敗した時に落ちるデバイスクラスという解説があったがディスプレイとしては使えている。うーん、、、

2024/8/13

究極の石炭火力発電、「悪玉論」覆し安定供給守れるか -- 「悪玉論」というかどれだけ高効率化しても「同じくらいあるいはそれ以上に高効率な他のもっとましな火力」に比べて発熱量当りのCO2 排出多いわけで、守れるかというと守れないよね、、、
現状もっとも安価なエネルギー源は時間変動に文句をいわなきゃ太陽電池等なわけで、メタネーションとか含めてそれを有効利用する方向しか将来はなさそうと思うんだけど。
「MPIで」っていう話、何かポイントがずれているようにみえて、これは、結局、アプリケーションの種類によって MPI で書くことの大変さが全然違うんだけど、それぞれ自分が詳しいところでの MPI 利用だけイメージしているからじゃないかという気がする。
まあなので、ロボ太先生あたりには是非ともポスト富岳のアプリケーションの取りまとめ(富田さんの後任ですな)を引き受けていただいて、「主要なアプリケーションほぼ全部」というのはどういう感じかをみておいて欲しいとは思う。
まあ、私の感覚では、主要なアプリケーションを規則格子、不規則格子、粒子、密行列、それ以外(富岳というかポスト「京」の重点アプリケーションは概ねこういう観点で選択されている)とわけたとして、
規則格子はまだ小グループ(スーパーマンなら一人)で先端の MPI プログラムを作れることがある。不規則格子は大きなチームによる継続的な開発が必須。粒子は Volker みたいな超スーパーマンがいるのでややこしいが基本的にはチーム必須。
密行列は MPI 以前の段階で既に大規模グループ必須(これは、量子化学とか深層学習とかアプリケーション自体がわりとややこしいため)、「その他」は多くの場合そもそも MPI化できてない(OpenMP とか PThread で書いてあってそれもスケールしなかったりする)
駒場にいた時に昼飯喰ってた喫茶店の名前をほとんど思い出せなくなっていたので検索してリスト。イーグル、モーゼル、 ZIZI、ドラ、コロラド、三叉路、シェ・リュイ、アンサンブル、チャンテック
概ねいった回数順。三叉路は3回くらいいった気がする。そのうち2回は和達さんがいたような気がする。
福島第一2号機の使用済燃料プールの話、8/9 からなんのアップデートもないけど東電本当に夏休み？

2024/8/12

3D X-AI。これは積層じゃなくて本当の 3D DRAM の話っぽい。今年にもできそうなことが書いてあるけどどうなんだろうこれ。
放射線管理区域って 3ヶ月で 1.3mSv だから、「24時間そこにいるなら」まあ 0.5uSv/h で、そういうエリアは2012年とか13年にはすごく広かったし今でも結構あるけど、、、うーん。

2024/8/11

【速報】＜福島第一原発＞２号機使用済み燃料プール冷却停止・復旧は未定　隣のタンク水位の低下速度上昇で -- これは金曜時点。「プールとつながっているタンクの水位が、何らかの理由で急に減り始めた」とのこと。
東電からの発表も今のところ8/9のこれが最新と。 2号機の使用済燃料プール冷却系一次系ポンプの手動停止について（続報）
構造の概略はこれの2ページ目かな。
概ね2号機にある分くらいの使用済み燃料があると。10年たって発熱量が熱出力の 0.01-0.03% くらいだとして230-690kWと。まだそんなにでるのか。

2024/8/9

今週なんだか滅茶苦茶に忙しかったというか打ち合わせとかが多かった。まあでもなんとか方向がみえてきたかな、、、
「福島は汚染されている」を「誤った事実認識」といっちゃう人の福島の認識ってどうなっているんだろう？帰還困難区域とかも汚染されていないという認識なのかしら？
あるいは除染がすんだ地域は汚染されていないとか？撤回された宮崎早野第二論文では「除染には効果がない」と主張されていたことが思い出される。あれは科学的に正しい論文だと皆様思ってるんだよね?
福島県及びその近隣県における 2023 年 11 月 27 日時点（事故から約 152 か月後)の空間線量率の分布マップを見るとなかなかうーむではある。

2024/8/5

論文生成/添削マシンになっている私。論文添削 AI とかできないものかと思うけど論理自体を直すのってまあ無理か、、、

2024/8/3

昨日は山形大学でなんかお話をしてきて、学科の後輩氏と実ははじめて飲むなど。
夜中にその辺(駅近く)にいるのが大体若い人で東京(というか神田あたり)と全然違うんだけどたまたま？人口分布はむしろ東京のほうがまだ若い人多いよね?
岡本さんの「計算機シミュレーションによる研究を振り返って」 2021年度退職記念講義
未来開拓の時からしか知らないので元々は素粒子理論だったとか宇宙論もやってたとか全然知らなかった。
The Resurrection Of Intel Will Take More Than Three Days -- IBM と違って Intel は CPU を失うとなにも残らないからねえ、、、
ファブ切り離さないと将来はないと思うけど、切り離して競争力がある CPU 作れるかというと？だし。
インテル® Gaudi® 3 AI アクセラレーターのホワイトペーパーを眺める。
N5のダイ2枚で 1.2KW でOAM モジュールに載って電源供給できるのはすごいんだけど、ピークの FP8性能でH100 に勝ててないのはなんか厳しい。
TPC とMME ハードウェア的に別にもってるの？で、それらが L2/L3(コンフィグ可能)キャッシュをシェアするのか。うーん。
結局、メインストリームのハードウェアは使いにくいものであってもメインストリームである時点でみんなそれなりに使ってるので、メインストリームのハードウェアより使いやすいけど性能低いハードウェアって絶対売れない。
こんなのはわかりきっていると思うんだけどそれなのになぜ N 以外のところが出すものはダイ面積あたりも電力あたりもNより性能が低くなってしまうのか？というのは分析に値すると私は思う。
「速くなければ誰も買わない」「使いやすくなければ買う人が限られる(かもしれない)」「(伝統的な意味で)使いやすくすれば速くならない」。これはどれも正しくて、なので「使いやすさ」の再定義が必要という話ではある。

2024/8/2

「黒字、出ちゃいました」独立から半年、デイリーポータルZの今　林雄司に聞く -- heteml MAX って32コア1ノードを月6万くらいで確かに安いんだけど、それまでの月100万ってどういう契約だったんだろう？

2024/8/1

8月である。
午前中で疲れた。おうちにかえりたいがまだまだ会議が、、、
Scopus のだす h-index というのがあってこれは 56 だった。 Google Scholar だと 74。

牧野のホームに戻る