つっても、非公開のを別につけているわけではない。
Copyright 1999- Jun Makino
2022/01 もっと昔N3 になってもウェファの値段はせいぜい2万ドルくらいという話になっていて、システムコストのあんまり大きな部分ではないので、製造の電気代はまだそんなに大きくない。
閲覧履歴の削除:「Ctrl + Shift + Del」同時押し → 閲覧履歴をクリアする。 「Ctrl + Shift + Esc」同時押し→タスクマネージャー、IE,Edgeなどブラウ ザ選択→ タスクの終了 とのこと。
IBus とめて fcitx 起動すると(ERROR-2921211 ime.c:432) fcitx-keyboard-tr-otk already exists (ERROR-2921211 ime.c:432) fcitx-keyboard-us already exists がでる。
で、dbus-daemon と fcitx は起動はしているが入力モードは切換えでき ない。とりあえず IBus に戻しておく。
引用:非常に高いレベルにあると思います。なぜかというと、非常に難度の高いテーマに取り組み続けているからです。
引用:具体的にいうと、汎用CPUへのこだわりです。例えば、米国や中国のスパコン開発はGPGPU(General-Purpose computing on Graphics Processing Units)ベースですが、これでは使えるアプリケーションが限られてしまいます。 引用:特に、ものづくりでは非常に利用しにくいものになります。
引用:「富岳」を動かしている汎用CPU「A64FX」は、富士通が開発しました。なぜ汎用CPUが求められるのかというと、私たちがコデザインで開発しているようなアプリケーションだけでは、ものづくりの現場は動かないからです。
引用:流体解析や創薬といった研究開発の各領域には、すでに標準的に使われている市販のアプリケーションがあります。こうした市販製品がスパコンでも動かないと、困ったことになります。
引用:スパコンを用いて行う研究と、その研究をベースに自分たちの組織に戻って継続すべき研究開発が断絶してしまうのです。これでは、一貫性を持った研究開発はできません。このような一貫性をGPGPUで確保するのは、極めて困難だと思います。
この考え方に対する牧野の意見は一昨日いった通りで、「フラグシップマシン」を汎用CPUだけの部分とアクセラレータありの部分に分けて、共存させることによって移行を進めないといけないというもの。
まあ私も還暦だし加藤さんは64(多分)なので、どっちも老害であろう。
これ公開ワークショップだからだらだらツイートしてもいいんだっけ?資料はあとで公開版下さいねと言われてたような。
まあ委員会で決まったことはいいはずなので、先程推進室長からFの期間は1年延長とのお話あり。
藤井さんのACアダプタに足ひっかけた。ごめんなさい。
タグいれるか #次世代計算基盤ワークショップ
近藤さんの挨拶、河原室長挨拶、近藤さんからの概要説明、近藤さんととこの紹介の順番で、現在近藤さんととこ #次世代計算基盤ワークショップ
「富岳の数倍以上の汎用実効性能」「特定のアプリケーションドメインに対しては富岳の数十倍の実効性能」#次世代計算基盤ワークショップ
自分のトークおしまい。こういう話をした。#次世代計算基盤ワークショップ
次は天野さん。量子コンピュータとの連携の調査報告。#次世代計算基盤ワークショップ
ちょっと難しい問題だと IBM Q はわりと間違えるという話をしている。「日によっても違う」#次世代計算基盤ワークショップ
「もうちょっと高いのを使うとよい結果がでるのではないか?#次世代計算基盤ワークショップ
大西さんのポジショントーク。大変なのは格子を作るところ。これを避けるため階層型直交格子にする。そういう格子向けの行列ライブラリが欲しい。#次世代計算基盤ワークショップ
土井さん。PFN は社会に対して色々なAIの応用を提供する。AI はわりと 計算力で勝負がつく。AI の導入によって、プログラムを書くこともパラメー タチューニングになってきている。#次世代計算基盤ワークショップ
計算に合わせてワークロードを作る、ワークロードに合わせて計算機を作 る、ということがある程度できてきた。#次世代計算基盤ワークショップ
半導体を作ることの難しさ。例えば SRAM スケーリングが止まっている。 free lunch 的な進歩はえられない。そうすると、ハードウェアに「あたる」 研究が勝つ。NVIDIA のGPU で速く動くモデルをつくらないといけない。 #次世代計算基盤ワークショップ
計算機とワークロードをそれぞれ進化させることが可能に。 例えば Chainer は何もないところで某氏が連休に作った。 そうすると、リサーチャーはプログラムを書かない。 #次世代計算基盤ワークショップ
キャッシュラインを意識するプログラムとかは アプリケーション側ではなくて中間でできないといけない #次世代計算基盤ワークショップ
佐野さん。システムの消費電力が大きな課題。 電力のグラフが縦軸が 18MW までしかない、、、 #次世代計算基盤ワークショップ
CPU のみを発展させるのは厳しい。GPU 的なものは必要。 #次世代計算基盤ワークショップ
藤井さん 富岳では色々な理由でなかなか効率がでてない。特にメモリ が不足で粒子数を増やすのも難しい。この辺を改善してホスト。 #次世代計算基盤ワークショップ
大西さん 書換えて10倍、と言われると10倍だとちょっとなあという気が してしまう。機械学習等を活用した高速化、分解能向上も必要と思われる。 #次世代計算基盤ワークショップ
土井さん ソフトウェアの連続性は、、、PFNとしては書換え、リサーチャー は計算の部分だけを指定して、実際のコードはこっちで生成みたいなこと に移行するべき。 #次世代計算基盤ワークショップ
マトランティスはできる問題なら従来の方法の1万倍とか速くなる。もち ろん、DFP のプログラムでつみあげた結果の近似計算である。 ある意味新しい計算方法の追加である。 #次世代計算基盤ワークショップ
佐野さん ソフトウェア資産はやはり大事なので、、、 #次世代計算基盤ワークショップ
藤堂さん マイナスからの出発は勘弁して欲しい #次世代計算基盤ワークショップ
サブグリッドフィジクスのコードは膨大かつ場合によっては 1960年代と かに書かれたものが営々と使われてたりするわけで、そういうのを全部書換え ないといけないと言われたらみんな死んでしまう。
まあ、そういうのを全部、元のコードを渡すともっともらしい(それな りに精度保証もある)補間テーブルに直す、というのを AI がやってくれたら いいわけで、これはできそうな気がしてきた。 M-ANEOS とか SSE とか CHIMES とかなんでも AI で置き換えるの。
これできたら滅茶苦茶有用だよね。で、わりとできる気がする。
というわけでもう一度20いれて、gnome の「設定」で画面ロックにはいら ないようにしてからもう一度 do-release-upgrade。今度ははできた。
スライド27からが 3D。要するに Logic の下に TSV で SRAM おいて 0.4pJ/bit を実現すると。
これ Proprietary & Security C って書いてあるけど 公開資料なの?なんか設定間違えた?
クラウドはI/O速度的にも保管するコスト的にも無理だろう。LTO テープのほうがHDDよりハンドリングは楽そうだけどレコーダー沢山いると高いか。
ヘリウム封入HDDを採用、生データは保護しない――ブラックホール初観測の裏側 「生データは保護しない。現時点でこれをバックアップできるコスト効率の高い手段がないためだ」とクルー氏は語る」
相関器いれる前のデータはもうないのね。あらら。
5兆円の設備投資回収のためにはその数百倍作らないといけない。そこそ こでかいCPUチップで数千万個、そこまででかくなければ1億以上。
TSMC か Samsung と完全に互換にして(技術的には Samsung ですかね) IP から開発ツールまで全部おんぶにだっこで Samsung のファブからあふれたも のをうけるとかすればいいんじゃないかと思うんだけど、どうなんだろう?
というかそれなら TSMC に対抗できるかも?かもかも?
本来、科学技術の側で、それ本当に大丈夫なの?という問題にある程度確かな答をだすべきだという考え方はあるだろうし、政治はそういうものに基づいていないといけないというのは全くその通りだが、現実はそうではないしだから事故は起きたしまた起こるであろうという話ではある。
人材はプロジェクトやらないと育たないし、その中で冒険しないとプロジェクトリーダーは育たない。
で、当たり前だけどそこで「失敗」しないといけない。
イビデンだ。すごい。
とはいえ今回の試験で成功はしてないわけで、普通の日本語では成功でな ければ失敗であろうというのも主張としてはありうるようにみえる。「失敗」 という言葉が異常に重いものになっちゃってるのがなんかおかしいということ な気が。
自分の発表タイトルと時間がどうなってるのか確認できた。
DX 推進のためには「書類」の「フォーマット」として Word, Excel を使うのはやめるべきではないかしらね。データ構造と見た目が分離された形式であるべきなわけで、、、
というわけでNスペでは牧野は「大きなところですごい研究所を持っていて、最先端のものはそこから出てくると思うじゃないですか。でもアーキテクチャー(半導体の設計思想)は、そうなってない。全く新しいものは、ベンチャーじゃないとつくれないんですよね」 と発言したとのこと。
まあ実際そうであろう、みたいな。
もちろんまだスライドなにも作っていない以前に明日〆切だということも忘れていたので30分になったからどうということはないんだけど。
最近つたわってくる話からすると AI より汎用に向かってるのかな?
あとなんとか報告書の〆切が今日だ。
報告書2つ書いた。あと一つ。あ、〆切明日か。とはいえ明日全く時間ないので今日なんとかしないと、、、
でもって、Ubuntu 22.04 shows wrong colorsで、何故かなにもかもがライトグリーンで全く みえない状態だったが、これと同じで gnome-control-center -> colar で sRGBにしたら直った。
これのせいでモニタが死んだのかな?まあ超老朽モニタだったのでいいけど、、、
「専門家」が小島勢二氏と上昌広氏だとそれはそういう主張になると思うけど、、、
引用:大阪大の 忽那賢志 教授(感染制御学)は、感染とワクチン接種で強い免疫を持つ人が多い国では、マスクを外すなど感染対策を緩和しても感染が広がりにくいとし、「日本は今後も拡大期にはマスクを着けるなど対策にメリハリをつけ、小規模な流行に抑える必要がある」と語る。
引用:国立感染症研究所の脇田隆字所長も「感染対策を安易に緩和すれば、日本では感染が拡大しやすく、死者の増加につながる恐れがある」と訴える。
まあこれからの20年とかを担う若手というか40前後には素晴らしい人が一杯いるのでその辺は問題ない。最近は学生が育ってもAIベンチャーとかにもってかれてるのが厳しい。
これって世界中どこからどこに送っても Microsoft 365 は UTC のタイムスタンプをつけるということかしら?大学関係メイルが全部 UTC できている気が。
だいぶ short notice でさらにまだプログラムでてませんが関心のある皆様どうぞ。
2022年の状況。あんまり変わってない。
DRAM マーケット年間1000億ドル、10兆円か。TSMC の年間売り上げくらい。 NVIDIA 270億ドル。HBM の原価がその何%かは?だけど意外とDRAMマーケット全体に対してそれなりにあるのか。
業界初※1、DRAMを積層した3層構造のスマートフォン向けCMOSイメージセンサーを開発 -- こんなのがあるのか。6mm x 5mm くらいに 1Gbit だからあんまり高密度で はなさそうだけど。
解説記事。Wide-IO くらいかな? 512ビット幅の接続。
しかしロジックとDRAMとセンサーの3層積層はすごい。なんか未来技術である。
そうすると将来に期待できるのは DRAM 3D積層なんだけど、これは NAND みたいに3次元構造でとかは、、、各社開発中なのね。
もちろん定常解見ればわかるんだけど、 R がある程度大きいと、それ以上大きくても定常状態の感染者数はあんまりかわらない。下から4本目がR=2なので、そこから先は4でも10でも100でも要するに免疫きれたらまた感染するというだけになる。
これかいえることはなにかというと、要するに R<2 にしないといけない、ということなんだけど。別の言い方をすると R>2 ならもっと大きくても同じ、つまり対策には意味がほとんどない、ということでもある。
この意味において、「R<2にできないなら」ワクチン以外にはほとんど意味がない、というのは理論的にはいえることになる。もちろん、これは空間的な非一様性がない時の話で、小さいグループでも他との相互作用が小さければ R<2、あるいはR<1 にだってできなくはないし、局所的にはそれを目指すべきであろう。
技術的には、結局 CM-5 のノードアーキテクチャがまさに時代遅れになり つつあったベクトルアーキテクチャをCMOSで実現した高コストなもの (128Mflops の1ノードのメモリバンド幅が400MB/sもあった)だったのが死んでしまった原因だと思う。
キャッシュありのマイクロプロセッサが1チップで 150Mflops とかでるよ うになってきた時代に、決して安くない SuperSparc に独自開発なのに 32Mflops しかでないFPUつけたんでは価格性能比で厳しい。
要するに、大規模 SIMD マシン的な実行モデルを CM-5 になっても古典的ベクトルプロセッサにすることでひきずってしまって、オンチップキャッシュを信じてメモリバンド幅削ったマイクロプロセッサベースのシステムに負けましたと。
じゃあどうすればよかったか、というと、その解が現在のGPUで、レジス タ沢山用意して可能な限りその中ですむようにして B/F 下げるべきだった、 ということになる。
91年出荷だから 0.8um くらいは使えたとすると、200万トランジスタで 64ビットFPU 4 個いれても32KBくらいはレジスタファイルに使えてたはず。
まあ、そういう解に辿りつくのに20年かかったということではある。
でもって、沢山あるレジスタで、というのは BF=1 くらいならよい解なん だけど今の 0.1 しかないGPU では十分じゃなくて、なのでキャッシュで、と なってなかなか電力性能あげるのが困難になっている。
ではこの状況に対する解答は?というと、少なくとも解になりえるのは「演算器の近くのメモリを大きくする」で、演算器近くにアドレッサブルなメモリを沢山おく。
これは要するに GRAPE-DR/MN-Core のアプローチだけど、PEZY SC-x も Sunway もそうなっている。 MT-3000も。
でまあ、次世代になると HBMx とかでは B/F=0.1 もきついので、もっと極端なアーキテクチャにするかなんとかしてDRAMアクセス電力を減らす必要がある。
しかしこんなことを私がいってるようでは中国に負けるというかすでに負けてるわね、、、
SVE 使った演算リッチなコードの性能比較とかはみておきたいというかなんというか。
HTML だけの single part でさらに Invalid read syntax: "invalid multibyte form" で Mew が表示を拒否するのでレフェリーしなくてもいい?
しかもこれおそらく私じゃなくて別の J. Makino の業績みて私のところにレフェリー依頼きてる。
おお、この人だ。
これ、Parallel Computing の論文の所属間違ってたのか。
ポスト富岳FSのスライド全部これ背景にしようかな?冬木大橋の画像じゃありませんみたいな。
ここでは確かに「巻き寿司」で恵方巻という言葉はでてこない。 「節分の夜に、家族そろって、巻き寿司を、一本ずつ、無言で食べると、その 年は無病息災で過ごせるという言い伝え」である。
なにを忘れたかというと、書換えして apache2 の設定ちょっと変えてそれからなんかして、というステージがはいって、なんかして、のあとの最終ステップが忘れられていた。