つっても、非公開のを別につけているわけではない。
Copyright 1999- Jun Makino
2010/09 2010/08 2010/07 2010/06 2010/05 2010/04 2010/03 2010/02 2010/01当面の予定
--------------------------------------------------------------------------------なるほど。これなら 60% はでるわね。というか、これで 2CPU+1GPU で 60% 以下しかでなかったとしたらそれはちょっと不可解。
CUBLAS GEMM Related
--------------------------------------------------------------------------------
- Increased performance for GEMM kernels for non block multiple input sizes achieved through MAGMA licensed code. See Acknowlegements section towards the end of this release notes document.
The performance of the CUBLAS routine CGEMM has been significantly improved on Fermi architecture for sizes larger than 300x300. Peak performance is reached when 'k' is a multiple of 16 and 'm' and 'n' are multiples of 64.
Performance for ZGEMM has been improved on the Fermi architecture for sizes greater than 256x256. Peak performance is reached when 'k' is a multiple of 8 and 'm' and 'n' are multiples of 32.
The performance of the CUBLAS routine DGEMM has significantly improved for the Tesla products based on the Fermi architecture (C20XX, S20XX, M20XX). The peak performance can be achieved for all transpose variations (NN, NT, TN, TT) when the following conditions are met: 'm' and 'n' dimensions are a multiple of 64, the 'k' dimension is a multiple of 16, ((m+n)*k) > (2*784*784). The performance of the CUBLAS routine SGEMM has also been significantly improved on Fermi architecture. The peak performance can be achieved for all transpose variations (NN, NT, TN, TT) when the following conditions are met: 'm' and 'n' dimensions are a multiple of 96, the 'k' dimension is a multiple of 16, ((m+n)*k) > (2*673*673).
*** /etc/xinetd.conf 2010-10-25 02:15:16.000000000 +0900 --- /etc/xinetd.conf.original 2007-03-15 12:49:07.000000000 +0900 *************** *** 26,27 **** ! cps = 250 10 ! instances = 350 --- 26,27 ---- ! cps = 50 10 ! instances = 50という感じの変更をする。 default でなくて rsh のほうを変更するのが正し い?まあ、最近の計算機速いし。
The International Center for Computational Science (ICCS) is looking for an experienced candidate to successfully contribute to ongoing research project in manycore high-performance computational astrophysics.だそうで。Qualification のところに(全部必須ではないにしても)勝手なこと が書いてある:
TSUBAME2.0 は1ノード=3Fermiなので、より効率を出すのは難しい。それはGPU一般というよりはFermiやCPUチップセットの制限によるものだ。 TSUBAME2.0にとってLinpackは決して得意なベンチではない。でも我々は限界まで絞り出している。 約3時間前 webからつまりは、 T2.0 は 50% いってないあたり、ということかな。Tylersburg 2 つの先に Fermi 3 個しかつけてなくてもそんなところか。まあ、そもそも DGEMM で 60% しかでない代物でどうやって60%以上を軽く出すのかみてみたい という気もしなくもない。まあ、ホスト側に (300Gflops に対して)あと 150 Gflops くらいある構成を想定するわけだから、並列動作させればいけなくもない?合算5PFでかつ1ノード=1Fermiという性能が出しやすい構成なのに、効率は40%強と大変悪い。我々のチームならばそのような構成ならば60%以上は軽く出せるが。。。まあそのあたりは経験の違いだから仕方がないだろう。 約3時間前 webから
以前NUDT(中国防衛大)はAMDの GPUだったが、CPU で1PF, GPU で4PFにアップグレードされた、との話なので、多分古いシステムは(少なくともAMDのGPU)は捨てて、Dual Socket のサーバ8000ノードに8000枚Tesla 2050を装備したのだろう。 約3時間前 webから
正確な数字はわからないが、数字を信じれば効率は無茶苦茶悪いが(TSUBAME2.0は遥かに良い効率が良いし、電力効率も比べ物にならなく良いだろうが)、力技という感じで中国らしくもやはりその数字を達成したのは大事なことだ。 約4時間前 webから
中国 NUDt Tianheの1PF CPU, 4PF GPUのアップグレードがすでに行われてて、HPLで2PFを出したとの発表が。このままだとTop500で中国初一位。
まあ、5870 が公称 188W、4870 が公称 160W だったわけで、 5870x2 だとす れば 600W に収めるのは多分不可能かな。
MOVAPD (L1), xmm 3 1 MOVAPD (L2), xmm 14 1/3 MOVAPD xmm, xmm 1 3 SHUFPD 1 1 ADDPD 3 1 MULPD 5 1ということなんだそうで。
Stratix IVに対応するFPGA開発ツールは「Quartus II」のバージョン8.0。配線アルゴリズムなどの改良でコンパイル速度を高めた。「Stratix IVの最大規模品でも、コンパイル時間は4時間を切る。つまり1日の業務時間中に最低2回はコンパイルを実行できる」(同氏)という。そですか。