【PC Watch】 NVIDIA GPUコンピューティング 2010 Winterレポート ファンCEO、産業界でのGPU採用には大きな可能性がある
http://bit.ly/dFm9Oq
【GTC 2010レポート】
Dellが外付け型GPUのベンチマーク結果を紹介〜Super Microは自社のGPUソリューション
http://pc.watch.impress.co.jp/docs/news/event/20100927_396284.html?ref=rss
【GTC 2010レポート】【基調講演編】
スタンフォード大教授兼Google技術者が無人自律走行自動車実現への道を語る
http://pc.watch.impress.co.jp/docs/news/event/20100927_396103.html?ref=rss
http://pc.watch.impress.co.jp/docs/column/ubiq/20100924_395960.html?ref=rss
■笠原一輝のユビキタス情報局■
CUDAの世界を広げる“CUDA Everywhere”構想
〜モビリティデバイスではx86ではなくARMに賭けるNVIDIA
【GTC 2010レポート】【ジェン・スン・フアン氏基調講演】
2011年に「Kepler」2013年には「Maxwell」というGPUを投入
〜MaxwellはTeslaの16倍の電力性能を実現
http://pc.watch.impress.co.jp/docs/news/event/20100922_395692.html
http://pc.watch.impress.co.jp/docs/news/event/20100924_395976.html?ref=rss
会期:9月20日〜23日(現地時間)
【GTC 2010レポート】【技術セッション編】
●GPUベースの高速写真編集ソフト「Musemage」
●GPUを使った高度なRAIDシステム
「k+m RAID」という手法。基本的な考えは、パリティの分散の量、換言するとHDDの同時故障を許容する台数をもっと増やそうというもの。「m」がその台数を表わしているので、RAID 5はk+1、RAID 6はk+2と表わすことになる。
ここでの問題は、パリティを求めるのにリード・ソロモン符号を用いるのだが、この計算処理が非常に重いという点。その計算にGPUを活用しようということになった。同研究所の検証によると、GPUを使うことで、CPUよりも6〜10倍高速で、mの値が増えても性能が落ち込みにくいことが確認できたという。
●「演算写真」を実現するPlenopticレンズ
■後藤弘茂のWeekly海外ニュース■
GPUの進化を支えるファウンドリのプロセス技術に変動が
http://pc.watch.impress.co.jp/docs/column/kaigai/20100802_384513.html?ref=rss
■後藤弘茂のWeekly海外ニュース■
基本アーキテクチャの柔軟さが産んだGeForce GTX 460
http://pc.watch.impress.co.jp/docs/column/kaigai/20100729_383968.html
http://pc.watch.impress.co.jp/docs/column/kaigai/20100716_380986.html
CUDAプログラムは、CUDAコンパイラであるNVCCやランタイムライブラリなどで構成されるCUDAツールキットを用いて、 GPU上で実行されるアセンブリ言語であるPTXへと変換されている
CUDAを取り巻くエコシステムのなかから、 このPTXからCPU上へ実行可能なプログラムへと変換する「Ocelot」や、 CUDAのソースコードをCPU上で実行可能なソースへ翻訳する「MCUDA」、 CUDAのソースをOpenCLのソースへ翻訳する「SWAN」といったツールが出ていることが紹介された。 これらのツールが存在することで、「仮に明日NVIDIAがなくなったとしても CUDAは存在し続ける。ほかのツールも存在し続ける。 他社のGPUでさえCUDAが走り続けられる環境になっている」と述べた。
■後藤弘茂のWeekly海外ニュース■
Fermiバージョン2と言えるGF104の正体
http://pc.watch.impress.co.jp/docs/column/kaigai/20100716_380986.html
NVIDIAはGF104のCUDAコアでは、実装コストをかなり抑えた倍精度浮動小数点演算をサポートを行なった。
まず、GF104 SMの3個のCUDAコアクラスタのうち、2クラスタは完全に単精度演算専用MADとなっている。そのため、この新CUDAコアの浮動小数点演算パイプについては、Fermi以前のNVIDIAアーキテクチャに近いと推測される。つまり、48個のCUDAコアの内、32個はグラフィックス向けの単精度MADだ。
まず、GF104 SMの3個のCUDAコアクラスタのうち、 2クラスタは完全に単精度演算専用MADとなっている。 そのため、この新CUDAコアの浮動小数点演算パイプについては、 Fermi以前のNVIDIAアーキテクチャに近いと推測される。 つまり、48個のCUDAコアの内、32個はグラフィックス向けの単精度MADだ。
また、倍精度演算をサポートする1個のCUDAコアクラスタについても、実装はそれほど重くはないと推測される。GF104の倍精度演算サポートクラスタが、1/4の倍精度/単精度演算スループット比だからだ。つまり、16個のCUDAコアが、単精度の場合の1/4のスループットで倍精度演算を行なう。1個のWARPの実行スループットは8サイクルになる計算だ。
また、倍精度演算をサポートする1個のCUDAコアクラスタについても、 実装はそれほど重くはないと推測される。 GF104の倍精度演算サポートクラスタが、 1/4の倍精度/単精度演算スループット比だからだ。 つまり、16個のCUDAコアが、単精度の場合の1/4のスループットで倍精度演算を行なう。 1個のWARPの実行スループットは8サイクルになる計算だ。
倍精度演算をサポートするCUDAコアクラスタは、単精度の1/4のスループットで倍精度演算を行なう。1/3のCUDAコアクラスタが、1/4のスループットで倍精度演算をサポートするため、SM全体での倍精度と単精度のピーク性能の比率は1:12となっている。つまり、各SM毎に、1サイクルに4個の倍精度浮動小数点演算が可能だ。
倍精度演算をサポートするCUDAコアクラスタは、
単精度の1/4のスループットで倍精度演算を行なう。 1/3のCUDAコアクラスタが、1/4のスループットで倍精度演算をサポートするため、 SM全体での倍精度と単精度のピーク性能の比率は1:12となっている。 つまり、各SM毎に、1サイクルに4個の倍精度浮動小数点演算が可能だ。
■後藤弘茂のWeekly海外ニュース■
GF100を大幅拡張したGeForce GTX 460アーキテクチャ
http://pc.watch.impress.co.jp/docs/column/kaigai/20100712_380148.html?ref=rss
初代Fermi(GF100ダイ)が持つ、HPC(High Performance Computing)に最適化された機能のうち、少数の機能がGF104ダイでは削られるか減らされた。GF104は、GF100ダイの特徴であるメモリに対するECC保護機能を持たない(GeForce GTX 480はダイに実装されているが無効化されている)。
ただし、倍精度浮動小数点演算は、スループットは抑えられたものの、GF104でもサポートされた。
GF104では1:12(約8%)のピーク性能だ。
■後藤弘茂のWeekly海外ニュース■
GPUコンピューティングとグラフィックスに分化する NVIDIA GPU
http://pc.watch.impress.co.jp/docs/column/kaigai/20100707_378869.html
■後藤弘茂のWeekly海外ニュース■
GeForce GTX 460はGT200アーキテクチャのFermi拡張か?
http://pc.watch.impress.co.jp/docs/column/kaigai/20100706_378760.html
"Debunking the 100X GPU vs. CPU Myth: An Evaluation of Throughput Computing on CPU and GPU"
http://www.geocities.jp/andosprocinfo/wadai10/20100626.htm
IntelのCore i7とNVIDIAのGTX280を対象に14種の科学計算プログラムで,GPU,CPUともに最適化されたコードで性能比較を行っています。
発表者の意図は,GPGPUはCPUの100倍も速いと言われているが,実際はそんなに速くないということを明らかにすることなのですが,その結果はGPUの方が平均で2.5倍,最大で14.9倍速いという結論です。
IntelのCore i7とNVIDIAのGTX280を対象に14種の科学計算プログラムで,GPU,CPUともに最適化されたコードで性能比較を行っています。 発表者の意図は,GPGPUはCPUの100倍も速いと言われているが,実際はそんなに速くないということを明らかにすることなのですが,その結果はGPUの方が平均で2.5倍,最大で14.9倍速いという結論です。
Intel のオウンゴールではないかという見方
http://arstechnica.com/business/news/2010/06/intel-scores-own-goal-against-core-i7-in-nvidia-spat.ars
スパコンTOP500、「Jaguar」が首位を維持--中国の「Nebulae」が肉薄
http://japan.cnet.com/news/business/story/0,3800104746,20414377,00.htm
このTOP500ランキングは、ドイツのハンブルクで開催のISC’10カンファレンスで、 現地時間5月31日に発表された。 Nebulaeは、中国の深センにある国立スーパーコンピュータセンターに設置されており、 Intelの「X5650」プロセッサとNVIDIAの「Tesla C2050」GPUを搭載した 「Dawning TC3600 Blade」システム上で動作する。
http://www.gsic.titech.ac.jp/tsubame2
東京工業大学は6月16日、記者会見を開催し、 11月の稼働開始を目指している次期スーパーコンピュータ「TSUBAME2.0」について、 概要を説明した。
東工大、Teslaを利用したスパコン「TSUBAME2.0」を開発
http://pc.watch.impress.co.jp/docs/news/20100617_374718.html
このTesla M2050単体で515GFlopsの性能を持っているが、 1ノードあたりこのGPUを3基搭載し、さらにこれを1,408ノードで結ぶ。 このノードにはそれぞれ汎用CPUとしてIntelのWestmere-EP(2.93GHz、TurboBoost時3.196GHz)を2基搭載しており、 その演算能力とあわせて、2391.35TFLOPS(約2.4PFLOPS)の性能を実現する。
84. Top500, Fermi (2010/5/31)
http://grape.mtk.nao.ac.jp/~makino/articles/future_sc/note085.html#rdocsect90
GF100は倍精度がTeslaの1/4
http://en.wikipedia.org/wiki/GeForce_400_Series#cite_note-14
http://www.hexus.net/content/item.php?item=24000&page=3
5/31
現状のロードマップ (obsolute)
http://www.4gamer.net/games/099/G009929/20100529002/
5/13
NVIDIA、2011年第1四半期は大幅な増収増益
http://pc.watch.impress.co.jp/docs/news/20100514_367014.html