Nvidia Fermi関連ニュース - ドグマを探しに

気になったリンクをいくつか。

NVIDIAが開催したGPU Technology Conferenceで次世代GPUとなる“Fermi”（GT300）が発表・公開されました。　
公開された“Fermi”搭載Teslaボードは6-pin＋8-pinの補助電源コネクタを搭載、カード長は9インチともGeForce GTX 285（10.5インチ）と同程度とも言われています。
“Fermi”の主な特徴・スペックは以下の通り。
40nmプロセスで製造。トランジスタ数は30億。
CUDA Core（StreamProcessorと呼ばれていたコアを名称変更したもの）の数は512
Streaming multi-processor（以下SM）あたりのCUDA Coreの数は32
SM 1個あたりにローカルメモリ/L1キャッシュが合計64kB。うちWritableなL1キャッシュとして16kBまたは48kBが割り当てられる。
全SMのWritable共有L2キャッシュが768kB
メモリインターフェースは384-bit。GDDR5メモリ対応、ECCサポート。
倍精度浮動小数点演算性能は単精度の1/2（従来は1/8）。倍精度浮動小数点演算はCUDA Coreで実行され、2サイクルスループット。
GigaThreadエンジンの改良。

NVIDIAのFermi - interleaveの日記

NVIDIAのGPUは（他のメーカもそうですが）元々ハードで画像表示関係の処理を色々やっていたのですが、だんだんと汎用CPUに近づいてきていて、
倍精度浮動小数点数の高速化
全スレッドで一つのプログラムしか動かせなかったが、複数プログラムを複数スレッドで動かせるようになってる
ECCメモリをサポート
など色々と変わるようです。倍精度については現行のATIのものに大きく負けているようなので、やっと追いつくのかもしれません。
GPGPUは何だかんだで性能出すのが大変、というか全然理論性能に届かないのが普通な気もするので、Fermiでその辺が改善されるといいのですが。

nVidiaのFermiはCellを目指す: CyberGarden

GT210やGT220などよくわからないラインナップで、nVidiaが迷走しているように見えるが、目指すところは明確で、Cellだ。
Fermiの構造の考え方は、CellのSPEとよく似ている。
まあ、並列性を高めたベクタ演算の構造は、みんな似てくるのだが。
AMDのFushion、Cell.B.E、Intelもスカラプロセッサとベクタプロセッサの組み合わせになる。

ベンダースカラプロセッサ(CPU) ベクタプロセッサ(GPU) プログラミングモデル

東芝 P.P.E(PowerPC) S.P.E Cell SDK

AMD K10 RV8x0 OpenCL

Intel Core i Larrabee OpenCL

nVidia ARM Fermi CUDA

そう、nVidiaには、スカラプロセッサとして、ARMがある。
ARM+Fermiで、一丁あがり。

ベンダー	スカラプロセッサ(CPU)	ベクタプロセッサ(GPU)	プログラミングモデル
東芝	P.P.E(PowerPC)	S.P.E	Cell SDK
AMD	K10	RV8x0	OpenCL
Intel	Core i	Larrabee	OpenCL
nVidia	ARM	Fermi	CUDA

(善)力疾走 | NVIDIA，DirectX 11世代の次世代GPU「Fermi」を予告〜30億トランジスタ，512シェーダプロセッサ！

NVIDIA，DirectX 11世代の次世代GPU「Fermi」を予告〜30億トランジスタ，512シェーダプロセッサ！
http://www.4gamer.net/games/099/G009929/20090930012/
　アーキテクチャ上の特徴としては
・ストリーミングプロセッサ(SP)32基をひとかたまりとする
・それを起用する命令デコードユニットは完全デュアル化
・64ビット浮動小数点ユニットの廃止
・しかし、32ビット浮動小数点ユニットで2サイクルで64ビット浮動小数点を計算
・大容量768kBのL2キャッシュ搭載
・L1キャッシュは32基のSPで共有
　あたりが特徴と言えます。
　FERMIではF64ユニットは廃止されていますが、倍増したFP32ユニットで行うことになるので実質的にはFP64パフォーマンスは劇的に向上しています。
　CAE(Computer Aided Engineering)の世界ではFP64がしっかりしていないと価値が半減、もしくは門前払いなので、GPGPU至上主義のスタンスをとる NVIDIAとしては、ここにフォーカスした性能強化をしてきたことには首尾一貫性があります。
　NVIDIAは、より一層のスカラ化を推し進め、AMD(ATI)はGPUを始祖とするVLIW アーキテクチャをより進めた進化を遂げました。
　NVIDIAがスカラにこだわるのは、かつてのGeForce FXで採用していたVLIW アーキテクチャのパフォーマンスで痛い目を見ているからですが、一方、AMDはVLIW アーキテクチャの同時並列性が3Dグラフィックスには最適と信じて熟成を進めているという状況ですね。
　まあ、簡単にまとめると、NVIDIAはGPGPU重視になってきていて、AMDは3Dグラフィックス重視になってきているということでしょうか。
　CPUを持たないNVIDIAとしては次世代コンピューティング市場を切り開く上では理にかなった思想ですし、優れたCPUを持つAMDにとっては3Dグラフィックスをより極めて行きたいという思想なんでしょう。

【レポート】科学技術計算向け演算能力が引き上げられたGPUアーキテクチャ「Fermi」 (1) 科学技術計算用途への本気度を示したNVIDIA | エンタープライズ | マイコミジャーナル

現在のFermiはグラフィックスカードとして、ホストインタフェースはPCI-Expressインタフェースと考えられるが、このスライドによれば、AMDのHyperTransport3(HT3)版のFermiの開発も行われていると考えられる。このHT3直結版では、Opteron側のメインメモリもFermiから直接アクセスすることが出来るようになり、 GPUのグラフィックスメモリとOpteronのメインメモリが単一メモリ空間でアクセスできるようになる。こうなるとメインメモリとGPUの距離はグッと近くなり、プログラミングも容易になるし、性能的にも効果が大きいと思わる。
ということで、従来GPGPUがグラフィックス用のプロセサを科学技術計算用に流用している感じに対して、Fermiは科学技術計算を中心として考えたCUDA用のGPUとしてまじめに作ったという印象である。