GRAPE-DR 上の LINPACK

牧野淳一郎教授のコラムで、LINPACKと効率についての考察があったので、引用させていただく。
73. GRAPE-DR 上の LINPACK (2009/11/17 追加)

一応、 11/16 現在で、メモリ 16GB まで使って 410Gflops で、効率 50% 以上 になりました。この速度だとチップ1つ当りで SX-9, ATI Radion 4870 での実 測のどちらも上回り、世界最高性能を実現しています。GPU の数字は 2009/11 Top 500 での中国の天河の数字は 5120 GPU + 5120 Xeon で 563 Gflops、 Xeon+GPU 1 セットあたり 110 Gflops ですが、Xeon でも計算しているので GPU の部分は70-80Gflops 程度と思われます。
この、効率50% 前後、という数字をみて低いとか失敗だとかいいたい人がいる のは想像できますが、私の立場は元々、演算器は現在の普通の計算機ではもっ とも高価な部分ではないので、そこだけの効率を云々するのはあまり意味がな い、というものであることはこの文章の前のほうも読んだことがある人なら理 解していただけるかと思います。 GRAPE-DR で対象にするアプリケーションの 中では、LINPACK はもっともネットワークバンド幅や主記憶バンド幅を要求す るものです。このため、LINPACK で演算器のピーク性能が出るようにシステムを構成す ることは、他の多くのアプリケーションでは不必要な程度までネットワーク・主 記憶バンド幅・主記憶サイズといったものに資源を投入し、その結果システム としての消費電力も大きなものになることを意味し、あまり賢明な選択ではあ りません。

63. GRAPE-DR の現状 (2008/7/18)

たかが 512台のホスト計算機にもそれほどお金 を掛ける余裕がない辺りが苦しいところで、これはどうしても例えば LINPACK の実測効率を下げるほうに働きます。ホストのメモリの量、主記憶速度が直接 性能に影響するので、、、マルチノードでの LINPACK では、 GRAPE-DR カード 1枚当り大体 5GB/s の実効転送速度を必要とするので、2枚挿すと実効速度が名 目速度の6割としても15GB/s の名目速度が必要になり、 DDR2-800 2チャネルで は不足で 950MHz 以上で動作して欲しい、という話になります。逆に、 12.8GB/s だとそこだけで効率が 80% を超えることが困難だとわかるわけです。