2008年04月14日
●5.0GHzに達したPOWER6プロセッサーと水冷クラスター・スパコン Power 575
・先週IBMが発表し、5月上旬(米国)に出荷されるIBM Power SystemsのハイエンドSMPサーバー Power 595には5.0GHzのPOWER6プロセッサーが64コア搭載されます。
・昨年から出荷されている IBM System p 570改めIBM Power 570では、4.7GHzのPOWER6だったので、POWER6のクロックは着実に上がっている印象です。
・POWER6はコア当たり1クロックで4個の浮動小数点演算を行なうので、5GHzの場合の1コアの理論ピーク性能は4 FLO*5GHz =20GFLOPSとなります(FLO:Floating point Operation、FLOPS: Floating point Operations Per Second)。
・64コアのIBM Power 595の場合の理論ピーク性能は、64*20 GFLOPS (1,280 GFLOPS)となります。IBMが発表しているLINPACK HPC性能(April 8, 2008)を見ると1,028 GFLOPSと、1 TFLOPSを超えました。ついに1ラック 1 TFLOPSのSMPサーバーの時代になったわけです。
・1ラック当たりのHPC性能で言えば、「水冷クラスター・スーパーコンピューター」として同時に発表されたIBM Power 575が圧倒的です。これは昨年の11月にSC07で展示されていたシステム(写真)ですが、きちんと約5ヶ月後に製品として発表されたわけです。
・水冷クラスター Power 575に積むPOWER6は4.7GHzのプロセッサーですが、これを2Uのユニットに32コア詰め込んでいます。これだけで理論ピーク性能は 4FLO*4.7GHz*32コアの601.6 GFLOPS、LINPACK HPC性能が466.9 GFLOPSとなりますが、1ラックには14ユニット入るので、1ラックの理論ピーク性能は14*601.6 GFLOPS (8.4 TFLOPS)となります。水冷に回帰したというのは冷却効率からやむを得ないという面もあるでしょうが、HPCでますます無視できなくなってきたグリーン・テクノロジー(省エネ)を促進するという積極的な一面もうかがわれます。
・ちなみにやはり先週おこなわれた日立「SR16000」スーパーコンピューターの発表では、4.7GHzのPOWER6を積む水冷モデル「L2」に加えて、3.5GHzのPOWER6による空冷モデル「L1」を提供するとしています(共に16プロセッサー/ノード(最初16コアと書いたのは誤りでした。私の大ポカで、正しくは16プロセッサー=32コアです。(訂正:4月22日))。これが水冷と空冷の冷却能力の差かもしれません。
・ラック当たりの理論ピーク性能で水冷クラスター Power 575の上となると、13.9 TFLOPS/ラックのIBM Blue Gene/Pになります。72ラックで1 PetaFLOPSの理論ピーク性能というのがBlue Gene/Pです。こちらはゆうゆう空冷です。
・ここでHPCでは忘れてならないベクトル・プロセッサー、たとえば最新のNEC SX-9と比較してみます。SX-9ではベクトルユニットのパイプライン部は3.2GHzで動作し、プロセッサーあたり102.4GFLOPSのピーク性能となっています。POWER6(5GHz)のコア当たり20.0GFLOPSという性能ですらいかにも小さく見えてしまいます。
・しかし、102.4GFLOPSの性能というのはプロセッサー内の8個のベクトルユニットの合計値なので、1ベクトルユニットあたりの性能12.8 GFLOPSというのがアーキテクチャの基本性能(1コアの性能)に相当すると言えなくもありません。そうすると12.8 GFLOPS(SX-9) 対 20.0GFLOPS(595)です。またラック当たりの性能で見ると水冷クラスター Power 575の8.4 TFLOPSに対して、SX-9のシングル・ノード システムは1.6TFLOPSですから、5倍以上の違いになります。
・ベクトル・レジスターとキャシュの性能差、メモリー・バンド幅の差ということがよく言われますが、このようにスカラー・プロセッサー・システムの演算性能の上昇傾向が続きベクトル・プロセッサーというアーキテクチャの優位性はさらに影が薄くなってきた感じです。ベクトル・プロセッサーによる大ヒットが、例えば次世代スーパーコンピューター・プロジェクトで可能かどうかも興味深いところです。
・昨年から出荷されている IBM System p 570改めIBM Power 570では、4.7GHzのPOWER6だったので、POWER6のクロックは着実に上がっている印象です。
・POWER6はコア当たり1クロックで4個の浮動小数点演算を行なうので、5GHzの場合の1コアの理論ピーク性能は4 FLO*5GHz =20GFLOPSとなります(FLO:Floating point Operation、FLOPS: Floating point Operations Per Second)。
・64コアのIBM Power 595の場合の理論ピーク性能は、64*20 GFLOPS (1,280 GFLOPS)となります。IBMが発表しているLINPACK HPC性能(April 8, 2008)を見ると1,028 GFLOPSと、1 TFLOPSを超えました。ついに1ラック 1 TFLOPSのSMPサーバーの時代になったわけです。
・1ラック当たりのHPC性能で言えば、「水冷クラスター・スーパーコンピューター」として同時に発表されたIBM Power 575が圧倒的です。これは昨年の11月にSC07で展示されていたシステム(写真)ですが、きちんと約5ヶ月後に製品として発表されたわけです。・水冷クラスター Power 575に積むPOWER6は4.7GHzのプロセッサーですが、これを2Uのユニットに32コア詰め込んでいます。これだけで理論ピーク性能は 4FLO*4.7GHz*32コアの601.6 GFLOPS、LINPACK HPC性能が466.9 GFLOPSとなりますが、1ラックには14ユニット入るので、1ラックの理論ピーク性能は14*601.6 GFLOPS (8.4 TFLOPS)となります。水冷に回帰したというのは冷却効率からやむを得ないという面もあるでしょうが、HPCでますます無視できなくなってきたグリーン・テクノロジー(省エネ)を促進するという積極的な一面もうかがわれます。
・ちなみにやはり先週おこなわれた日立「SR16000」スーパーコンピューターの発表では、4.7GHzのPOWER6を積む水冷モデル「L2」に加えて、3.5GHzのPOWER6による空冷モデル「L1」を提供するとしています(共に16プロセッサー/ノード(最初16コアと書いたのは誤りでした。私の大ポカで、正しくは16プロセッサー=32コアです。(訂正:4月22日))。これが水冷と空冷の冷却能力の差かもしれません。
・ラック当たりの理論ピーク性能で水冷クラスター Power 575の上となると、13.9 TFLOPS/ラックのIBM Blue Gene/Pになります。72ラックで1 PetaFLOPSの理論ピーク性能というのがBlue Gene/Pです。こちらはゆうゆう空冷です。
・ここでHPCでは忘れてならないベクトル・プロセッサー、たとえば最新のNEC SX-9と比較してみます。SX-9ではベクトルユニットのパイプライン部は3.2GHzで動作し、プロセッサーあたり102.4GFLOPSのピーク性能となっています。POWER6(5GHz)のコア当たり20.0GFLOPSという性能ですらいかにも小さく見えてしまいます。
・しかし、102.4GFLOPSの性能というのはプロセッサー内の8個のベクトルユニットの合計値なので、1ベクトルユニットあたりの性能12.8 GFLOPSというのがアーキテクチャの基本性能(1コアの性能)に相当すると言えなくもありません。そうすると12.8 GFLOPS(SX-9) 対 20.0GFLOPS(595)です。またラック当たりの性能で見ると水冷クラスター Power 575の8.4 TFLOPSに対して、SX-9のシングル・ノード システムは1.6TFLOPSですから、5倍以上の違いになります。
・ベクトル・レジスターとキャシュの性能差、メモリー・バンド幅の差ということがよく言われますが、このようにスカラー・プロセッサー・システムの演算性能の上昇傾向が続きベクトル・プロセッサーというアーキテクチャの優位性はさらに影が薄くなってきた感じです。ベクトル・プロセッサーによる大ヒットが、例えば次世代スーパーコンピューター・プロジェクトで可能かどうかも興味深いところです。

