ニュース
2008年07月02日
●NCARのPower575水冷スーパーコンピューター設置の写真
・HPCではRoadrunnerなどの影に隠れた感のIBM POWER6搭載のPower 575水冷スーパーコンピューターですが、第一号機が4月24日、米国National Center for Atmospheric Research (NCAR)に搬入されています。
・Bluefireと名付けられている76TFLOPSのピーク性能を持ったTop500 30位のIBM Power 575システムは4.7GHzのPOWER6プロセッサー・コア32個を1ノードとし、全体で127ノード(4,096プロセッサー・コア)、12TBのメモリー、InfiniBand switchによるノード間相互接続、150TBのIBMディスク・ストレージといった内容です。
・月並みな言い方ですが歴史は繰り返す―Power575の特徴は、大型の冷却水タンクを使った循環式の水冷システムにしたことです。設置をしているときの写真がNCARのサイトに掲載されています。クリックすると拡大したきれいな写真を見ることができます。
プロセッサーを高密度実装できるというだけでなく、熱効率や電力コストを考えると水冷の選択肢は自然な解答に見えてきます。もともと大型コンピューターの冷却はCMOSプロセッサーが普及するまでは水冷で行ってきたという歴史があるので、当然の流れと考える人も多いのでは。
・Bluefireと名付けられている76TFLOPSのピーク性能を持ったTop500 30位のIBM Power 575システムは4.7GHzのPOWER6プロセッサー・コア32個を1ノードとし、全体で127ノード(4,096プロセッサー・コア)、12TBのメモリー、InfiniBand switchによるノード間相互接続、150TBのIBMディスク・ストレージといった内容です。
・月並みな言い方ですが歴史は繰り返す―Power575の特徴は、大型の冷却水タンクを使った循環式の水冷システムにしたことです。設置をしているときの写真がNCARのサイトに掲載されています。クリックすると拡大したきれいな写真を見ることができます。
プロセッサーを高密度実装できるというだけでなく、熱効率や電力コストを考えると水冷の選択肢は自然な解答に見えてきます。もともと大型コンピューターの冷却はCMOSプロセッサーが普及するまでは水冷で行ってきたという歴史があるので、当然の流れと考える人も多いのでは。
2008年06月30日
●マイクロソフトHPCラボがIBM iDataPlexの最初のユーザー
・IBMのiDataPlexシステムの最初の導入先のひとつがマイクロソフト社のHPCラボという発表をIBMがしています。
・マイクロソフト社はWindows HPC Server 2008のインターナル・ベンチマーク・テストにこのiDataPlexシステムを使用するそうです。
・iDataPlexシステムについてはまだ詳細は知られていないものの、クラウドコンピューティング環境に適した省スペース、省電力−いわゆるグリーン・データセンターを実現するためのサーバー・システムで、プレスによれば、315平方フィート(30平方メートル弱)でTop500の10位クラスに相当する145TFLOPSのシステムを設置できるものです。
・今回は3GHzのQuad-core XeonのiDataPlex DX360 HPCサーバーの発表とVersatile SMP(vSMP)で知られているシリコンバレーのベンチャーScaleMP社のiDataPlexのサポート表明が目新しいところです。
・IBM iDataPlexシステムはHPC向けグリーン・データセンター実現のためというひとつの方向も徐々に見えてきたので、来年のTop500にはIBM iDataPlexシステムも目につくようになっているかも知れません。
七夕から始まる洞爺湖サミットも環境=エネルギー問題がメインテーマのひとつ。そのわりには日本全体で具体策を議論しているようにはいっこうに見えませんが、それでも市内を走ってるとプリウスがものすごく目立つようになりました。
・マイクロソフト社はWindows HPC Server 2008のインターナル・ベンチマーク・テストにこのiDataPlexシステムを使用するそうです。
・iDataPlexシステムについてはまだ詳細は知られていないものの、クラウドコンピューティング環境に適した省スペース、省電力−いわゆるグリーン・データセンターを実現するためのサーバー・システムで、プレスによれば、315平方フィート(30平方メートル弱)でTop500の10位クラスに相当する145TFLOPSのシステムを設置できるものです。
・今回は3GHzのQuad-core XeonのiDataPlex DX360 HPCサーバーの発表とVersatile SMP(vSMP)で知られているシリコンバレーのベンチャーScaleMP社のiDataPlexのサポート表明が目新しいところです。
・IBM iDataPlexシステムはHPC向けグリーン・データセンター実現のためというひとつの方向も徐々に見えてきたので、来年のTop500にはIBM iDataPlexシステムも目につくようになっているかも知れません。
七夕から始まる洞爺湖サミットも環境=エネルギー問題がメインテーマのひとつ。そのわりには日本全体で具体策を議論しているようにはいっこうに見えませんが、それでも市内を走ってるとプリウスがものすごく目立つようになりました。
2008年06月10日
●意外に早かった1ペタFLOPS越え
・さる先生から昨夜9時過ぎに届いた「ペタフロップス達成, おめでとうございます。」のメールから始まって、今日の日本IBM本社で開催されたCellソリューション・セミナーのIBM講師からの1ペタフロップス達成のニュース紹介、さらにはいろいろなWeb日本語ニュースなどでも紹介され、1ペタフロップス達成のニュースが、来週ドレスデンで開催されるISC'08でのTop500の恒例発表を待たずにかけめぐった一日でした。それだけHPC関係者にとって歴史的な記録達成だったわけです。
・IBMのプレス・リリースは1ペタフロップス達成を強調しないクールにまとめた内容でしたが、Los Alamos National Laboratoryは、LLNLのBlue Gene/Lに勝ったという世界最速宣言 "Roadrunner supercomputer fastest in world" を早々としていました。
・米国エネルギー省(DOE)のプレスリリース "U.S. Department of Energy’s New Supercomputer is Fastest in the World" を見ると "new Roadrunner supercomputer is the first to achieve a petaflop of sustained performance." とあり、LINPACKベンチマークで1 PFLOPSを越えたらしいということがわかります。
・ニュースソースが違うのかNew York Timesの記事にはなぜか "more than 1.026 quadrillion calculations per second." とDOEの発表にはなかった性能値が出ていました。
・いろいろ書きましたが、結論はと言うとメルマガのISC'08 Newsletter: special issue on RR@ISCの記事で、これによると5月末にRoadrunnerシステムがTop500にLINPACKベンチマークのピーク性能値1.026 petaflop/sをポストしたとあり、どうやら2008年6月版のTOP500の締切に間に合って、Top500の1位はRoadrunnerに約束されたように見えます。
・1GFLOPSを達成したのが22年前(1986)のCRAY2、その1,000倍の1TFLOPSを達成したのがそれから11年後のASCI Redだそうで、今年2008年にその1,000倍の1PFLOPSをRoadrunnerが達成したわけです。この延長線で2019年にさらに1,000倍の1ExaFLOPS達成となるかというと、ちょっと想像しにくいところです。
案外、当分の間は日本の次世代スーパーコンピューター・プロジェクトが目標にしている10PFLOPS台が飽和点になるのかもしれません。
となると車の両輪の片側になる、数値計算の高速アルゴリズムの研究開発がいっそう重要になってきます。
それにしてもRoadrunnerの1PFLOPS達成は意外に早かったな〜という印象です。
・IBMのプレス・リリースは1ペタフロップス達成を強調しないクールにまとめた内容でしたが、Los Alamos National Laboratoryは、LLNLのBlue Gene/Lに勝ったという世界最速宣言 "Roadrunner supercomputer fastest in world" を早々としていました。
・米国エネルギー省(DOE)のプレスリリース "U.S. Department of Energy’s New Supercomputer is Fastest in the World" を見ると "new Roadrunner supercomputer is the first to achieve a petaflop of sustained performance." とあり、LINPACKベンチマークで1 PFLOPSを越えたらしいということがわかります。
・ニュースソースが違うのかNew York Timesの記事にはなぜか "more than 1.026 quadrillion calculations per second." とDOEの発表にはなかった性能値が出ていました。
・いろいろ書きましたが、結論はと言うとメルマガのISC'08 Newsletter: special issue on RR@ISCの記事で、これによると5月末にRoadrunnerシステムがTop500にLINPACKベンチマークのピーク性能値1.026 petaflop/sをポストしたとあり、どうやら2008年6月版のTOP500の締切に間に合って、Top500の1位はRoadrunnerに約束されたように見えます。
・1GFLOPSを達成したのが22年前(1986)のCRAY2、その1,000倍の1TFLOPSを達成したのがそれから11年後のASCI Redだそうで、今年2008年にその1,000倍の1PFLOPSをRoadrunnerが達成したわけです。この延長線で2019年にさらに1,000倍の1ExaFLOPS達成となるかというと、ちょっと想像しにくいところです。
案外、当分の間は日本の次世代スーパーコンピューター・プロジェクトが目標にしている10PFLOPS台が飽和点になるのかもしれません。
となると車の両輪の片側になる、数値計算の高速アルゴリズムの研究開発がいっそう重要になってきます。
それにしてもRoadrunnerの1PFLOPS達成は意外に早かったな〜という印象です。
2008年05月18日
●1ペタFLOPSを超えるか-Roadrunnerのテストが間近
・理論ピーク性能1.3ペタFLOPSのRoadrunnerスーパーコンピューターが、IBMのポケプシー工場で組み立てをほぼ終わり、今月末からテストが始まるということが、先週IDGはじめいろいろなところから報道されています。
・いよいよ関心は、6月17日から始まるISC'08のTop500の発表で、ロスアラモス国立研究所(LANL)のRoadrunnerが、首位をキープし続けている宿敵(?)リバモア国立研究所(LLNL)のBlue Gene/Lを抜き去れるか、さらにはベンチマーク性能の歴史的なマイルストーンになる1ペタFLOPSに到達できるかどうかということになってきました。
・昨年のSC07のLANLのプレゼンテーションでは確か、今年8月には1ペタFLOPSを達成できると自信を持って話していたのでそのとおりに着実にコマを進めてきたと言えます。
・いまの時点で1ペタFLOPSのピーク性能を実現するためには、およそ次の3つの方法があって、それは
1. Opteron 13万プロセッサー・コアからなるシステム
2. IBM Blue Gene/Pで32万プロセッサー・コアのシステム
3. IBMのCellプロセッサーのSPE 8万個で加速するRoadrunnerのハイブリッド・システム、
ということですが、最後の3の方法が最初に1ペタFLOPSを達成する可能性が一段と高くなってきたようです。
・Roadrunnerに使用されているeDPと呼ばれていた新プロセッサーが先週IBMから発表されました。正式名称はIBM PowerXCell 8i、これはPowerPC* 8 SPEからきたネーミングなのでしょうか。
PowerXCell 8iを2個搭載したIBM QS22 ブレード・サーバーも同時に発表されました。
・IBMの発表によれば、倍精度浮動小数点演算がPowerXCell 8iでは以前のCell/B.E.の5倍も速くなり、QS22ブレード・サーバーのメモリーも最大32GBと大幅増となっています。
・QS22ブレード・サーバーがどのくらい速いかというと、ピーク性能で、
- QS22あたり 460GFLOPS(単精度)/217 GFLOPS (倍精度)
- BladeCenterシャシーあたり 6.4/3.0 TFLOPS (単精度/倍精度)
- 42Uラックあたり 25.8/12.18 TFLOPS (単精度/倍精度)
と、1ラックの性能でBlue Gene/Pの13.9 TFLOPSに迫る倍精度演算能力を持つことがわかります。これでいままで弱点と言われていた倍精度演算が主となるHPC用途についてもCell B.E.アーキテクチャの強さを利用できることになりました。
・ハイブリッド型クラスター・システムを使いこなすプログラミング等についての腕力がありさえすれば、今やだれでも小型のRoadrunnerを構築・活用できる条件ができたことになります。使いやすく安定した高性能システムと言われているBlue Geneに加え、ハイブリッドのRoadrunnerタイプと、スーパーコンピューターの選択肢がさらに増えたわけです。
どこを切っても同じ金太郎飴というのが昔ありましたが、すぐ飽きてしまった記憶があります。LLNLのBG/LやLANLのRRの動きを見ていると、金太郎飴とは対極の、他と積極的に違いを創り何が何でも成功させて優位さを示そうとする研究者・開発者達の勢いと執念というのをひしひし感じますね。
・いよいよ関心は、6月17日から始まるISC'08のTop500の発表で、ロスアラモス国立研究所(LANL)のRoadrunnerが、首位をキープし続けている宿敵(?)リバモア国立研究所(LLNL)のBlue Gene/Lを抜き去れるか、さらにはベンチマーク性能の歴史的なマイルストーンになる1ペタFLOPSに到達できるかどうかということになってきました。
・昨年のSC07のLANLのプレゼンテーションでは確か、今年8月には1ペタFLOPSを達成できると自信を持って話していたのでそのとおりに着実にコマを進めてきたと言えます。
・いまの時点で1ペタFLOPSのピーク性能を実現するためには、およそ次の3つの方法があって、それは
1. Opteron 13万プロセッサー・コアからなるシステム
2. IBM Blue Gene/Pで32万プロセッサー・コアのシステム
3. IBMのCellプロセッサーのSPE 8万個で加速するRoadrunnerのハイブリッド・システム、
ということですが、最後の3の方法が最初に1ペタFLOPSを達成する可能性が一段と高くなってきたようです。
・Roadrunnerに使用されているeDPと呼ばれていた新プロセッサーが先週IBMから発表されました。正式名称はIBM PowerXCell 8i、これはPowerPC* 8 SPEからきたネーミングなのでしょうか。
PowerXCell 8iを2個搭載したIBM QS22 ブレード・サーバーも同時に発表されました。
・IBMの発表によれば、倍精度浮動小数点演算がPowerXCell 8iでは以前のCell/B.E.の5倍も速くなり、QS22ブレード・サーバーのメモリーも最大32GBと大幅増となっています。
・QS22ブレード・サーバーがどのくらい速いかというと、ピーク性能で、
- QS22あたり 460GFLOPS(単精度)/217 GFLOPS (倍精度)
- BladeCenterシャシーあたり 6.4/3.0 TFLOPS (単精度/倍精度)
- 42Uラックあたり 25.8/12.18 TFLOPS (単精度/倍精度)
と、1ラックの性能でBlue Gene/Pの13.9 TFLOPSに迫る倍精度演算能力を持つことがわかります。これでいままで弱点と言われていた倍精度演算が主となるHPC用途についてもCell B.E.アーキテクチャの強さを利用できることになりました。
・ハイブリッド型クラスター・システムを使いこなすプログラミング等についての腕力がありさえすれば、今やだれでも小型のRoadrunnerを構築・活用できる条件ができたことになります。使いやすく安定した高性能システムと言われているBlue Geneに加え、ハイブリッドのRoadrunnerタイプと、スーパーコンピューターの選択肢がさらに増えたわけです。
どこを切っても同じ金太郎飴というのが昔ありましたが、すぐ飽きてしまった記憶があります。LLNLのBG/LやLANLのRRの動きを見ていると、金太郎飴とは対極の、他と積極的に違いを創り何が何でも成功させて優位さを示そうとする研究者・開発者達の勢いと執念というのをひしひし感じますね。
2008年04月14日
●5.0GHzに達したPOWER6プロセッサーと水冷クラスター・スパコン Power 575
・先週IBMが発表し、5月上旬(米国)に出荷されるIBM Power SystemsのハイエンドSMPサーバー Power 595には5.0GHzのPOWER6プロセッサーが64コア搭載されます。
・昨年から出荷されている IBM System p 570改めIBM Power 570では、4.7GHzのPOWER6だったので、POWER6のクロックは着実に上がっている印象です。
・POWER6はコア当たり1クロックで4個の浮動小数点演算を行なうので、5GHzの場合の1コアの理論ピーク性能は4 FLO*5GHz =20GFLOPSとなります(FLO:Floating point Operation、FLOPS: Floating point Operations Per Second)。
・64コアのIBM Power 595の場合の理論ピーク性能は、64*20 GFLOPS (1,280 GFLOPS)となります。IBMが発表しているLINPACK HPC性能(April 8, 2008)を見ると1,028 GFLOPSと、1 TFLOPSを超えました。ついに1ラック 1 TFLOPSのSMPサーバーの時代になったわけです。
・1ラック当たりのHPC性能で言えば、「水冷クラスター・スーパーコンピューター」として同時に発表されたIBM Power 575が圧倒的です。これは昨年の11月にSC07で展示されていたシステム(写真)ですが、きちんと約5ヶ月後に製品として発表されたわけです。
・水冷クラスター Power 575に積むPOWER6は4.7GHzのプロセッサーですが、これを2Uのユニットに32コア詰め込んでいます。これだけで理論ピーク性能は 4FLO*4.7GHz*32コアの601.6 GFLOPS、LINPACK HPC性能が466.9 GFLOPSとなりますが、1ラックには14ユニット入るので、1ラックの理論ピーク性能は14*601.6 GFLOPS (8.4 TFLOPS)となります。水冷に回帰したというのは冷却効率からやむを得ないという面もあるでしょうが、HPCでますます無視できなくなってきたグリーン・テクノロジー(省エネ)を促進するという積極的な一面もうかがわれます。
・ちなみにやはり先週おこなわれた日立「SR16000」スーパーコンピューターの発表では、4.7GHzのPOWER6を積む水冷モデル「L2」に加えて、3.5GHzのPOWER6による空冷モデル「L1」を提供するとしています(共に16プロセッサー/ノード(最初16コアと書いたのは誤りでした。私の大ポカで、正しくは16プロセッサー=32コアです。(訂正:4月22日))。これが水冷と空冷の冷却能力の差かもしれません。
・ラック当たりの理論ピーク性能で水冷クラスター Power 575の上となると、13.9 TFLOPS/ラックのIBM Blue Gene/Pになります。72ラックで1 PetaFLOPSの理論ピーク性能というのがBlue Gene/Pです。こちらはゆうゆう空冷です。
・ここでHPCでは忘れてならないベクトル・プロセッサー、たとえば最新のNEC SX-9と比較してみます。SX-9ではベクトルユニットのパイプライン部は3.2GHzで動作し、プロセッサーあたり102.4GFLOPSのピーク性能となっています。POWER6(5GHz)のコア当たり20.0GFLOPSという性能ですらいかにも小さく見えてしまいます。
・しかし、102.4GFLOPSの性能というのはプロセッサー内の8個のベクトルユニットの合計値なので、1ベクトルユニットあたりの性能12.8 GFLOPSというのがアーキテクチャの基本性能(1コアの性能)に相当すると言えなくもありません。そうすると12.8 GFLOPS(SX-9) 対 20.0GFLOPS(595)です。またラック当たりの性能で見ると水冷クラスター Power 575の8.4 TFLOPSに対して、SX-9のシングル・ノード システムは1.6TFLOPSですから、5倍以上の違いになります。
・ベクトル・レジスターとキャシュの性能差、メモリー・バンド幅の差ということがよく言われますが、このようにスカラー・プロセッサー・システムの演算性能の上昇傾向が続きベクトル・プロセッサーというアーキテクチャの優位性はさらに影が薄くなってきた感じです。ベクトル・プロセッサーによる大ヒットが、例えば次世代スーパーコンピューター・プロジェクトで可能かどうかも興味深いところです。
・昨年から出荷されている IBM System p 570改めIBM Power 570では、4.7GHzのPOWER6だったので、POWER6のクロックは着実に上がっている印象です。
・POWER6はコア当たり1クロックで4個の浮動小数点演算を行なうので、5GHzの場合の1コアの理論ピーク性能は4 FLO*5GHz =20GFLOPSとなります(FLO:Floating point Operation、FLOPS: Floating point Operations Per Second)。
・64コアのIBM Power 595の場合の理論ピーク性能は、64*20 GFLOPS (1,280 GFLOPS)となります。IBMが発表しているLINPACK HPC性能(April 8, 2008)を見ると1,028 GFLOPSと、1 TFLOPSを超えました。ついに1ラック 1 TFLOPSのSMPサーバーの時代になったわけです。
・1ラック当たりのHPC性能で言えば、「水冷クラスター・スーパーコンピューター」として同時に発表されたIBM Power 575が圧倒的です。これは昨年の11月にSC07で展示されていたシステム(写真)ですが、きちんと約5ヶ月後に製品として発表されたわけです。・水冷クラスター Power 575に積むPOWER6は4.7GHzのプロセッサーですが、これを2Uのユニットに32コア詰め込んでいます。これだけで理論ピーク性能は 4FLO*4.7GHz*32コアの601.6 GFLOPS、LINPACK HPC性能が466.9 GFLOPSとなりますが、1ラックには14ユニット入るので、1ラックの理論ピーク性能は14*601.6 GFLOPS (8.4 TFLOPS)となります。水冷に回帰したというのは冷却効率からやむを得ないという面もあるでしょうが、HPCでますます無視できなくなってきたグリーン・テクノロジー(省エネ)を促進するという積極的な一面もうかがわれます。
・ちなみにやはり先週おこなわれた日立「SR16000」スーパーコンピューターの発表では、4.7GHzのPOWER6を積む水冷モデル「L2」に加えて、3.5GHzのPOWER6による空冷モデル「L1」を提供するとしています(共に16プロセッサー/ノード(最初16コアと書いたのは誤りでした。私の大ポカで、正しくは16プロセッサー=32コアです。(訂正:4月22日))。これが水冷と空冷の冷却能力の差かもしれません。
・ラック当たりの理論ピーク性能で水冷クラスター Power 575の上となると、13.9 TFLOPS/ラックのIBM Blue Gene/Pになります。72ラックで1 PetaFLOPSの理論ピーク性能というのがBlue Gene/Pです。こちらはゆうゆう空冷です。
・ここでHPCでは忘れてならないベクトル・プロセッサー、たとえば最新のNEC SX-9と比較してみます。SX-9ではベクトルユニットのパイプライン部は3.2GHzで動作し、プロセッサーあたり102.4GFLOPSのピーク性能となっています。POWER6(5GHz)のコア当たり20.0GFLOPSという性能ですらいかにも小さく見えてしまいます。
・しかし、102.4GFLOPSの性能というのはプロセッサー内の8個のベクトルユニットの合計値なので、1ベクトルユニットあたりの性能12.8 GFLOPSというのがアーキテクチャの基本性能(1コアの性能)に相当すると言えなくもありません。そうすると12.8 GFLOPS(SX-9) 対 20.0GFLOPS(595)です。またラック当たりの性能で見ると水冷クラスター Power 575の8.4 TFLOPSに対して、SX-9のシングル・ノード システムは1.6TFLOPSですから、5倍以上の違いになります。
・ベクトル・レジスターとキャシュの性能差、メモリー・バンド幅の差ということがよく言われますが、このようにスカラー・プロセッサー・システムの演算性能の上昇傾向が続きベクトル・プロセッサーというアーキテクチャの優位性はさらに影が薄くなってきた感じです。ベクトル・プロセッサーによる大ヒットが、例えば次世代スーパーコンピューター・プロジェクトで可能かどうかも興味深いところです。
2008年02月24日
● TACCのRangerがフル稼働、NSFに納入
・稼働が当初の予定よりも遅れていたテキサス大学オースティン校Texas Advanced Computing Center (TACC)のRangerシステムが2月4日にフル稼働に入り、2月22日(金)にNSFに納入されるとTACCが2月22日(金)に発表しています。
・理論ピーク性能は当初の仕様どうりの504 TFLOPSです。最新のTop500スーパーコンピューター・リストのピーク性能だけから言えば、LLNLのBlue Gene/Lに次ぐ2位に該当しますが、internetnews.comの記事がPlayStation3ユーザーが集まって作られているFolding@Homeをいれたとすれば第3位と面白い表現をしています。
・記事では約15,000 CPU(正確には62,976 コア)を1タスクが占有するというよりは、ユーザーがプログラムを書き換えてより高い性能を引き出せるようになるまでは高々1,000 CPU程度を使うタスクが複数個走ることになると、当たり前とはいえ、書き換えをするというペタスケールへ向けての着実なスタンスが見受けられます。
・このシステム開発と4年間の運用コストについては$59M (約64億円)のNSFのアワード(NSF Track2 HPC)でまかなわれ、NSFのTeraGridの最大ノードになります。
・そのためか、90%のマシンタイムはTeraGridのユーザーによって使用され、TACCは10%のみです。TACCの分が少なさそうに見えますが、先のinternetnews.comの記事ではRangerを使用するためのウェイティング・リストは3ヶ月になるだろうと言っているので、むしろ好条件なのでしょう。
・理論ピーク性能は当初の仕様どうりの504 TFLOPSです。最新のTop500スーパーコンピューター・リストのピーク性能だけから言えば、LLNLのBlue Gene/Lに次ぐ2位に該当しますが、internetnews.comの記事がPlayStation3ユーザーが集まって作られているFolding@Homeをいれたとすれば第3位と面白い表現をしています。
・記事では約15,000 CPU(正確には62,976 コア)を1タスクが占有するというよりは、ユーザーがプログラムを書き換えてより高い性能を引き出せるようになるまでは高々1,000 CPU程度を使うタスクが複数個走ることになると、当たり前とはいえ、書き換えをするというペタスケールへ向けての着実なスタンスが見受けられます。
・このシステム開発と4年間の運用コストについては$59M (約64億円)のNSFのアワード(NSF Track2 HPC)でまかなわれ、NSFのTeraGridの最大ノードになります。
・そのためか、90%のマシンタイムはTeraGridのユーザーによって使用され、TACCは10%のみです。TACCの分が少なさそうに見えますが、先のinternetnews.comの記事ではRangerを使用するためのウェイティング・リストは3ヶ月になるだろうと言っているので、むしろ好条件なのでしょう。
2008年02月03日
● 4.2GHzのPOWER6搭載エントリーUNIXサ―バー登場
IBMは昨年
・4.7GHz POWER6搭載の中型UNIXサーバー IBM System p 570 (最大16プロセッサー・コア)、そして
・4.0GHz POWER6搭載のブレード・サーバー IBM BladeCenter JS22 (4プロセッサー・コア) を発表しています。
それに続いて先週、
・4.2GHz POWER6搭載エントリーUNIXサ―バー IBM System p520 (最大4プロセッサー・コア)とp550 (最大8プロセッサー・コア)を発表しました。
・IBM System pのベンチマーク・データも更新されていました。IBMのWebサイトには類似のベンチマーク性能情報があちこちにあるものの、目当てのものになかなかたどりつけないきらいがあるのですが、ここのpdfにはp520とp550のSPEC2006とLINPACK HPCの性能が黄色でマーキングされて載っています。
・日立製作所も同じ日に、POWER6プロセッサーを搭載したエントリーモデル「EP8000 550」、「EP8000 520」を新たにラインアップに追加という発表をしています。
・そういえば、T2K仕様で日立製作所が東京大学に納入する1万5232プロセッサー・コア構成のLinuxクラスター・システムについて開発責任者 深川部長のたいへん興味深いインタビュー記事がITproに載っています。予想どうりとはいえ、熱設計、信頼性確保、3,800個を越えるクアッドコアOpteronプロセッサーの調達の三点が難関だったそうです。
このようすだと1月にフル・プロダクションを予定していた、AMDの先客でもあるテキサス Rangerも15,744個のクアッドコアOpteronプロセッサーを調達できたことでしょう。
予定通りに進捗が進んでいればそろそろTACCから何かRangerについての発表があってもよいころですが。
・4.7GHz POWER6搭載の中型UNIXサーバー IBM System p 570 (最大16プロセッサー・コア)、そして
・4.0GHz POWER6搭載のブレード・サーバー IBM BladeCenter JS22 (4プロセッサー・コア) を発表しています。
それに続いて先週、
・4.2GHz POWER6搭載エントリーUNIXサ―バー IBM System p520 (最大4プロセッサー・コア)とp550 (最大8プロセッサー・コア)を発表しました。
・IBM System pのベンチマーク・データも更新されていました。IBMのWebサイトには類似のベンチマーク性能情報があちこちにあるものの、目当てのものになかなかたどりつけないきらいがあるのですが、ここのpdfにはp520とp550のSPEC2006とLINPACK HPCの性能が黄色でマーキングされて載っています。
・日立製作所も同じ日に、POWER6プロセッサーを搭載したエントリーモデル「EP8000 550」、「EP8000 520」を新たにラインアップに追加という発表をしています。
・そういえば、T2K仕様で日立製作所が東京大学に納入する1万5232プロセッサー・コア構成のLinuxクラスター・システムについて開発責任者 深川部長のたいへん興味深いインタビュー記事がITproに載っています。予想どうりとはいえ、熱設計、信頼性確保、3,800個を越えるクアッドコアOpteronプロセッサーの調達の三点が難関だったそうです。
このようすだと1月にフル・プロダクションを予定していた、AMDの先客でもあるテキサス Rangerも15,744個のクアッドコアOpteronプロセッサーを調達できたことでしょう。
予定通りに進捗が進んでいればそろそろTACCから何かRangerについての発表があってもよいころですが。
2008年01月29日
●赤の広場にBlue Gene/Pがやってくる
・モスクワ大学にIBM Blue Gene/Pが決まり、4月に入るそうです。応用分野はナノテクノロジー、材料科学そしてライフサイエンスといわば定番といったところです。
・IBMのプレスリリース 「Blue Gene coming to Red Square」に出ていました。
・システムは2ラック(8,192プロセッサー)という小さな構成ですが性能は27.8TFLOPSとTop500リストの50位以内に入る性能で、こんなものを米国政府がロシアに輸出を認めるということは一昔前には考えられなかったことでした。
・IBMのプレスリリース 「Blue Gene coming to Red Square」に出ていました。
・システムは2ラック(8,192プロセッサー)という小さな構成ですが性能は27.8TFLOPSとTop500リストの50位以内に入る性能で、こんなものを米国政府がロシアに輸出を認めるということは一昔前には考えられなかったことでした。
2008年01月26日
●IBM、Intel、CiscoがHPCセンターをオープン
IBM、Intel、 CiscoがフランスのモンペリエにあるIBMのHPC施設を拡大する形でヨーロッパにHPCセンターをオープンしました。
IBMのプレスリリースによると、このHPCセンターではIBMのx86系サーバー System x と BladeCenterをベースに、Cisco社がInfiniBand と Ethernetテクノロジーを担当、Intel社がマルチコア・プロセッサーとHPCアプリケーション・スキルを担当して、総合的なテストベッドを提供するそうです。
コンピューター・メーカー製の大型スーパーコンピューター、例えばIBM System pサーバーの大規模クラスター・システムであれば、サーバー、インターコネクト・スイッチからOSまで全てメーカーであるIBMが把握し、検証もできているわけです。
しかしx86ベースのLinuxクラスターでは、別々の企業なり開発グループがしのぎを削って開発した製品の中からハードウェア、ソフトウェア、OSを自分の判断で選んでシステムを完成させるスタイルが基本です。まさにOff-the-Shelfと言われる由縁ですが、こうなると組み合わせの数だけでも大変な量になり、その製品も短期間でモデル・チェンジ、バージョン・アップによって変化し続けています。
そうした状況の中、任意に組み合わせたシステム構成が正しく動くかどうか簡単にわかるものでもないし、どこにも答えは書いてありません。
そのため、なんのトラブルもなしに高い性能を発揮できるHPCクラスター・システムを完成させるには相当な専門知識と検証経験が必要になろうことは容易に想像できます。
そこでモンペリエのHPCセンターの目的としては、部門ユーザーのような中小規模のHPCユーザーのためにクラスター・システムのセットアップやオペレーションを簡単化して、Linuxクラスターの大きさを決めたり、検証したり、さらにFluentのようなコア・アプリケーションのベンチマークまでもできるようにするとあります。このように、HPCセンターはさしせまっての現実の要請に応えるために設立されたように受け取れます。
中小規模の研究室の中にHPC向けのLinuxクラスターの専門知識と検証経験を備えた人がいるケースは極めてまれだと思います。
中小規模のユーザーまでもがHPCの利益を広く享受できていくためには、こうしたHPCセンターの重要性がいっそう増していくと思います。
IBMのプレスリリースによると、このHPCセンターではIBMのx86系サーバー System x と BladeCenterをベースに、Cisco社がInfiniBand と Ethernetテクノロジーを担当、Intel社がマルチコア・プロセッサーとHPCアプリケーション・スキルを担当して、総合的なテストベッドを提供するそうです。
コンピューター・メーカー製の大型スーパーコンピューター、例えばIBM System pサーバーの大規模クラスター・システムであれば、サーバー、インターコネクト・スイッチからOSまで全てメーカーであるIBMが把握し、検証もできているわけです。
しかしx86ベースのLinuxクラスターでは、別々の企業なり開発グループがしのぎを削って開発した製品の中からハードウェア、ソフトウェア、OSを自分の判断で選んでシステムを完成させるスタイルが基本です。まさにOff-the-Shelfと言われる由縁ですが、こうなると組み合わせの数だけでも大変な量になり、その製品も短期間でモデル・チェンジ、バージョン・アップによって変化し続けています。
そうした状況の中、任意に組み合わせたシステム構成が正しく動くかどうか簡単にわかるものでもないし、どこにも答えは書いてありません。
そのため、なんのトラブルもなしに高い性能を発揮できるHPCクラスター・システムを完成させるには相当な専門知識と検証経験が必要になろうことは容易に想像できます。
そこでモンペリエのHPCセンターの目的としては、部門ユーザーのような中小規模のHPCユーザーのためにクラスター・システムのセットアップやオペレーションを簡単化して、Linuxクラスターの大きさを決めたり、検証したり、さらにFluentのようなコア・アプリケーションのベンチマークまでもできるようにするとあります。このように、HPCセンターはさしせまっての現実の要請に応えるために設立されたように受け取れます。
中小規模の研究室の中にHPC向けのLinuxクラスターの専門知識と検証経験を備えた人がいるケースは極めてまれだと思います。
中小規模のユーザーまでもがHPCの利益を広く享受できていくためには、こうしたHPCセンターの重要性がいっそう増していくと思います。
2008年01月15日
メイヨークリニックのCell/B.E.による医用画像処理
・メイヨークリニックはその名前から受けるイメージとは全くかけはなれ、全米屈指の巨大病院です。しかもその優秀さでは米国でもトップを争っている病院だそうです。
・そのメイヨークリニックがIBMと共同でMedical Imaging Informatics Innovation Center(MI3C)を設立するという発表がIBMからなされています。
・メイヨークリニックは以前からCell/B.E. を使用した医用画像処理への取り組みをIBMと共同ですすめていましたから、これがMI3C設立によりさらに強化されていくことになります。
・ガンの画像診断にこれまでは数時間要していたのが数秒に短縮されたともありますが、この発表にあるYou Tubeのムービーはなかなか面白いです。PS3も引き合いに出してCell/B.E.を紹介しているのは、やはり知名度が高いからでしょうか。
・最近のIBMの発表には今回のようにYou Tubeのムービーがつくことが多いですが、百聞は一見にしかず、確かにわかりやすいです。
(日本語でのニュースも1月16日に出ていますね。)
・そのメイヨークリニックがIBMと共同でMedical Imaging Informatics Innovation Center(MI3C)を設立するという発表がIBMからなされています。
・メイヨークリニックは以前からCell/B.E. を使用した医用画像処理への取り組みをIBMと共同ですすめていましたから、これがMI3C設立によりさらに強化されていくことになります。
・ガンの画像診断にこれまでは数時間要していたのが数秒に短縮されたともありますが、この発表にあるYou Tubeのムービーはなかなか面白いです。PS3も引き合いに出してCell/B.E.を紹介しているのは、やはり知名度が高いからでしょうか。
・最近のIBMの発表には今回のようにYou Tubeのムービーがつくことが多いですが、百聞は一見にしかず、確かにわかりやすいです。
(日本語でのニュースも1月16日に出ていますね。)
2008年01月08日
●"T2Kオープン スパコン"
・東大、筑波大、京大の"T2Kオープン スパコン"(T2Kは東大、筑波大、京大のイニシャル(TTK)からきている)と言われる仕様を満たす大規模HPCシステムの入札結果が昨年の暮れに発表されていました。
・そして今日の日立製作所のニュースリリース、「東京大学情報基盤センターから国内最高性能のスーパーコンピュータシステムを受注」で具体的なシステム構成が紹介されています。
● OSはRed Hat Linux
● 1ノードにクアッドコアAMD Opteronプロセッサー(2.3GHz)を4個搭載 (ということは16コア/ノード)
● 1ラックに16ノードを格納し、3,738 GFLOPS/m**2を実現する省スペース (256コア/ラックになる)
● 2Uサイズのノード952個(60ラック相当)を、高速多段クロスバネットワークで接続
● 米国Myricom社のMyri-10Gネットワークを採用し、10ギガビットイーサネット級のノード間高速通信を実現
・この表現だけからだと”高速多段クロスバネットワーク=Myri-10Gネットワーク”とも受け取れますが、何かおかしい。実際はどうなのでしょうか。
・最大理論ピーク性能は140TFLOPSで、2007年11月版のTop500リストのRPeakの順番だけから見ると6位に入る性能です。LINPACKの性能が順当に達成できると2008年6月版でTop10に入る可能性は相当高そうです。もちろん国内ではトップの性能です。
・東大は日立製作所が受注していますが、筑波大をクレイ・ジャパン・インク/米Approが受注、京大が富士通、と日経ITpro等で報道されています。
・いずれも各大学のいわゆる大型計算センターのシステムなので、その基本要件には、多様化した大学ユーザーの計算ニーズに対応できないといけないと言う問題意識が反映されています。
・ユーザーについては最近さらに進んで、大学ユーザーだけでなく民間企業へのマシンタイムの提供も文部科学省「先端研究施設共用イノベーション創出事業」プログラム から支援を受け、公募で行われているとは知りませんでした。
正月にはPS3を買ってYellow Dogを入れてと考えていたのも、知人が暮れにWiiを持参してやってきたのが運の尽き、Amazonから翌日配達でFitのボードも手に入れ、すっかり遊んでしまいました。まだ手や腹筋が痛い・・・。
ところで、ニュース・リリースによると日立の自動並列コンパイラが提供されるようですが、これも両刃の剣で、大学生ならば少し苦労してプログラミングやチューニングをしたほうが、多少生産性は落ちても結局は日本の国力・競争力強化につながるのにと考えてしまうのはまだ少数派?
・そして今日の日立製作所のニュースリリース、「東京大学情報基盤センターから国内最高性能のスーパーコンピュータシステムを受注」で具体的なシステム構成が紹介されています。
● OSはRed Hat Linux
● 1ノードにクアッドコアAMD Opteronプロセッサー(2.3GHz)を4個搭載 (ということは16コア/ノード)
● 1ラックに16ノードを格納し、3,738 GFLOPS/m**2を実現する省スペース (256コア/ラックになる)
● 2Uサイズのノード952個(60ラック相当)を、高速多段クロスバネットワークで接続
● 米国Myricom社のMyri-10Gネットワークを採用し、10ギガビットイーサネット級のノード間高速通信を実現
・この表現だけからだと”高速多段クロスバネットワーク=Myri-10Gネットワーク”とも受け取れますが、何かおかしい。実際はどうなのでしょうか。
・最大理論ピーク性能は140TFLOPSで、2007年11月版のTop500リストのRPeakの順番だけから見ると6位に入る性能です。LINPACKの性能が順当に達成できると2008年6月版でTop10に入る可能性は相当高そうです。もちろん国内ではトップの性能です。
・東大は日立製作所が受注していますが、筑波大をクレイ・ジャパン・インク/米Approが受注、京大が富士通、と日経ITpro等で報道されています。
・いずれも各大学のいわゆる大型計算センターのシステムなので、その基本要件には、多様化した大学ユーザーの計算ニーズに対応できないといけないと言う問題意識が反映されています。
・ユーザーについては最近さらに進んで、大学ユーザーだけでなく民間企業へのマシンタイムの提供も文部科学省「先端研究施設共用イノベーション創出事業」プログラム から支援を受け、公募で行われているとは知りませんでした。
正月にはPS3を買ってYellow Dogを入れてと考えていたのも、知人が暮れにWiiを持参してやってきたのが運の尽き、Amazonから翌日配達でFitのボードも手に入れ、すっかり遊んでしまいました。まだ手や腹筋が痛い・・・。
ところで、ニュース・リリースによると日立の自動並列コンパイラが提供されるようですが、これも両刃の剣で、大学生ならば少し苦労してプログラミングやチューニングをしたほうが、多少生産性は落ちても結局は日本の国力・競争力強化につながるのにと考えてしまうのはまだ少数派?
2007年12月26日
●Blue Brain Projectが第一フェーズを完了
・昨日開催された理研主催の次世代生命体統合シミュレーション研究開発プロジェクトのシンポジウムで、理研脳科学総合研究センターの甘利センター長の招待講演でも触れられていたローザンヌ工科大学のBlue Brain Projectが11月26日に第一フェーズを完了しました。
・このプロジェクトは哺乳類の脳をリバース・エンジニアリングにより研究しようとするもので、ねずみの脳を対象に取り8,192プロセッサーのBlue Geneによるシミュレーションでその機能を理解しようと試みています。
・2005年の7月にローザンヌ工科大学(EPFL)とIBMがこの研究開始を発表し、SC06でのマークマル教授の講演は非常にわくわくする内容だったことを覚えています。
・開始にあたってリーダーのマークマル教授が「脳研究者の半分以上はこの研究に懐疑的だろうが、今がはじめるのにちょうどよいタイミングだ」と言っていましたが、相当アンビシャスなプロジェクトだったようです。
・第一フェーズの成果として、大脳新皮質のコラム1個を10,000個のニューロンと3,000万個のシナプス接続でモデル化したもののシミュレーションで、ニューロンからニューロンへと電気信号が伝わる様子が可視化されたものをBlue Brain Projectのギャラリーで見ることができます。
・MITの11月のTechnology Reviewでも取り上げられていますが、脳科学に大きなインパクトを与えうる驚くべき仕事と評価しています。
・このように、脳科学でもインシリコ (コンピューター・シミュレーション)を研究に利用できることが示されたということも第一フェーズの大きな成果になるでしょう。
・次世代生命体統合シミュレーション研究開発プロジェクトが生体分子スケールから臓器全身スケールまで対象とするビッグ・プロジェクトだと今回シンポジウムに参加してわかりましたが、今は含まれていない脳・自律神経系という制御機能が含まれるようになると、実にわくわくするものになるのではないかと想像をめぐらしてしまいます。
・このプロジェクトは哺乳類の脳をリバース・エンジニアリングにより研究しようとするもので、ねずみの脳を対象に取り8,192プロセッサーのBlue Geneによるシミュレーションでその機能を理解しようと試みています。
・2005年の7月にローザンヌ工科大学(EPFL)とIBMがこの研究開始を発表し、SC06でのマークマル教授の講演は非常にわくわくする内容だったことを覚えています。
・開始にあたってリーダーのマークマル教授が「脳研究者の半分以上はこの研究に懐疑的だろうが、今がはじめるのにちょうどよいタイミングだ」と言っていましたが、相当アンビシャスなプロジェクトだったようです。
・第一フェーズの成果として、大脳新皮質のコラム1個を10,000個のニューロンと3,000万個のシナプス接続でモデル化したもののシミュレーションで、ニューロンからニューロンへと電気信号が伝わる様子が可視化されたものをBlue Brain Projectのギャラリーで見ることができます。
・MITの11月のTechnology Reviewでも取り上げられていますが、脳科学に大きなインパクトを与えうる驚くべき仕事と評価しています。
・このように、脳科学でもインシリコ (コンピューター・シミュレーション)を研究に利用できることが示されたということも第一フェーズの大きな成果になるでしょう。
・次世代生命体統合シミュレーション研究開発プロジェクトが生体分子スケールから臓器全身スケールまで対象とするビッグ・プロジェクトだと今回シンポジウムに参加してわかりましたが、今は含まれていない脳・自律神経系という制御機能が含まれるようになると、実にわくわくするものになるのではないかと想像をめぐらしてしまいます。
2007年12月18日
●1PetaFLOPSのRoadrunnerが最終フェーズに
・1PetaFLOPSの持続性能を目標にしたロスアラモス国立研究所(LANL)のRoadrunnerが、いよいよ最終フェーズに入り、そのお祝いが行われたそうです。楽しそうな写真も紹介されています。
・RoadrunnerはCell BroadBand Engineをアクセルレータにした最初のスーパーコンピューターで、LANLとIBMの共同開発プロジェクトとして2006年始めにスタートしています。最初に第一フェーズの71TFLOPSのクラスター・システムから始まり、この10月に第二フェーズを終え、National Nuclear Security Administration(NNSA)と、独立HPC専門家チームという二つの外部アセスメントを受けていました。
・その結果を受けてLANLは最終フェーズすなわちフル・スケールのRoadrunnerの開発に入ることを決め、NNSAの承認が降り次第フル・スケールのRoadrunnerの入手を進めます。マシンがIBMからLANLに到着するのが2008年秋、最初のアプリケーションが走るのが2009年1月ということです。
・このスケジュールどおりだと、SC08のタイミングではTop500の1位は依然LLNLのBlue Gene/Lになっている可能性が高いので、LANLとしてはもう少しスケジュールを前倒ししたいところだと思います。
・ともあれ、このテクニカルアセスメントのための資料が紹介されています。この中の"Roadrunner Applications Team: Cell and Hybrid Results to Date"というのを見るとLANLは2003年からすでにAcceleration modelを検討していてFPGAとGPによる小規模システムの結果から自信を得、2006年、いっきにCell/B.E.で1 PetaFLOPSの挑戦に出たようです。決して唐突ではなかったわけです。
・Roadrunner projectにはLANLの100人以上のスタッフが参加し、プロジェクトのコストは約$120M (ざっと130億円)の予定とあります。LLNLとIBMとのBlue Gene/Lの共同プロジェクトでもそうですが、特にRoadrunnerでは製品を使用することを前提に設計しているので、計画がたてやすいという利点がIBM, LANL双方にありそうです。
・ただし、この種のシステムの性能と開発コストの関係は、使用目的、信頼性(MTBFなど)、それらを反映したアーキテクチャの先進性の度合い、さらには開発コストの回収計画等々でさまざまに変わるものなので、表面的なコスト-性能比の比較はもはや無意味でしょう。
別の見方をすれば、使用するアプリケーションを通じてその性能のシステムから得られる価値をいくらに評価するかがプロジェクトの価値でしょうから、米国National Nuclear Securityのプロジェクトというのは強いですね。日本では何にあたるのでしょうか。おそらく、省石油に関したものすべて?
・RoadrunnerはCell BroadBand Engineをアクセルレータにした最初のスーパーコンピューターで、LANLとIBMの共同開発プロジェクトとして2006年始めにスタートしています。最初に第一フェーズの71TFLOPSのクラスター・システムから始まり、この10月に第二フェーズを終え、National Nuclear Security Administration(NNSA)と、独立HPC専門家チームという二つの外部アセスメントを受けていました。
・その結果を受けてLANLは最終フェーズすなわちフル・スケールのRoadrunnerの開発に入ることを決め、NNSAの承認が降り次第フル・スケールのRoadrunnerの入手を進めます。マシンがIBMからLANLに到着するのが2008年秋、最初のアプリケーションが走るのが2009年1月ということです。
・このスケジュールどおりだと、SC08のタイミングではTop500の1位は依然LLNLのBlue Gene/Lになっている可能性が高いので、LANLとしてはもう少しスケジュールを前倒ししたいところだと思います。
・ともあれ、このテクニカルアセスメントのための資料が紹介されています。この中の"Roadrunner Applications Team: Cell and Hybrid Results to Date"というのを見るとLANLは2003年からすでにAcceleration modelを検討していてFPGAとGPによる小規模システムの結果から自信を得、2006年、いっきにCell/B.E.で1 PetaFLOPSの挑戦に出たようです。決して唐突ではなかったわけです。
・Roadrunner projectにはLANLの100人以上のスタッフが参加し、プロジェクトのコストは約$120M (ざっと130億円)の予定とあります。LLNLとIBMとのBlue Gene/Lの共同プロジェクトでもそうですが、特にRoadrunnerでは製品を使用することを前提に設計しているので、計画がたてやすいという利点がIBM, LANL双方にありそうです。
・ただし、この種のシステムの性能と開発コストの関係は、使用目的、信頼性(MTBFなど)、それらを反映したアーキテクチャの先進性の度合い、さらには開発コストの回収計画等々でさまざまに変わるものなので、表面的なコスト-性能比の比較はもはや無意味でしょう。
別の見方をすれば、使用するアプリケーションを通じてその性能のシステムから得られる価値をいくらに評価するかがプロジェクトの価値でしょうから、米国National Nuclear Securityのプロジェクトというのは強いですね。日本では何にあたるのでしょうか。おそらく、省石油に関したものすべて?
2007年12月11日
●Cellスピードチャレンジ2008 参加受付中
・2007年に続いて、Cell Broadband Engine (Cell/B.E.)を対象にしたマルチコア・プログラミング・コンテスト Cellスピードチャレンジ2008の受付が始まっています。
・2008年も課題は規定課題(「連立一次方程式の求解」)と自由課題の二本立てで、日程については参加受付開始が2007年11月20日、参加受付〆切と予選ラウンド開始が2008年2月1日等々となっています。
・リーフレットによると、今回は(財) 北九州産業学術推進機構 (FAIS)のCell/B.E.のオンライン環境を借用してスピード測定をすることになったようです。
・二、三の大学研究室の方とお話しした例から類推するとプログラミングで多そうなケースは、プログラミングとテストまでは研究室に設置したソニーのPLAYSTATION3 (PS3)を使用することですが、プログラミング・テスト環境として考えてもPS3は実に安価と言えます (なにせPCよりも低価格!)。
・先月にはSC07の会場で、Yellow Dog Linux for PLAYSTATION3 をTerra Soft SolutionsのCEO、Kai Staatsさんからいただいたので、これはPS3を買わないとまずいかなと思いつつ、まだ積んどくになっています。
・PS3は電力消費が少ない新モデルも発売されましたが、HPCから見てどれがいいかかぐらいは知った上でと思っています。さて何になるのか。ちなみにコンテスト参加のためには、協賛各社の従業員でないこと、または協賛各社でインターンシップ中の学生でないこととあるので、私は参加資格なし。
Kaiさんはフットワークの軽そうな、まだ学生の雰囲気が残っている(知人の弁)方で、IT系の(Web系ではない)先進ベンチャーはこんな感じの人が起業しているんだと思わせられました。
・2008年も課題は規定課題(「連立一次方程式の求解」)と自由課題の二本立てで、日程については参加受付開始が2007年11月20日、参加受付〆切と予選ラウンド開始が2008年2月1日等々となっています。
・リーフレットによると、今回は(財) 北九州産業学術推進機構 (FAIS)のCell/B.E.のオンライン環境を借用してスピード測定をすることになったようです。
・二、三の大学研究室の方とお話しした例から類推するとプログラミングで多そうなケースは、プログラミングとテストまでは研究室に設置したソニーのPLAYSTATION3 (PS3)を使用することですが、プログラミング・テスト環境として考えてもPS3は実に安価と言えます (なにせPCよりも低価格!)。
・PS3は電力消費が少ない新モデルも発売されましたが、HPCから見てどれがいいかかぐらいは知った上でと思っています。さて何になるのか。ちなみにコンテスト参加のためには、協賛各社の従業員でないこと、または協賛各社でインターンシップ中の学生でないこととあるので、私は参加資格なし。
Kaiさんはフットワークの軽そうな、まだ学生の雰囲気が残っている(知人の弁)方で、IT系の(Web系ではない)先進ベンチャーはこんな感じの人が起業しているんだと思わせられました。
2007年12月09日
日本 巻き返しなるか
・今頃という感がありますが、ホンダF1の記事と同じ今日の読売新聞朝刊25面に"スパコン 日本また後退"という大きな記事が載っています。
・"日本また後退"という意味は、Top500リストで"日本の代表的スーパーコンピューターが順位を下げた(同記事)"ということを言っています。
・この記事の"日本の代表的スーパーコンピューター"というのが、国産メーカーが納入したスーパーコンピューターを指していて、日本国内で利用されているスーパーコンピューターを指しているわけではないという粗さが個人的には少なからず気になりますが、しかしどちらから見てもこのところ日本が米国はもとよりヨーロッパに対してもHPC分野の元気度合いがめっきり弱くなってきた印象は否めません。
・しかし先日発表されたIDC社の予測では、世界全体のHPCサーバー売り上げ高は強い成長を続け、2011年には2006年の1.5倍以上になるとあります。
研究開発では、お金のかかる実験からコストの小さくなってきたコンピューター・シミュレーションへのシフトが続くというのがこの予測の主要な裏付けのひとつになっていて、日本もその点では例外でないはずですので、巻き返す元気さが必要です。
・さて読売新聞の記事ですが、東工大の松岡聡教授が"長期計画で一台だけ作るのではなく、常に先を見越して世界トップに届く計画を次々と打ち立てていかないと新興国に負けてしまう"という指摘をしています。
・これは日本のHPC戦略の弱点を指摘していて、まったくそのとおりだと思いますし、スーパーコンピューターのリーダー格と目されているIBMやCray社は、企業としてこのことを必死に実行しているように見えます。
コンピューター・シミュレーションについては国内に長い経験を蓄積してきた強みがあるので、いまHPCの巻き返しに必要なものはなんと言っても海外に負けない若手・中堅層の開拓者精神と戦略立案・実行力と思っています。
・"日本また後退"という意味は、Top500リストで"日本の代表的スーパーコンピューターが順位を下げた(同記事)"ということを言っています。
・この記事の"日本の代表的スーパーコンピューター"というのが、国産メーカーが納入したスーパーコンピューターを指していて、日本国内で利用されているスーパーコンピューターを指しているわけではないという粗さが個人的には少なからず気になりますが、しかしどちらから見てもこのところ日本が米国はもとよりヨーロッパに対してもHPC分野の元気度合いがめっきり弱くなってきた印象は否めません。
・しかし先日発表されたIDC社の予測では、世界全体のHPCサーバー売り上げ高は強い成長を続け、2011年には2006年の1.5倍以上になるとあります。
研究開発では、お金のかかる実験からコストの小さくなってきたコンピューター・シミュレーションへのシフトが続くというのがこの予測の主要な裏付けのひとつになっていて、日本もその点では例外でないはずですので、巻き返す元気さが必要です。
・さて読売新聞の記事ですが、東工大の松岡聡教授が"長期計画で一台だけ作るのではなく、常に先を見越して世界トップに届く計画を次々と打ち立てていかないと新興国に負けてしまう"という指摘をしています。
・これは日本のHPC戦略の弱点を指摘していて、まったくそのとおりだと思いますし、スーパーコンピューターのリーダー格と目されているIBMやCray社は、企業としてこのことを必死に実行しているように見えます。
コンピューター・シミュレーションについては国内に長い経験を蓄積してきた強みがあるので、いまHPCの巻き返しに必要なものはなんと言っても海外に負けない若手・中堅層の開拓者精神と戦略立案・実行力と思っています。
ホンダF1の成績を決めた空力設計
・「ホンダ設計ミスに泣く」という記事が今日の読売新聞朝刊の34面に載っていました。今年のF1世界選手権でトヨタ、ホンダの日本チーム勢が不調だったことについての記事ですが、ホンダの不振の原因は車体空力設計にあったと分析しています。
・空気抵抗が大きかった上に、走行中のダウンフォースも小さいために直線、カーブとも後れを取ったとあります。
・SC07(その2)で、BMWのF1のCFDシミュレーションの発表を紹介しましたが、600kgという軽い車体が時速350kmで運動する世界ですから、仮にドライバーの技量が同じであれば、規格はあるものの自由度が残されている空力設計での優劣しか設計者には残されていないわけです。
・国内では地球シミュレーターを使用してフォーミュラカーの詳細なCFDシミュレーションも発表されていますが、実戦に応用しようとすると風洞実験では難しい高速走行時の路面、タイヤからの影響の予測や、コーナリング時の空力チューニングなど膨大な計算ケースが必要だとBMWのLarsson氏が話していたのを思い出します。(どのレベルまでBMWが実現しているかはわかりませんが)。
HPCに関係する一人としては、" F1日本勢がCFDを活用した空力設計で勝利 "という見出しが現れる日が来ることを期待するばかりです。
もちろん地球シミュレーターでなければできない問題ではなく、むしろ最新の大型HPCシステムを企業がCFD専用に利用できる環境とCFD専門家の存在が大事なことがBMWの例からわかります。
・空気抵抗が大きかった上に、走行中のダウンフォースも小さいために直線、カーブとも後れを取ったとあります。
・SC07(その2)で、BMWのF1のCFDシミュレーションの発表を紹介しましたが、600kgという軽い車体が時速350kmで運動する世界ですから、仮にドライバーの技量が同じであれば、規格はあるものの自由度が残されている空力設計での優劣しか設計者には残されていないわけです。
・国内では地球シミュレーターを使用してフォーミュラカーの詳細なCFDシミュレーションも発表されていますが、実戦に応用しようとすると風洞実験では難しい高速走行時の路面、タイヤからの影響の予測や、コーナリング時の空力チューニングなど膨大な計算ケースが必要だとBMWのLarsson氏が話していたのを思い出します。(どのレベルまでBMWが実現しているかはわかりませんが)。
HPCに関係する一人としては、" F1日本勢がCFDを活用した空力設計で勝利 "という見出しが現れる日が来ることを期待するばかりです。
もちろん地球シミュレーターでなければできない問題ではなく、むしろ最新の大型HPCシステムを企業がCFD専用に利用できる環境とCFD専門家の存在が大事なことがBMWの例からわかります。
2007年11月14日
●SC07 (その3) Top500 LIST of World's fastest Supercomputers
・もう日本でもNewsが流れているように、Top500リストの最新版が発表されましたが、SC07の会場では夕方により詳細な内容によるTop500 Birds of a Feather (BOF)セッションがあったところです。
・発表前まではピーク性能500TFLOPSと言われていたTACCのRangerシステムが1位となるのではという予想もありましたがそれは今回は実現しなかったようで、LLNLのBlue Gene/LがLINPACK性能で500TFLOPSを少し欠ける圧倒的性能で1位をゆうゆうとキープしました。2位は次世代のBlue GeneであるBlue Gene/Pを導入したドイツのユーリッヒ研究センター(Forschungszentrum Juelich)です。
・LANLとIBMとで開発中の1PetaFLOPS級のRoadrunnerだけでなく、ANLが2009年に556TFLOPSのBlue Gene/Pを実現します。(補足訂正: 11/14のANLのIBMブースでのプレゼンテーションで、2008年春に111TFLOPS, 2009早期に445TFLOPS追加の二段階で556TFLOPS到達ということでした。)そうするとしばらくLLNLのBlue Gene/Pが一位を維持し、いずれにしてもピーク性能500TFLOPSと言われる今の構成でTACCのRangerシステムが1位をとる目はなくなったと言えます。ダイナミックで、なかなか厳しい世界です。
・IBMシステムがTop 1、2になっただけでなく、前回HP製のシステムに負けてしまったTop500の全体のシステム数の割合も手堅く元に戻り今回Top復帰となりました(IBM:46.4%, HP: 33.2%)。
・たぶん日本のHPC関係者にとって意表をつかれたのは、インドのTata Sons LtdがHP製のクラスター・システム(Hewlett-Packard Cluster Platform 3000 BL460c)にインド独自の革新的ルーティング技術を適用して117.9TFLOPSの性能を出し4位、アジアではトップになったことではないでしょうか。
・発表前まではピーク性能500TFLOPSと言われていたTACCのRangerシステムが1位となるのではという予想もありましたがそれは今回は実現しなかったようで、LLNLのBlue Gene/LがLINPACK性能で500TFLOPSを少し欠ける圧倒的性能で1位をゆうゆうとキープしました。2位は次世代のBlue GeneであるBlue Gene/Pを導入したドイツのユーリッヒ研究センター(Forschungszentrum Juelich)です。
・LANLとIBMとで開発中の1PetaFLOPS級のRoadrunnerだけでなく、ANLが2009年に556TFLOPSのBlue Gene/Pを実現します。(補足訂正: 11/14のANLのIBMブースでのプレゼンテーションで、2008年春に111TFLOPS, 2009早期に445TFLOPS追加の二段階で556TFLOPS到達ということでした。)そうするとしばらくLLNLのBlue Gene/Pが一位を維持し、いずれにしてもピーク性能500TFLOPSと言われる今の構成でTACCのRangerシステムが1位をとる目はなくなったと言えます。ダイナミックで、なかなか厳しい世界です。
・IBMシステムがTop 1、2になっただけでなく、前回HP製のシステムに負けてしまったTop500の全体のシステム数の割合も手堅く元に戻り今回Top復帰となりました(IBM:46.4%, HP: 33.2%)。
・たぶん日本のHPC関係者にとって意表をつかれたのは、インドのTata Sons LtdがHP製のクラスター・システム(Hewlett-Packard Cluster Platform 3000 BL460c)にインド独自の革新的ルーティング技術を適用して117.9TFLOPSの性能を出し4位、アジアではトップになったことではないでしょうか。
2007年11月07日
●100万円を切るPOWER6ブレードサーバーJS22 発表
・4.7GHzのPOWER6搭載のIBM System p570が全世界で1,000台目を出荷したそうですが、これは1台の価格が最小構成価格でも1,000万円を超えるサーバーです。
・ところが今日発表されたPOWER6(4.0GHz)搭載のブレードサーバー IBM BladeCenter JS22 は最低価格で100万円を切っています。ブレードサーバーなのでBladeCenterシャーシが別に必要とはいうものの、サーバー本体は最小構成価格で約1/10になりました。
・SPEC2006の性能がIBMから示されていますが4-coreのJS22でSPEC int_rate2006 84(122), SPEC fp_rate2006 75.6(115)です。(()内の数字は4.7GHzのp570 4-coreの値)
・p570の性能に対し、JS22のSPEC2006の性能がクロック比から導いた性能よりも多少低いのは、L2キャッシュが4Mという小容量、L3キャッシュはなしという構成が影響しているのかもしれません (p570では4-coreの場合、L2/L3は16M/64Mと大きい)。
・ただBladeCenterシャーシに14枚のJS22ブレードサーバーが収容できるというスペース効率や低電力消費、低価格という特長を生かした高性能HPCクラスターを気軽に組み立てやすいという印象を受けました。
今日の発表のもようがEnterprise Watchに掲載されていますが、写っているジム・グレゴリー専務執行役員 システム製品事業担当は学生のときにフットボールの選手として日本に来たのが初来日だったそうです。いかにも元気に満ちた人です。
・ところが今日発表されたPOWER6(4.0GHz)搭載のブレードサーバー IBM BladeCenter JS22 は最低価格で100万円を切っています。ブレードサーバーなのでBladeCenterシャーシが別に必要とはいうものの、サーバー本体は最小構成価格で約1/10になりました。
・SPEC2006の性能がIBMから示されていますが4-coreのJS22でSPEC int_rate2006 84(122), SPEC fp_rate2006 75.6(115)です。(()内の数字は4.7GHzのp570 4-coreの値)
・p570の性能に対し、JS22のSPEC2006の性能がクロック比から導いた性能よりも多少低いのは、L2キャッシュが4Mという小容量、L3キャッシュはなしという構成が影響しているのかもしれません (p570では4-coreの場合、L2/L3は16M/64Mと大きい)。
・ただBladeCenterシャーシに14枚のJS22ブレードサーバーが収容できるというスペース効率や低電力消費、低価格という特長を生かした高性能HPCクラスターを気軽に組み立てやすいという印象を受けました。
今日の発表のもようがEnterprise Watchに掲載されていますが、写っているジム・グレゴリー専務執行役員 システム製品事業担当は学生のときにフットボールの選手として日本に来たのが初来日だったそうです。いかにも元気に満ちた人です。
2007年10月20日
●Allenおばさんのチューリング賞記念にIBMがPh.D奨励賞を新設
・Fran Allenと言えば女性初のIBM Fellowであり、今年二月にHPC分野のプログラム最適化理論などにより女性で始めて情報科学のノーベル賞とも言われるチューリング賞を受賞した科学者です。
・そのチューリング賞受賞を記念してIBMがPh.D. Fellowship Award というのを設立しました。この賞はフロリダでおこなわれている"Grace Hopper Celebration of Women in Computing 2007"で昨夕発表されています。
・受賞者はキャリア・メンターのIBM研究者の指導を受けたり、IBMの研究所に招かれて発表や討論できることになっているようです。
・Ph.D.の女子学生がもっと大勢コンピューター・サイエンスやエンジニアリングの研究に入ってくるのを元気づけるというのがこの賞の主旨ですので、男子学生は対象外でした。
そういえばコンピュータ系は女性が少ないような気がします。SC06のテクニカルコンファレンスの発表でも男性がほとんどでした。
・そのチューリング賞受賞を記念してIBMがPh.D. Fellowship Award というのを設立しました。この賞はフロリダでおこなわれている"Grace Hopper Celebration of Women in Computing 2007"で昨夕発表されています。
・受賞者はキャリア・メンターのIBM研究者の指導を受けたり、IBMの研究所に招かれて発表や討論できることになっているようです。
・Ph.D.の女子学生がもっと大勢コンピューター・サイエンスやエンジニアリングの研究に入ってくるのを元気づけるというのがこの賞の主旨ですので、男子学生は対象外でした。
そういえばコンピュータ系は女性が少ないような気がします。SC06のテクニカルコンファレンスの発表でも男性がほとんどでした。
2007年10月14日
●新Cell/B.E.ブレード・サーバー QS21が国内でも発表
・米国IBMではすでに発表されていた新Cell/B.E.ブレード・サーバーQS21が国内でも金曜日に発表になっていました。
おおよそは:
・クロックが3.2GHzなのは変わっていませんが、ブレードの幅がダブル・サイズだったのがQS21ではシングル・サイズになったため、BladeCenterのシャーシに14枚のQS21が入り、シャーシあたりの理論ピーク性能は6.4テラフロップスに倍増しました (単精度演算の時)。
・価格も前モデルQS20より大幅に下がって、QS21は1,386,000円(税込最小構成価格)
・プログラム開発キット(SDK)は3.0にバージョン・アップし、IBM Software Development Kit(SDK) for Multicore Acceleration v3.0 として同時に発表されています。
・出荷は10月26日から開始です。
おおよそは:
・クロックが3.2GHzなのは変わっていませんが、ブレードの幅がダブル・サイズだったのがQS21ではシングル・サイズになったため、BladeCenterのシャーシに14枚のQS21が入り、シャーシあたりの理論ピーク性能は6.4テラフロップスに倍増しました (単精度演算の時)。
・価格も前モデルQS20より大幅に下がって、QS21は1,386,000円(税込最小構成価格)
・プログラム開発キット(SDK)は3.0にバージョン・アップし、IBM Software Development Kit(SDK) for Multicore Acceleration v3.0 として同時に発表されています。
・出荷は10月26日から開始です。
2007年08月21日
●北京オリンピックの気象予報にIBMスーパーコンピューター
・みるからに大気汚染がひどそうな北京市ですが、風向きや風速、気温といった気象条件によっても地域の汚染状況が大きく影響を受けるだろうことは容易に推測されます。
・そういうこともあってか、北京オリンピックの数値気象予報のためにピーク性能が約10テラFLOPSのスーパーコンピューター(80ノードのIBM System p5 575クラスター・システム)を北京市気象局が導入することになったと発表されました。
・IBM System p5 575というのはノードあたりPOWER5+プロセッサーを8コア(2.2 GHz)または16コア(1.9 GHz)搭載するクラスター・システムです。
・オリンピック期間中、3時間ごとに予報ができる能力を持っているとの報道もありますから、推測するに1996年のアトランタ・オリンピックなどでIBMの実績がある局地数値天気予報を北京用に最適化して、たとえば3時間後の北京オリンピック会場周辺地域の精密な気象予報をおこなうのだろうと思います。
・アトランタ・オリンピックでは雷雲が会場付近に近づくのを定期的に予測してゲームを延期したり、観客の誘導の判断に利用したと記憶していますが、北京では雷雲でなく汚染大気雲が対象になるのかもしれません。
・ちなみに中国気象局(CMA)ではIBMの並列コンピューター SPを2000年に導入し、現在は20テラFLOPS級のIBM System pを使用していますが、このシステムで中国全域の数値予報などを行っているようです。
アトランタ・オリンピックでの数値予報を始め、長年数値気象予報を研究開発してきたIBM Researchのギリシア人の古い友人が、なんと中国に長期滞在して協力支援をしていることがわかりました。その間の最大の収穫は、もしかしてよきパートナーを得たことではなかろうかと私は思っていますが。
ともあれ、こうした貢献により北京オリンピック期間中(とそれ以降)の精密な気象予報が行われ、ひいては大気汚染の制御にも成功することに期待大です。
・そういうこともあってか、北京オリンピックの数値気象予報のためにピーク性能が約10テラFLOPSのスーパーコンピューター(80ノードのIBM System p5 575クラスター・システム)を北京市気象局が導入することになったと発表されました。
・IBM System p5 575というのはノードあたりPOWER5+プロセッサーを8コア(2.2 GHz)または16コア(1.9 GHz)搭載するクラスター・システムです。
・オリンピック期間中、3時間ごとに予報ができる能力を持っているとの報道もありますから、推測するに1996年のアトランタ・オリンピックなどでIBMの実績がある局地数値天気予報を北京用に最適化して、たとえば3時間後の北京オリンピック会場周辺地域の精密な気象予報をおこなうのだろうと思います。
・アトランタ・オリンピックでは雷雲が会場付近に近づくのを定期的に予測してゲームを延期したり、観客の誘導の判断に利用したと記憶していますが、北京では雷雲でなく汚染大気雲が対象になるのかもしれません。
・ちなみに中国気象局(CMA)ではIBMの並列コンピューター SPを2000年に導入し、現在は20テラFLOPS級のIBM System pを使用していますが、このシステムで中国全域の数値予報などを行っているようです。
アトランタ・オリンピックでの数値予報を始め、長年数値気象予報を研究開発してきたIBM Researchのギリシア人の古い友人が、なんと中国に長期滞在して協力支援をしていることがわかりました。その間の最大の収穫は、もしかしてよきパートナーを得たことではなかろうかと私は思っていますが。
ともあれ、こうした貢献により北京オリンピック期間中(とそれ以降)の精密な気象予報が行われ、ひいては大気汚染の制御にも成功することに期待大です。
2007年08月19日
●太陽系で最も多用途なコンピュータ・アーキテクチャは?
・記憶に残っているかも知れませんが、8月初旬に火星の北極に向けて飛び立ったNASAのフェニックス・マースランダーにはBAEシステムズ社ベースのRAND6000というコンピュータが載っていて飛行中はもちろん火星着陸後もいろいろな制御を行います。
・初代の火星着陸機マース・パスファインダー以来、宇宙空間の強烈な放射線への対策が取られたプロセッサーが米国で開発され火星探査機に搭載されてきましたが、これらにはIBMのPower Architectureが用いられています。
・ということで、IBMのプレスリリース「IBM Power Architectureが火星の未踏の地へ」には誇り高く、「Power Architectureベースのプロセッサーは、3大ゲーム機のすべて、世界中の自動車モデルの50%、世界最速のコンピューターの60%、そして火星上のシステムの100%に使われています。Powerこそ、太陽系において真の意味でもっとも多用途のコンピューティング・プラットフォームと言えます。」と宣言しています。
・3大ゲーム機というのは、Wii、Play Station 3、Xboxを指しています。世界最速のコンピューター60%というのはTop500からの計算値を言っています。
・HPC用途ではなんと言っても世界最速の4.7GHzで走るPOWER6プロセッサーのインパクトが強いですし、Blue Gene/PもPowerプロセッサーを搭載しますが、ゲーム機にも大量に使われているのでした。
Wii、Play Station 3、Xboxだけで8月までの今年の全世界の販売台数が約2,500万台(VG-Chartsによる)ですから、3大ゲーム機へのPower Architectureベースのプロセッサー数はふだん想像しているよりも意外に多いですね。ちなみに今年のパソコンの全世界販売台数の予測は約二億五千万台だそうです(Gartnerによる)。
・初代の火星着陸機マース・パスファインダー以来、宇宙空間の強烈な放射線への対策が取られたプロセッサーが米国で開発され火星探査機に搭載されてきましたが、これらにはIBMのPower Architectureが用いられています。
・ということで、IBMのプレスリリース「IBM Power Architectureが火星の未踏の地へ」には誇り高く、「Power Architectureベースのプロセッサーは、3大ゲーム機のすべて、世界中の自動車モデルの50%、世界最速のコンピューターの60%、そして火星上のシステムの100%に使われています。Powerこそ、太陽系において真の意味でもっとも多用途のコンピューティング・プラットフォームと言えます。」と宣言しています。
・3大ゲーム機というのは、Wii、Play Station 3、Xboxを指しています。世界最速のコンピューター60%というのはTop500からの計算値を言っています。
・HPC用途ではなんと言っても世界最速の4.7GHzで走るPOWER6プロセッサーのインパクトが強いですし、Blue Gene/PもPowerプロセッサーを搭載しますが、ゲーム機にも大量に使われているのでした。
Wii、Play Station 3、Xboxだけで8月までの今年の全世界の販売台数が約2,500万台(VG-Chartsによる)ですから、3大ゲーム機へのPower Architectureベースのプロセッサー数はふだん想像しているよりも意外に多いですね。ちなみに今年のパソコンの全世界販売台数の予測は約二億五千万台だそうです(Gartnerによる)。
2007年07月19日
●原子力発電プラントとHPC
・原子力発電プラント設計開発とHPCとは1980年代までは車の両輪のように、前者がニーズを作り後者がそれに答えるという形で共に発展して来ました。その後、スリーマイルアイランド(TMI)原子力発電所の炉心溶融事故を発端に米国がしだいに原子力発電から撤収して、今では新規の原子力発電所の建設は日本でもまれになってしまいました。
・ところがフランスは電力の80%を原子力発電から供給しているように、それほどは不活発でなさそうで、IBMも原子力産業へのコンサルティングやITシステム設計に長年の経験を蓄積してきたようです。
・日本と設置場所誘致で激しく争って勝った国際核融合プロジェクトITER(International Thermo Nuclear Experimental Reactor) も、たぶんそうした原子力開発戦略の上に立ってカダラッシェへの誘致に競り勝ったのだと思いますが、こんどIBMが「原子力発電のための国際拠点センター(Global Center of Excellence for Nuclear Power)」をカダラッシェのそばでニースに近いラ・ゴードに設立しています。そこではHPCについても研究所と協力して行います。
・さて月曜の中越沖の地震で、東電の柏崎刈羽原子力発電所の大小さまざまな課題について新聞、TVを通して報道されていますが、これも蕁麻疹程度のものからもしかして重病になるかもしれない活断層上の原発の安全性と色々です。
・もともと地震と原子炉構造物の耐震設計とか、地盤を含めた震源地から原子炉建屋への地震波伝播の解析などはHPCの対象分野だったところですから、難しい活断層についてもHPCをふんだんに利用した設計手法をあらたに開発していってほしいところです。
・現在稼働中の原子力発電所が設計された頃とはくらべものにならないほどバワフルなHPC環境をいま活用し、設計だけでなく再処理や廃棄物処理すべてにわたって安全性実現の画期的な方法をあみだすために、フランスだけでなく日本でもふたたび原子力分野にHPCの出番がやってくるといいですね。
新聞等では柏崎刈羽原子力発電所で地震によりトラブルが50件も見つかったというように、数を強調した記事がいまは目につきます。それとは別に、原子力発電所の設計者や安全性の専門家は、設計時の最大想定マグニチュード(直下でM6.5)を超えたと言われる大型地震(M6.8)での原子力発電プラントの今回の挙動についてどう評価しているでしょうか。技術的には興味深いです。
・ところがフランスは電力の80%を原子力発電から供給しているように、それほどは不活発でなさそうで、IBMも原子力産業へのコンサルティングやITシステム設計に長年の経験を蓄積してきたようです。
・日本と設置場所誘致で激しく争って勝った国際核融合プロジェクトITER(International Thermo Nuclear Experimental Reactor) も、たぶんそうした原子力開発戦略の上に立ってカダラッシェへの誘致に競り勝ったのだと思いますが、こんどIBMが「原子力発電のための国際拠点センター(Global Center of Excellence for Nuclear Power)」をカダラッシェのそばでニースに近いラ・ゴードに設立しています。そこではHPCについても研究所と協力して行います。
・さて月曜の中越沖の地震で、東電の柏崎刈羽原子力発電所の大小さまざまな課題について新聞、TVを通して報道されていますが、これも蕁麻疹程度のものからもしかして重病になるかもしれない活断層上の原発の安全性と色々です。
・もともと地震と原子炉構造物の耐震設計とか、地盤を含めた震源地から原子炉建屋への地震波伝播の解析などはHPCの対象分野だったところですから、難しい活断層についてもHPCをふんだんに利用した設計手法をあらたに開発していってほしいところです。
・現在稼働中の原子力発電所が設計された頃とはくらべものにならないほどバワフルなHPC環境をいま活用し、設計だけでなく再処理や廃棄物処理すべてにわたって安全性実現の画期的な方法をあみだすために、フランスだけでなく日本でもふたたび原子力分野にHPCの出番がやってくるといいですね。
新聞等では柏崎刈羽原子力発電所で地震によりトラブルが50件も見つかったというように、数を強調した記事がいまは目につきます。それとは別に、原子力発電所の設計者や安全性の専門家は、設計時の最大想定マグニチュード(直下でM6.5)を超えたと言われる大型地震(M6.8)での原子力発電プラントの今回の挙動についてどう評価しているでしょうか。技術的には興味深いです。
2007年06月27日
●Top500リストの2007年6月版がリリース
・ドレスデンで始まったISC07で恒例のTop500リストの2007年6月版が今日リリースされました。
・Topは不動で、ローレンスリバモア国立研究所のBlue Gene/Lの280.6 TFLOPS。Blue GeneはTop10に4システム、Top500では勘定すると34システムがリスト入りしています。今日発表されたばかりのBlue Gene/Pの8,192プロセッサーのシステムも31位にいますが、これはIBMロチェスターとなっているのでロチェスター工場で測定したものでしょう。
・Top10中にIBMが、Blue Gene 4システムに加えてASCパープルとバルセロナ・スーパーコンピューティング・センターのMareNostrumブレード・システムの計6システムを占めています。
・Cray Inc.が2位、3位、Dellが8位、SGIが10位を取ったというのがメーカー別の分類です。
・Hewlett-PackardはTop50には一台もランク入りしてませんが、Top500全体で見るとシステム数では今回IBMを小差で抜いて1位でした。性能累計ではIBMがだんとつで1位という状況は変わっていません。
・日本はというと、東工大のTSUBAMEグリッド・クラスターが14位、そして地球シミュレーターが20位と、前回とおなじ顔ぶれとなっていて超大型システム導入が最近なかったことがわかります。Top500リストには前回30システム入っていたのが今回はさらに減って23システムとなっています。
・この23システムの中には 5システムのBlue Geneが含まれていたりするので国産メーカー製はTSUBAMEを入れて13システムと激減します。
・異色なのは、国内23システムの中に三菱UFJ証券が193位でランクインしていることです。OSがWindows CCS2003。Xeon dual core(3 GHz)のIBM HS21ブレードによるクラスター・システムです。
Top500に表れたこうした日本のHPCシステムについてのシビアな状況を見ると、たとえばベクトル機全盛だった時のように、海外に一目おかれるほどの高度なHPCの活用を来るべきペタFLOPS時代に向けてうまく実現していけるのだろうかと考えてしまいます。
まずは焦点を絞ったHPC応用分野について学術的な高い成果をあげるための戦略を立て、それにそってTop500の上位にランク入りできるさまざまな最新システムを継続的に国内に設置していくのも案外よいのでないか、と個人的には思ったりしていますが、さてどうでしょうか。
・Topは不動で、ローレンスリバモア国立研究所のBlue Gene/Lの280.6 TFLOPS。Blue GeneはTop10に4システム、Top500では勘定すると34システムがリスト入りしています。今日発表されたばかりのBlue Gene/Pの8,192プロセッサーのシステムも31位にいますが、これはIBMロチェスターとなっているのでロチェスター工場で測定したものでしょう。
・Top10中にIBMが、Blue Gene 4システムに加えてASCパープルとバルセロナ・スーパーコンピューティング・センターのMareNostrumブレード・システムの計6システムを占めています。
・Cray Inc.が2位、3位、Dellが8位、SGIが10位を取ったというのがメーカー別の分類です。
・Hewlett-PackardはTop50には一台もランク入りしてませんが、Top500全体で見るとシステム数では今回IBMを小差で抜いて1位でした。性能累計ではIBMがだんとつで1位という状況は変わっていません。
・日本はというと、東工大のTSUBAMEグリッド・クラスターが14位、そして地球シミュレーターが20位と、前回とおなじ顔ぶれとなっていて超大型システム導入が最近なかったことがわかります。Top500リストには前回30システム入っていたのが今回はさらに減って23システムとなっています。
・この23システムの中には 5システムのBlue Geneが含まれていたりするので国産メーカー製はTSUBAMEを入れて13システムと激減します。
・異色なのは、国内23システムの中に三菱UFJ証券が193位でランクインしていることです。OSがWindows CCS2003。Xeon dual core(3 GHz)のIBM HS21ブレードによるクラスター・システムです。
Top500に表れたこうした日本のHPCシステムについてのシビアな状況を見ると、たとえばベクトル機全盛だった時のように、海外に一目おかれるほどの高度なHPCの活用を来るべきペタFLOPS時代に向けてうまく実現していけるのだろうかと考えてしまいます。
まずは焦点を絞ったHPC応用分野について学術的な高い成果をあげるための戦略を立て、それにそってTop500の上位にランク入りできるさまざまな最新システムを継続的に国内に設置していくのも案外よいのでないか、と個人的には思ったりしていますが、さてどうでしょうか。
●3ペタFLOPSでBlue Gene/Pが登場
・Blue Gene/Lの次のモデルとして昨年のSC06会場でノードカードがさりげなく展示されていたBlue Gene/Pがきょう米国IBMから発表されました。(日本語訳もすぐ出ていました。)
・それによると、ピーク性能で3ペタFLOPSへスケールアップできるとあり、ペタFLOPSが手に届く時代に入ってきました。
・Blue Gene/Pが強いのは性能がスケールアップできるのに加えて、それを低電力・省スペースという方針で徹底している点ですが、この発表でも"A Green Design Ahead of its Time"と、いま最大関心事の環境面への影響を考えた設計ということを強調しています。
・Blue Gene/Pチップ一個には850MHzのPowerPC 450プロセッサーが4個入っていてSMP構成をとります。チップあたりでは13.6GFLOPSのピーク性能になります。Blue Gene/Lではこれが5.6GFLOPSでした。このチップを32個積んで1枚のノードカードが出来上がり435GFLOPSになります。1ラックには32枚のノードカードが入るので、ラックあたり14テラFLOPSのピーク性能です。その結果72ラックで1ペタFLOPSのピーク性能に到達します。
・Top500の1位にあるローレンスリバモア国立研究所のBlue Gene/Lは最大構成の64ラックになっていますが、スペース的にはあと8ラック加えると1ペタFLOPSになる勘定です。設計上シビアなラックあたりの発熱量はBlue Gene/Lの場合と同程度に抑える必要があることを考えると、グリーンデザインとうたっている様に、性能あたりのシステム消費電力は大幅に改善されているはずです。
・Blue Gene/Lが最大で64ラックまで拡張できたのが、Blue Gene/Pは216ラックまで拡張できるので3ペタFLOPSがピーク性能の上限になります。
・Blue Geneへの期待と評価が定着してきた証拠でしょうが、Blue Gene/Pはすでにアルゴンヌ国立研究所、ブルックヘブン国立研究所やマックス・プランク・ソサイアティといった大研究所で導入を決めたとあります。
・それによると、ピーク性能で3ペタFLOPSへスケールアップできるとあり、ペタFLOPSが手に届く時代に入ってきました。
・Blue Gene/Pが強いのは性能がスケールアップできるのに加えて、それを低電力・省スペースという方針で徹底している点ですが、この発表でも"A Green Design Ahead of its Time"と、いま最大関心事の環境面への影響を考えた設計ということを強調しています。
・Blue Gene/Pチップ一個には850MHzのPowerPC 450プロセッサーが4個入っていてSMP構成をとります。チップあたりでは13.6GFLOPSのピーク性能になります。Blue Gene/Lではこれが5.6GFLOPSでした。このチップを32個積んで1枚のノードカードが出来上がり435GFLOPSになります。1ラックには32枚のノードカードが入るので、ラックあたり14テラFLOPSのピーク性能です。その結果72ラックで1ペタFLOPSのピーク性能に到達します。
・Top500の1位にあるローレンスリバモア国立研究所のBlue Gene/Lは最大構成の64ラックになっていますが、スペース的にはあと8ラック加えると1ペタFLOPSになる勘定です。設計上シビアなラックあたりの発熱量はBlue Gene/Lの場合と同程度に抑える必要があることを考えると、グリーンデザインとうたっている様に、性能あたりのシステム消費電力は大幅に改善されているはずです。
・Blue Gene/Lが最大で64ラックまで拡張できたのが、Blue Gene/Pは216ラックまで拡張できるので3ペタFLOPSがピーク性能の上限になります。
・Blue Geneへの期待と評価が定着してきた証拠でしょうが、Blue Gene/Pはすでにアルゴンヌ国立研究所、ブルックヘブン国立研究所やマックス・プランク・ソサイアティといった大研究所で導入を決めたとあります。
2007年06月20日
●筑波大・東大チームがQCDで「強い力」の起源解明
・またまたQCD(量子色力学)コンピューター・シミュレーションによる快挙です。
・筑波大学の今日の発表資料によると、湯川秀樹博士の中間子理論がクォークを基礎にその正しさを検証しただけでなく、強い力の起源も世界で初めて解明に成功したとあります。
・東海村に建設中のJ-PARC実験の理論的支柱を与えることにもなると、実験・理論・コンピューターシミュレーションが素粒子物理学の世界で不可欠な関係に成っていることがわかります。
・この計算にはKEK(高エネルギー加速器機構)のBlue Geneで3000時間(4ヶ月)かけたそうです。
・もちろん、コンピュータだけでなく頭脳による論理的飛躍が必要でした(発表資料から)
・筑波大学の今日の発表資料によると、湯川秀樹博士の中間子理論がクォークを基礎にその正しさを検証しただけでなく、強い力の起源も世界で初めて解明に成功したとあります。
・東海村に建設中のJ-PARC実験の理論的支柱を与えることにもなると、実験・理論・コンピューターシミュレーションが素粒子物理学の世界で不可欠な関係に成っていることがわかります。
・この計算にはKEK(高エネルギー加速器機構)のBlue Geneで3000時間(4ヶ月)かけたそうです。
・もちろん、コンピュータだけでなく頭脳による論理的飛躍が必要でした(発表資料から)
2007年06月02日
●日本でも大規模金融計算グリッドシステムに着手
・"野村證券の金融特化型グリッド基盤の構築プロジェクトを開始"のニュースが、日本アイ・ビー・エム株式会社とニイウス株式会社の連名で発表されています。
・金融業務においてよりリアルタイムに近い計算処理が必要になって来ているため、野村證券金融経済研究所 金融工学研究センターがそうしたニーズに対応するためブレードサーバーによるグリッド基盤構築の検証を開始するそうです。
・「すでに米国金融機関では金融グリッド基盤を用いたシステムの事例があり、構築期間は平均で2〜3年、数千台から多いところでは1万台以上のブレードサーバーを導入しています。」とのニュースを裏付けるかのように、おなじみTop500 Listの120位台にも金融機関の2,000プロセッサー前後のブレードサーバーが入っています。
HPCの分野としてふたたび金融工学分野が重要性を増すのは自然の流れに見えます。
・すでにIBMは2月の"IBM Unveils Initiatives to Propel High-Performance Computing Clusters Into Mid-Market"の発表の中で、ファイナンス分野をターゲットにMicrosoft Office Excel 2007をHPCクラスターのソリューションとしてマイクロソフトと協業すると発表しています。
Excel 2007ベースの巨大ファイナンス・アプリケーションが大型HPCクラスターを占拠して並列計算を行うとなると、これはちょっと予想しなかった光景です。
・金融業務においてよりリアルタイムに近い計算処理が必要になって来ているため、野村證券金融経済研究所 金融工学研究センターがそうしたニーズに対応するためブレードサーバーによるグリッド基盤構築の検証を開始するそうです。
・「すでに米国金融機関では金融グリッド基盤を用いたシステムの事例があり、構築期間は平均で2〜3年、数千台から多いところでは1万台以上のブレードサーバーを導入しています。」とのニュースを裏付けるかのように、おなじみTop500 Listの120位台にも金融機関の2,000プロセッサー前後のブレードサーバーが入っています。
HPCの分野としてふたたび金融工学分野が重要性を増すのは自然の流れに見えます。
・すでにIBMは2月の"IBM Unveils Initiatives to Propel High-Performance Computing Clusters Into Mid-Market"の発表の中で、ファイナンス分野をターゲットにMicrosoft Office Excel 2007をHPCクラスターのソリューションとしてマイクロソフトと協業すると発表しています。
Excel 2007ベースの巨大ファイナンス・アプリケーションが大型HPCクラスターを占拠して並列計算を行うとなると、これはちょっと予想しなかった光景です。
2007年05月23日
●POWER6搭載システムが日本でも発表
・おとといの米国IBMでの発表に続いて、日本でもPOWER6プロセッサー搭載システムが発表されました。
・"世界最速かつ省電力な次世代プロセッサー搭載のUNIXサーバー"とあるとおり、クロックが最大4.7GHzのIBM System p モデル570です。
・HPC系のベンチマーク性能もLINPACKで1-coreのときに15.53GFLOPS,最大の16-coreでは239.4GFLOPSと高性能です。
・SPECはSPEC2000ではなく、新しいSPEC2006になっていますがこれもLINPACK同様にBest-in-classとなっています。
発表によると、"前世代のPOWER5™に比べコアあたりで約2倍の性能向上を達成しました。一方でサーバーの動作や冷却に必要な電力消費量はPOWER5と同等に抑えられています。"とあり、国際会議などで技術発表されていたあたりはきちんと実現されているようです。
・"世界最速かつ省電力な次世代プロセッサー搭載のUNIXサーバー"とあるとおり、クロックが最大4.7GHzのIBM System p モデル570です。
・HPC系のベンチマーク性能もLINPACKで1-coreのときに15.53GFLOPS,最大の16-coreでは239.4GFLOPSと高性能です。
・SPECはSPEC2000ではなく、新しいSPEC2006になっていますがこれもLINPACK同様にBest-in-classとなっています。
発表によると、"前世代のPOWER5™に比べコアあたりで約2倍の性能向上を達成しました。一方でサーバーの動作や冷却に必要な電力消費量はPOWER5と同等に抑えられています。"とあり、国際会議などで技術発表されていたあたりはきちんと実現されているようです。
2007年05月09日
●またまたインターネット転送速度の世界記録を更新し、完結へ
・10Gbpsインターネット・ネットワークの速度記録を塗り替えてきた東大 平木教授をはじめとする国際共同研究チームが、去年の暮れに実施した実験結果がInternet2 Spring Meetingで世界記録として認定されたという発表がWIDEプロジェクトから5月8日にされています。
・ここのところSCの展示会場での実証実験や、Bandwidth Challengeでの連続受賞などでHPC分野での名物となってしまった感がある10Gbpsインターネット・ネットワーク転送速度の世界記録更新ですが、ついに記録を30%アップし、完結ということです。
・シカゴ、ニューヨークを中継点に、東京-アムステルダム間往復32,372 kmの10Gbpsインターネット・ネットワークを使い、2台のPCサーバー間で事実上の上限である、ピーク値の99%を使い切ったということからIPv6による最終記録樹立としています。
・@ITが「DVD転送が5秒から4秒に、東大がネット最高速を更新」というたいへんわかりやすい解説をしています。
・この世界記録はIPv6 Internet Land Speed Recordといわれ、9つのルールにしたがって実験がおこなわれています。たとえば最低でも地上で100km以上離れた区間で10分間連続してデータ転送していること (ルール1)とか、普通に利用されている高性能研究教育用ネットワークを使用すること(ルール2)とかいろいろあります。
・特に面白いのはルール4の、使用するハードウェアとソフトウェアはすべて米国のInternet2コミュニティのメンバーが購入できるものまたは、オープンソースとして提供されているものに限るという点です。要は、記録認定後はだれでも今回の記録と同じ性能を共有できることを保障しているわけですね。
・今回の内容については平木教授がリードしているData Reservoir Project / GRAPE-DR プロジェクトのサイトに詳細に載っています。
それにしても、ここまで実現してしまったエネルギーと情熱にはただ脱帽です。
・ここのところSCの展示会場での実証実験や、Bandwidth Challengeでの連続受賞などでHPC分野での名物となってしまった感がある10Gbpsインターネット・ネットワーク転送速度の世界記録更新ですが、ついに記録を30%アップし、完結ということです。
・シカゴ、ニューヨークを中継点に、東京-アムステルダム間往復32,372 kmの10Gbpsインターネット・ネットワークを使い、2台のPCサーバー間で事実上の上限である、ピーク値の99%を使い切ったということからIPv6による最終記録樹立としています。
・@ITが「DVD転送が5秒から4秒に、東大がネット最高速を更新」というたいへんわかりやすい解説をしています。
・この世界記録はIPv6 Internet Land Speed Recordといわれ、9つのルールにしたがって実験がおこなわれています。たとえば最低でも地上で100km以上離れた区間で10分間連続してデータ転送していること (ルール1)とか、普通に利用されている高性能研究教育用ネットワークを使用すること(ルール2)とかいろいろあります。
・特に面白いのはルール4の、使用するハードウェアとソフトウェアはすべて米国のInternet2コミュニティのメンバーが購入できるものまたは、オープンソースとして提供されているものに限るという点です。要は、記録認定後はだれでも今回の記録と同じ性能を共有できることを保障しているわけですね。
・今回の内容については平木教授がリードしているData Reservoir Project / GRAPE-DR プロジェクトのサイトに詳細に載っています。
それにしても、ここまで実現してしまったエネルギーと情熱にはただ脱帽です。
2007年04月27日
●QCDとKEKとBlue Gene
・高エネルギー加速器研究機構 (KEK)の橋本先生達のチームが"量子色力学における自発的対称性の破れを厳密に実証" (英文は"Spontaneous symmetry breaking in QCD reproduced on supercomputer")したというプレス・リリースが4/24にKEKから発表されています。理論により予言されていた特別な場合に対する値が、Blue Geneを使用した厳密な大規模計算機シミュレーションにより世界で初めて再現できたということのようです。
・過去、「湯川秀樹博士が理論で予言した中間子を、12年後にセシル・パウエルのチームが写真乾板を使って宇宙線から発見し、その理論の正しさが証明され両者ノーベル賞受賞」などというように理論と実験のペアが自然科学を発展させてきましたが、いまや計算機シミュレーションが実証の一翼を担うところまで進んできているんだな〜と実感されるプレスリリースでした。
・素粒子理論分野の量子色力学(QCD)は、核物理実験出の私にとっては難しくてずっと「敬して遠ざけてきた」分野ですが、自然科学分野でのスーパーコンピューター開発を古くからドライブしてきた一大テーマです。

・いわくAPE(イタリア)、 GF11(IBM)、有名なCP-PACS(筑波大)、そしてBlue Gene等々。GF11はIBMワトソン・リサーチ・センターを以前訪ねたとき、開発中のシステムを見たことがありますが、左の写真のように半分手作りという印象で、ボード数も多いため故障したボードのテスト・修理をロボットにさせるようなことまで試していました。
・Blue Geneでプログラムを効率よく走らせるためには、なにせ1ラックにDual-processorのチップが1,024個も載っているシステムなので、通常は数千プロセッサー規模のMPIによるスケーラブルな並列化の実現、チップあたり512MBの小サイズ・メモリーへの対応、ダブル・ハンマーと呼ばれる浮動小数点ユニットの活用、三次元トーラス・ネットワーク構造への問題のマッピングがプログラミング考慮点になります。
・たとえば、Desyの資料 "Optimizing LQCD on IBM Blue Gene"にこうした詳細が説明されています。この中でも引用されているように、IBM東京基礎研究所の土井さんをはじめとした研究者が、ダブル・ハンマー利用による最適化、ノード・マッピングや低遅延時間API利用による最適化などをたいへんうまく行って、ピーク性能に対して30%弱のQCD計算の実効性能を引き出しています。
・SC06でゴードン・ベル賞を獲得した本家のIBMワトソン・リサーチ・センターのBlue GeneによるQCD計算論文 The BlueGene/L Supercomputer and Quantum Chromodynamics
では実効性能20%といっていますから、これはなかなか立派なものです。
・過去、「湯川秀樹博士が理論で予言した中間子を、12年後にセシル・パウエルのチームが写真乾板を使って宇宙線から発見し、その理論の正しさが証明され両者ノーベル賞受賞」などというように理論と実験のペアが自然科学を発展させてきましたが、いまや計算機シミュレーションが実証の一翼を担うところまで進んできているんだな〜と実感されるプレスリリースでした。
・素粒子理論分野の量子色力学(QCD)は、核物理実験出の私にとっては難しくてずっと「敬して遠ざけてきた」分野ですが、自然科学分野でのスーパーコンピューター開発を古くからドライブしてきた一大テーマです。

・いわくAPE(イタリア)、 GF11(IBM)、有名なCP-PACS(筑波大)、そしてBlue Gene等々。GF11はIBMワトソン・リサーチ・センターを以前訪ねたとき、開発中のシステムを見たことがありますが、左の写真のように半分手作りという印象で、ボード数も多いため故障したボードのテスト・修理をロボットにさせるようなことまで試していました。
・Blue Geneでプログラムを効率よく走らせるためには、なにせ1ラックにDual-processorのチップが1,024個も載っているシステムなので、通常は数千プロセッサー規模のMPIによるスケーラブルな並列化の実現、チップあたり512MBの小サイズ・メモリーへの対応、ダブル・ハンマーと呼ばれる浮動小数点ユニットの活用、三次元トーラス・ネットワーク構造への問題のマッピングがプログラミング考慮点になります。
・たとえば、Desyの資料 "Optimizing LQCD on IBM Blue Gene"にこうした詳細が説明されています。この中でも引用されているように、IBM東京基礎研究所の土井さんをはじめとした研究者が、ダブル・ハンマー利用による最適化、ノード・マッピングや低遅延時間API利用による最適化などをたいへんうまく行って、ピーク性能に対して30%弱のQCD計算の実効性能を引き出しています。
・SC06でゴードン・ベル賞を獲得した本家のIBMワトソン・リサーチ・センターのBlue GeneによるQCD計算論文 The BlueGene/L Supercomputer and Quantum Chromodynamics
では実効性能20%といっていますから、これはなかなか立派なものです。

