一般
2008年07月02日
●NCARのPower575水冷スーパーコンピューター設置の写真
・HPCではRoadrunnerなどの影に隠れた感のIBM POWER6搭載のPower 575水冷スーパーコンピューターですが、第一号機が4月24日、米国National Center for Atmospheric Research (NCAR)に搬入されています。
・Bluefireと名付けられている76TFLOPSのピーク性能を持ったTop500 30位のIBM Power 575システムは4.7GHzのPOWER6プロセッサー・コア32個を1ノードとし、全体で127ノード(4,096プロセッサー・コア)、12TBのメモリー、InfiniBand switchによるノード間相互接続、150TBのIBMディスク・ストレージといった内容です。
・月並みな言い方ですが歴史は繰り返す―Power575の特徴は、大型の冷却水タンクを使った循環式の水冷システムにしたことです。設置をしているときの写真がNCARのサイトに掲載されています。クリックすると拡大したきれいな写真を見ることができます。
プロセッサーを高密度実装できるというだけでなく、熱効率や電力コストを考えると水冷の選択肢は自然な解答に見えてきます。もともと大型コンピューターの冷却はCMOSプロセッサーが普及するまでは水冷で行ってきたという歴史があるので、当然の流れと考える人も多いのでは。
・Bluefireと名付けられている76TFLOPSのピーク性能を持ったTop500 30位のIBM Power 575システムは4.7GHzのPOWER6プロセッサー・コア32個を1ノードとし、全体で127ノード(4,096プロセッサー・コア)、12TBのメモリー、InfiniBand switchによるノード間相互接続、150TBのIBMディスク・ストレージといった内容です。
・月並みな言い方ですが歴史は繰り返す―Power575の特徴は、大型の冷却水タンクを使った循環式の水冷システムにしたことです。設置をしているときの写真がNCARのサイトに掲載されています。クリックすると拡大したきれいな写真を見ることができます。
プロセッサーを高密度実装できるというだけでなく、熱効率や電力コストを考えると水冷の選択肢は自然な解答に見えてきます。もともと大型コンピューターの冷却はCMOSプロセッサーが普及するまでは水冷で行ってきたという歴史があるので、当然の流れと考える人も多いのでは。
2008年06月30日
●マイクロソフトHPCラボがIBM iDataPlexの最初のユーザー
・IBMのiDataPlexシステムの最初の導入先のひとつがマイクロソフト社のHPCラボという発表をIBMがしています。
・マイクロソフト社はWindows HPC Server 2008のインターナル・ベンチマーク・テストにこのiDataPlexシステムを使用するそうです。
・iDataPlexシステムについてはまだ詳細は知られていないものの、クラウドコンピューティング環境に適した省スペース、省電力−いわゆるグリーン・データセンターを実現するためのサーバー・システムで、プレスによれば、315平方フィート(30平方メートル弱)でTop500の10位クラスに相当する145TFLOPSのシステムを設置できるものです。
・今回は3GHzのQuad-core XeonのiDataPlex DX360 HPCサーバーの発表とVersatile SMP(vSMP)で知られているシリコンバレーのベンチャーScaleMP社のiDataPlexのサポート表明が目新しいところです。
・IBM iDataPlexシステムはHPC向けグリーン・データセンター実現のためというひとつの方向も徐々に見えてきたので、来年のTop500にはIBM iDataPlexシステムも目につくようになっているかも知れません。
七夕から始まる洞爺湖サミットも環境=エネルギー問題がメインテーマのひとつ。そのわりには日本全体で具体策を議論しているようにはいっこうに見えませんが、それでも市内を走ってるとプリウスがものすごく目立つようになりました。
・マイクロソフト社はWindows HPC Server 2008のインターナル・ベンチマーク・テストにこのiDataPlexシステムを使用するそうです。
・iDataPlexシステムについてはまだ詳細は知られていないものの、クラウドコンピューティング環境に適した省スペース、省電力−いわゆるグリーン・データセンターを実現するためのサーバー・システムで、プレスによれば、315平方フィート(30平方メートル弱)でTop500の10位クラスに相当する145TFLOPSのシステムを設置できるものです。
・今回は3GHzのQuad-core XeonのiDataPlex DX360 HPCサーバーの発表とVersatile SMP(vSMP)で知られているシリコンバレーのベンチャーScaleMP社のiDataPlexのサポート表明が目新しいところです。
・IBM iDataPlexシステムはHPC向けグリーン・データセンター実現のためというひとつの方向も徐々に見えてきたので、来年のTop500にはIBM iDataPlexシステムも目につくようになっているかも知れません。
七夕から始まる洞爺湖サミットも環境=エネルギー問題がメインテーマのひとつ。そのわりには日本全体で具体策を議論しているようにはいっこうに見えませんが、それでも市内を走ってるとプリウスがものすごく目立つようになりました。
2008年06月28日
●並列プロセッサー数が増すと計算効率は低下するか?
・アムダールの法則からすれば、ベクトル計算機にしろ並列計算機にしろ、プロセッサー数が多くなればなるほど理論ピーク性能と実アプリケーション性能の差が広がりやすく、プロセッサー数を増やしたところで問題規模に依存したあるプロセッサー数で性能は飽和に達してしまうというのが常識です。
・にもかかわらずLINPACKベンチマーク問題によるTOP500の性能向上の多くがシステムのプロセッサー数拡大によって実現されてきていることも事実です。もちろんこれはLINPACKベンチマーク問題の大きさをプロセッサー数の拡大に合わせて大きくすることで可能になっているのですが、実際のところはどうかと、先日発表のTOP500のデータから理論ピーク性能RPeakに対する実効最大性能RMaxの比:RMax/RpeakをLINPACK計算効率とし、プロセッサー数を横軸にプロットしてみました。
・確かに最高値を横に見ていくと、1,664プロセッサーのAltix4700の93%から始まって、プロセッサーが増えていくにつれ RMax/RPeakは減少し、最大の212,992プロセッサー Blue Gene/Lでは80.2%となります。このことから最大値についてはプロセッサーが多くなるにつれてシステムの計算効率が低くなっていく傾向が見てとれます。これはいわば最先端の技術的挑戦の領域を示していると言えます。
・それと並んで、あるいはそれ以上に目立つのがシステムによるLINPACK計算効率のばらつきの幅の大きさです。プロットをよく見ると、TOP500は、計算効率80%前後の高並列計算向けのシステムと計算効率50%前後の大型クラスターシステム(いまやブレードサーバーが多数派)の二つの層から成り立っています。
・勘定すると58%のシステムがLINPACK計算効率60%以下のシステム。その理由はLINPACKプログラムを利用システム向けにうまくチューニングできなかったというよりは、大型クラスターシステムのネットワークにギガビット・イーサーネットを使用するなど、コストや利用目的から高並列計算向けの十分な性能を満たしていないシステム構成になっているのが支配的なように見て取れます。
・すなわちプロセッサー数1,000を越える大型クラスターシステムでも、その半数以上はまだ並列計算を主体にした大型計算が行われていない、あるいはそのための良好なシステム環境が提供されていないというのがわかります。
話は変わりますが、二階層のInfiniBandネットワークの上に、X86アーキテクチャ(LS21ブレード)を、さらにその上にPowerアーキテクチャ(QS22ブレード)をつなげるという、いかにも無駄がありそうなRoadrunnerが75%もの効率を実現して1PetaFLOPSに到達したことは驚きです。いっぽうTACCのRangerがSun製の巨大なフル-CLOS InfiniBandスイッチを使用したにもかかわらず65%のLINPACK計算効率に留まったこともまた別の驚きでした。
・にもかかわらずLINPACKベンチマーク問題によるTOP500の性能向上の多くがシステムのプロセッサー数拡大によって実現されてきていることも事実です。もちろんこれはLINPACKベンチマーク問題の大きさをプロセッサー数の拡大に合わせて大きくすることで可能になっているのですが、実際のところはどうかと、先日発表のTOP500のデータから理論ピーク性能RPeakに対する実効最大性能RMaxの比:RMax/RpeakをLINPACK計算効率とし、プロセッサー数を横軸にプロットしてみました。

・確かに最高値を横に見ていくと、1,664プロセッサーのAltix4700の93%から始まって、プロセッサーが増えていくにつれ RMax/RPeakは減少し、最大の212,992プロセッサー Blue Gene/Lでは80.2%となります。このことから最大値についてはプロセッサーが多くなるにつれてシステムの計算効率が低くなっていく傾向が見てとれます。これはいわば最先端の技術的挑戦の領域を示していると言えます。
・それと並んで、あるいはそれ以上に目立つのがシステムによるLINPACK計算効率のばらつきの幅の大きさです。プロットをよく見ると、TOP500は、計算効率80%前後の高並列計算向けのシステムと計算効率50%前後の大型クラスターシステム(いまやブレードサーバーが多数派)の二つの層から成り立っています。
・勘定すると58%のシステムがLINPACK計算効率60%以下のシステム。その理由はLINPACKプログラムを利用システム向けにうまくチューニングできなかったというよりは、大型クラスターシステムのネットワークにギガビット・イーサーネットを使用するなど、コストや利用目的から高並列計算向けの十分な性能を満たしていないシステム構成になっているのが支配的なように見て取れます。
・すなわちプロセッサー数1,000を越える大型クラスターシステムでも、その半数以上はまだ並列計算を主体にした大型計算が行われていない、あるいはそのための良好なシステム環境が提供されていないというのがわかります。
話は変わりますが、二階層のInfiniBandネットワークの上に、X86アーキテクチャ(LS21ブレード)を、さらにその上にPowerアーキテクチャ(QS22ブレード)をつなげるという、いかにも無駄がありそうなRoadrunnerが75%もの効率を実現して1PetaFLOPSに到達したことは驚きです。いっぽうTACCのRangerがSun製の巨大なフル-CLOS InfiniBandスイッチを使用したにもかかわらず65%のLINPACK計算効率に留まったこともまた別の驚きでした。
2008年06月10日
●意外に早かった1ペタFLOPS越え
・さる先生から昨夜9時過ぎに届いた「ペタフロップス達成, おめでとうございます。」のメールから始まって、今日の日本IBM本社で開催されたCellソリューション・セミナーのIBM講師からの1ペタフロップス達成のニュース紹介、さらにはいろいろなWeb日本語ニュースなどでも紹介され、1ペタフロップス達成のニュースが、来週ドレスデンで開催されるISC'08でのTop500の恒例発表を待たずにかけめぐった一日でした。それだけHPC関係者にとって歴史的な記録達成だったわけです。
・IBMのプレス・リリースは1ペタフロップス達成を強調しないクールにまとめた内容でしたが、Los Alamos National Laboratoryは、LLNLのBlue Gene/Lに勝ったという世界最速宣言 "Roadrunner supercomputer fastest in world" を早々としていました。
・米国エネルギー省(DOE)のプレスリリース "U.S. Department of Energy’s New Supercomputer is Fastest in the World" を見ると "new Roadrunner supercomputer is the first to achieve a petaflop of sustained performance." とあり、LINPACKベンチマークで1 PFLOPSを越えたらしいということがわかります。
・ニュースソースが違うのかNew York Timesの記事にはなぜか "more than 1.026 quadrillion calculations per second." とDOEの発表にはなかった性能値が出ていました。
・いろいろ書きましたが、結論はと言うとメルマガのISC'08 Newsletter: special issue on RR@ISCの記事で、これによると5月末にRoadrunnerシステムがTop500にLINPACKベンチマークのピーク性能値1.026 petaflop/sをポストしたとあり、どうやら2008年6月版のTOP500の締切に間に合って、Top500の1位はRoadrunnerに約束されたように見えます。
・1GFLOPSを達成したのが22年前(1986)のCRAY2、その1,000倍の1TFLOPSを達成したのがそれから11年後のASCI Redだそうで、今年2008年にその1,000倍の1PFLOPSをRoadrunnerが達成したわけです。この延長線で2019年にさらに1,000倍の1ExaFLOPS達成となるかというと、ちょっと想像しにくいところです。
案外、当分の間は日本の次世代スーパーコンピューター・プロジェクトが目標にしている10PFLOPS台が飽和点になるのかもしれません。
となると車の両輪の片側になる、数値計算の高速アルゴリズムの研究開発がいっそう重要になってきます。
それにしてもRoadrunnerの1PFLOPS達成は意外に早かったな〜という印象です。
・IBMのプレス・リリースは1ペタフロップス達成を強調しないクールにまとめた内容でしたが、Los Alamos National Laboratoryは、LLNLのBlue Gene/Lに勝ったという世界最速宣言 "Roadrunner supercomputer fastest in world" を早々としていました。
・米国エネルギー省(DOE)のプレスリリース "U.S. Department of Energy’s New Supercomputer is Fastest in the World" を見ると "new Roadrunner supercomputer is the first to achieve a petaflop of sustained performance." とあり、LINPACKベンチマークで1 PFLOPSを越えたらしいということがわかります。
・ニュースソースが違うのかNew York Timesの記事にはなぜか "more than 1.026 quadrillion calculations per second." とDOEの発表にはなかった性能値が出ていました。
・いろいろ書きましたが、結論はと言うとメルマガのISC'08 Newsletter: special issue on RR@ISCの記事で、これによると5月末にRoadrunnerシステムがTop500にLINPACKベンチマークのピーク性能値1.026 petaflop/sをポストしたとあり、どうやら2008年6月版のTOP500の締切に間に合って、Top500の1位はRoadrunnerに約束されたように見えます。
・1GFLOPSを達成したのが22年前(1986)のCRAY2、その1,000倍の1TFLOPSを達成したのがそれから11年後のASCI Redだそうで、今年2008年にその1,000倍の1PFLOPSをRoadrunnerが達成したわけです。この延長線で2019年にさらに1,000倍の1ExaFLOPS達成となるかというと、ちょっと想像しにくいところです。
案外、当分の間は日本の次世代スーパーコンピューター・プロジェクトが目標にしている10PFLOPS台が飽和点になるのかもしれません。
となると車の両輪の片側になる、数値計算の高速アルゴリズムの研究開発がいっそう重要になってきます。
それにしてもRoadrunnerの1PFLOPS達成は意外に早かったな〜という印象です。
2008年05月18日
●1ペタFLOPSを超えるか-Roadrunnerのテストが間近
・理論ピーク性能1.3ペタFLOPSのRoadrunnerスーパーコンピューターが、IBMのポケプシー工場で組み立てをほぼ終わり、今月末からテストが始まるということが、先週IDGはじめいろいろなところから報道されています。
・いよいよ関心は、6月17日から始まるISC'08のTop500の発表で、ロスアラモス国立研究所(LANL)のRoadrunnerが、首位をキープし続けている宿敵(?)リバモア国立研究所(LLNL)のBlue Gene/Lを抜き去れるか、さらにはベンチマーク性能の歴史的なマイルストーンになる1ペタFLOPSに到達できるかどうかということになってきました。
・昨年のSC07のLANLのプレゼンテーションでは確か、今年8月には1ペタFLOPSを達成できると自信を持って話していたのでそのとおりに着実にコマを進めてきたと言えます。
・いまの時点で1ペタFLOPSのピーク性能を実現するためには、およそ次の3つの方法があって、それは
1. Opteron 13万プロセッサー・コアからなるシステム
2. IBM Blue Gene/Pで32万プロセッサー・コアのシステム
3. IBMのCellプロセッサーのSPE 8万個で加速するRoadrunnerのハイブリッド・システム、
ということですが、最後の3の方法が最初に1ペタFLOPSを達成する可能性が一段と高くなってきたようです。
・Roadrunnerに使用されているeDPと呼ばれていた新プロセッサーが先週IBMから発表されました。正式名称はIBM PowerXCell 8i、これはPowerPC* 8 SPEからきたネーミングなのでしょうか。
PowerXCell 8iを2個搭載したIBM QS22 ブレード・サーバーも同時に発表されました。
・IBMの発表によれば、倍精度浮動小数点演算がPowerXCell 8iでは以前のCell/B.E.の5倍も速くなり、QS22ブレード・サーバーのメモリーも最大32GBと大幅増となっています。
・QS22ブレード・サーバーがどのくらい速いかというと、ピーク性能で、
- QS22あたり 460GFLOPS(単精度)/217 GFLOPS (倍精度)
- BladeCenterシャシーあたり 6.4/3.0 TFLOPS (単精度/倍精度)
- 42Uラックあたり 25.8/12.18 TFLOPS (単精度/倍精度)
と、1ラックの性能でBlue Gene/Pの13.9 TFLOPSに迫る倍精度演算能力を持つことがわかります。これでいままで弱点と言われていた倍精度演算が主となるHPC用途についてもCell B.E.アーキテクチャの強さを利用できることになりました。
・ハイブリッド型クラスター・システムを使いこなすプログラミング等についての腕力がありさえすれば、今やだれでも小型のRoadrunnerを構築・活用できる条件ができたことになります。使いやすく安定した高性能システムと言われているBlue Geneに加え、ハイブリッドのRoadrunnerタイプと、スーパーコンピューターの選択肢がさらに増えたわけです。
どこを切っても同じ金太郎飴というのが昔ありましたが、すぐ飽きてしまった記憶があります。LLNLのBG/LやLANLのRRの動きを見ていると、金太郎飴とは対極の、他と積極的に違いを創り何が何でも成功させて優位さを示そうとする研究者・開発者達の勢いと執念というのをひしひし感じますね。
・いよいよ関心は、6月17日から始まるISC'08のTop500の発表で、ロスアラモス国立研究所(LANL)のRoadrunnerが、首位をキープし続けている宿敵(?)リバモア国立研究所(LLNL)のBlue Gene/Lを抜き去れるか、さらにはベンチマーク性能の歴史的なマイルストーンになる1ペタFLOPSに到達できるかどうかということになってきました。
・昨年のSC07のLANLのプレゼンテーションでは確か、今年8月には1ペタFLOPSを達成できると自信を持って話していたのでそのとおりに着実にコマを進めてきたと言えます。
・いまの時点で1ペタFLOPSのピーク性能を実現するためには、およそ次の3つの方法があって、それは
1. Opteron 13万プロセッサー・コアからなるシステム
2. IBM Blue Gene/Pで32万プロセッサー・コアのシステム
3. IBMのCellプロセッサーのSPE 8万個で加速するRoadrunnerのハイブリッド・システム、
ということですが、最後の3の方法が最初に1ペタFLOPSを達成する可能性が一段と高くなってきたようです。
・Roadrunnerに使用されているeDPと呼ばれていた新プロセッサーが先週IBMから発表されました。正式名称はIBM PowerXCell 8i、これはPowerPC* 8 SPEからきたネーミングなのでしょうか。
PowerXCell 8iを2個搭載したIBM QS22 ブレード・サーバーも同時に発表されました。
・IBMの発表によれば、倍精度浮動小数点演算がPowerXCell 8iでは以前のCell/B.E.の5倍も速くなり、QS22ブレード・サーバーのメモリーも最大32GBと大幅増となっています。
・QS22ブレード・サーバーがどのくらい速いかというと、ピーク性能で、
- QS22あたり 460GFLOPS(単精度)/217 GFLOPS (倍精度)
- BladeCenterシャシーあたり 6.4/3.0 TFLOPS (単精度/倍精度)
- 42Uラックあたり 25.8/12.18 TFLOPS (単精度/倍精度)
と、1ラックの性能でBlue Gene/Pの13.9 TFLOPSに迫る倍精度演算能力を持つことがわかります。これでいままで弱点と言われていた倍精度演算が主となるHPC用途についてもCell B.E.アーキテクチャの強さを利用できることになりました。
・ハイブリッド型クラスター・システムを使いこなすプログラミング等についての腕力がありさえすれば、今やだれでも小型のRoadrunnerを構築・活用できる条件ができたことになります。使いやすく安定した高性能システムと言われているBlue Geneに加え、ハイブリッドのRoadrunnerタイプと、スーパーコンピューターの選択肢がさらに増えたわけです。
どこを切っても同じ金太郎飴というのが昔ありましたが、すぐ飽きてしまった記憶があります。LLNLのBG/LやLANLのRRの動きを見ていると、金太郎飴とは対極の、他と積極的に違いを創り何が何でも成功させて優位さを示そうとする研究者・開発者達の勢いと執念というのをひしひし感じますね。
2008年04月27日
●CO2排出量削減の足を引っ張るHPCコンピューティングセンター?
・「伊藤洋一のビジネス・トレンド」というPodcastを毎週電車の中で聞いていますが、第134回 (4/21/'08)で面白い解説をしていました。
・伊藤洋一さんによると、例えばITで紙を減らせると言ったようにITは環境問題を助けてくれるというイメージを抱いていたが、実はものすごく電力食いで、CO2排出量に影響を与えるものである。
・現在国内電力消費の増加は工場ではなく、家庭、Office、店舗で起こっていて、PC、サーバー、ネットワーク機器といったITによる電力消費量によるものである。2006年に国内電力消費量の5%を占め(CO2排出換算で2800万トン。乗用車800万台相当とか)、これが2025年にはITの電力消費は全電力消費の20%になる。つまり2006年に約500億KW、2025年には約2,000億KWというのがITによる電力消費量。
・京都議定書では日本は2008年-2012年の5年間の平均で基準年の1990年の6%のCO2排出の削減が目標になっているので、ITの電力消費増加によっては京都議定書の目標すら達成できなくなるというような解説でした。これからはいろいろな場でITの電力消費の課題が取り上げられていきそうな雲行きです。
・電力消費の点から優れているのはPCならノートPC、サーバーでは旧製品よりは低電力消費を積極的に設計に取り入れている新製品ですが、これからはネットワーク機器やストレージはもとより、コンピューター・センター全体についても乾いたゾーキンを絞るように工場並みに緻密で徹底したエネルギー管理が要求されていくことになるのではないでしょうか。
・こうした社会ニーズに対応して、4月23日に米国IBMが発表したインターネット-スケール・データ・センター向けの新システム IBM System x iDataPlexはサーバーからデータ・センターまでの課題に対する解の一つと言えるでしょう。
・iDataPlexについての詳しい仕様などはこれから発表されていくと思われますが、電力大食いのWeb 2.0向けデータセンター市場とHPCのコンピューター・センター市場の二つをターゲットにしているようです。どちらもこれからのクラウド・コンピューティングに密接に関係しているところです。
・iDataPlexの特徴を見ると、1Uサーバーと比較して最大40%の電力を節約でき(計算上)、ラックの水冷リアドア熱交換機(IBM Rear Door Heat eXchanger)を使うと空調による冷却不要、床面積当たり最大5倍の計算能力を詰め込むことができる等とあります。iDataPlexは受注生産によるソリューションで、受注内容毎に工場でまとめ上げられ、プラグをさせば働く状態で出荷されるようです。HPCのコンピューター・センター市場でのiDataPlexについては英文ブローシャで紹介されています。
個人的には、ついせんだってわが家のCO2排出量を大きく減らしました。家庭の都合で二台必要としていたハイオク・ガソリン車を、その必要性が薄くなったこともあってエイヤッとトヨタ プリウス1台に統合。長年のドイツ車ユーザーからの転向でしたが、試しに乗ってみたら違和感をさほど感じなかったのが最大の理由。一週間経ってもまだ燃料計がフル・スケールのままというのはなんと言ってもよい気分です。
・伊藤洋一さんによると、例えばITで紙を減らせると言ったようにITは環境問題を助けてくれるというイメージを抱いていたが、実はものすごく電力食いで、CO2排出量に影響を与えるものである。
・現在国内電力消費の増加は工場ではなく、家庭、Office、店舗で起こっていて、PC、サーバー、ネットワーク機器といったITによる電力消費量によるものである。2006年に国内電力消費量の5%を占め(CO2排出換算で2800万トン。乗用車800万台相当とか)、これが2025年にはITの電力消費は全電力消費の20%になる。つまり2006年に約500億KW、2025年には約2,000億KWというのがITによる電力消費量。
・京都議定書では日本は2008年-2012年の5年間の平均で基準年の1990年の6%のCO2排出の削減が目標になっているので、ITの電力消費増加によっては京都議定書の目標すら達成できなくなるというような解説でした。これからはいろいろな場でITの電力消費の課題が取り上げられていきそうな雲行きです。
・電力消費の点から優れているのはPCならノートPC、サーバーでは旧製品よりは低電力消費を積極的に設計に取り入れている新製品ですが、これからはネットワーク機器やストレージはもとより、コンピューター・センター全体についても乾いたゾーキンを絞るように工場並みに緻密で徹底したエネルギー管理が要求されていくことになるのではないでしょうか。
・こうした社会ニーズに対応して、4月23日に米国IBMが発表したインターネット-スケール・データ・センター向けの新システム IBM System x iDataPlexはサーバーからデータ・センターまでの課題に対する解の一つと言えるでしょう。
・iDataPlexについての詳しい仕様などはこれから発表されていくと思われますが、電力大食いのWeb 2.0向けデータセンター市場とHPCのコンピューター・センター市場の二つをターゲットにしているようです。どちらもこれからのクラウド・コンピューティングに密接に関係しているところです。
・iDataPlexの特徴を見ると、1Uサーバーと比較して最大40%の電力を節約でき(計算上)、ラックの水冷リアドア熱交換機(IBM Rear Door Heat eXchanger)を使うと空調による冷却不要、床面積当たり最大5倍の計算能力を詰め込むことができる等とあります。iDataPlexは受注生産によるソリューションで、受注内容毎に工場でまとめ上げられ、プラグをさせば働く状態で出荷されるようです。HPCのコンピューター・センター市場でのiDataPlexについては英文ブローシャで紹介されています。
個人的には、ついせんだってわが家のCO2排出量を大きく減らしました。家庭の都合で二台必要としていたハイオク・ガソリン車を、その必要性が薄くなったこともあってエイヤッとトヨタ プリウス1台に統合。長年のドイツ車ユーザーからの転向でしたが、試しに乗ってみたら違和感をさほど感じなかったのが最大の理由。一週間経ってもまだ燃料計がフル・スケールのままというのはなんと言ってもよい気分です。
2008年04月22日
● Cellスピードチャレンジ 2008の審査結果
・Cellスピードチャレンジ実行委員会から、Cellスピードチャレンジ 2008の審査結果がホームページで公開されています。
・このコンテストは規定課題部門(課題が「連立一次方程式の求解」)と、自由課題部門とに分かれていて、規定課題は学生のみの参加ですが、自由課題の方は学生以外も参加できるとしています。
・それぞれ上位3チームが入賞していますが、東京工業大学小長谷研究室が規定課題で第1位、自由課題で第2位と、完全優勝は逸したもののすばらしい成績です。
・3月に小長谷先生と、さる会合で雑談をしていたときにCell/B.E.のLINPACK性能はすごいとしきりに強調されていましたが、このことだったようです。
・規定の「連立一次方程式の求解」の得点は、実行時間に応じて加点する方法が用いられ、全チームの得点が公表されています。
規定課題部門の上位入賞チームは、
第1位 92 点 東京工業大学小長谷研究室
第2位 48 点 TenForks
第3位 43 点 redb
と、1位の小長谷研究室の得点が2位のTenForksの得点と大差です。これはおそらくCell/B.E.がプログラミングによって大きな性能を引き出せるということを示していて、たいへん工夫(苦労)しがいのあるプロセッサーと言えます。そうした点では、ベクトル・プロセッサーが世の中に出始めた頃といくぶん似ている状況なのかもしれません。
・自由課題部門の上位入賞は
第1位:チーム Mitochondria
「Cell Broadband Engine に対する重力多体問題計算の最適化」
第2位:チーム 東京工業大学小長谷研究室
「Cell BE プログラムの最適化手法の提案」
第3位:チーム itotlabo
「Cell を用いたクラスタシステムによる計算機合成ホログラムの高速化」
となっています。
・IBMのCell/B.E.のロードマップでは、倍精度浮動小数点演算の性能が大幅に向上する計画になっているので、これからが大変楽しみなプロセッサーと言えます。
・このコンテストは規定課題部門(課題が「連立一次方程式の求解」)と、自由課題部門とに分かれていて、規定課題は学生のみの参加ですが、自由課題の方は学生以外も参加できるとしています。
・それぞれ上位3チームが入賞していますが、東京工業大学小長谷研究室が規定課題で第1位、自由課題で第2位と、完全優勝は逸したもののすばらしい成績です。
・3月に小長谷先生と、さる会合で雑談をしていたときにCell/B.E.のLINPACK性能はすごいとしきりに強調されていましたが、このことだったようです。
・規定の「連立一次方程式の求解」の得点は、実行時間に応じて加点する方法が用いられ、全チームの得点が公表されています。
規定課題部門の上位入賞チームは、
第1位 92 点 東京工業大学小長谷研究室
第2位 48 点 TenForks
第3位 43 点 redb
と、1位の小長谷研究室の得点が2位のTenForksの得点と大差です。これはおそらくCell/B.E.がプログラミングによって大きな性能を引き出せるということを示していて、たいへん工夫(苦労)しがいのあるプロセッサーと言えます。そうした点では、ベクトル・プロセッサーが世の中に出始めた頃といくぶん似ている状況なのかもしれません。
・自由課題部門の上位入賞は
第1位:チーム Mitochondria
「Cell Broadband Engine に対する重力多体問題計算の最適化」
第2位:チーム 東京工業大学小長谷研究室
「Cell BE プログラムの最適化手法の提案」
第3位:チーム itotlabo
「Cell を用いたクラスタシステムによる計算機合成ホログラムの高速化」
となっています。
・IBMのCell/B.E.のロードマップでは、倍精度浮動小数点演算の性能が大幅に向上する計画になっているので、これからが大変楽しみなプロセッサーと言えます。
2008年04月14日
●5.0GHzに達したPOWER6プロセッサーと水冷クラスター・スパコン Power 575
・先週IBMが発表し、5月上旬(米国)に出荷されるIBM Power SystemsのハイエンドSMPサーバー Power 595には5.0GHzのPOWER6プロセッサーが64コア搭載されます。
・昨年から出荷されている IBM System p 570改めIBM Power 570では、4.7GHzのPOWER6だったので、POWER6のクロックは着実に上がっている印象です。
・POWER6はコア当たり1クロックで4個の浮動小数点演算を行なうので、5GHzの場合の1コアの理論ピーク性能は4 FLO*5GHz =20GFLOPSとなります(FLO:Floating point Operation、FLOPS: Floating point Operations Per Second)。
・64コアのIBM Power 595の場合の理論ピーク性能は、64*20 GFLOPS (1,280 GFLOPS)となります。IBMが発表しているLINPACK HPC性能(April 8, 2008)を見ると1,028 GFLOPSと、1 TFLOPSを超えました。ついに1ラック 1 TFLOPSのSMPサーバーの時代になったわけです。
・1ラック当たりのHPC性能で言えば、「水冷クラスター・スーパーコンピューター」として同時に発表されたIBM Power 575が圧倒的です。これは昨年の11月にSC07で展示されていたシステム(写真)ですが、きちんと約5ヶ月後に製品として発表されたわけです。
・水冷クラスター Power 575に積むPOWER6は4.7GHzのプロセッサーですが、これを2Uのユニットに32コア詰め込んでいます。これだけで理論ピーク性能は 4FLO*4.7GHz*32コアの601.6 GFLOPS、LINPACK HPC性能が466.9 GFLOPSとなりますが、1ラックには14ユニット入るので、1ラックの理論ピーク性能は14*601.6 GFLOPS (8.4 TFLOPS)となります。水冷に回帰したというのは冷却効率からやむを得ないという面もあるでしょうが、HPCでますます無視できなくなってきたグリーン・テクノロジー(省エネ)を促進するという積極的な一面もうかがわれます。
・ちなみにやはり先週おこなわれた日立「SR16000」スーパーコンピューターの発表では、4.7GHzのPOWER6を積む水冷モデル「L2」に加えて、3.5GHzのPOWER6による空冷モデル「L1」を提供するとしています(共に16プロセッサー/ノード(最初16コアと書いたのは誤りでした。私の大ポカで、正しくは16プロセッサー=32コアです。(訂正:4月22日))。これが水冷と空冷の冷却能力の差かもしれません。
・ラック当たりの理論ピーク性能で水冷クラスター Power 575の上となると、13.9 TFLOPS/ラックのIBM Blue Gene/Pになります。72ラックで1 PetaFLOPSの理論ピーク性能というのがBlue Gene/Pです。こちらはゆうゆう空冷です。
・ここでHPCでは忘れてならないベクトル・プロセッサー、たとえば最新のNEC SX-9と比較してみます。SX-9ではベクトルユニットのパイプライン部は3.2GHzで動作し、プロセッサーあたり102.4GFLOPSのピーク性能となっています。POWER6(5GHz)のコア当たり20.0GFLOPSという性能ですらいかにも小さく見えてしまいます。
・しかし、102.4GFLOPSの性能というのはプロセッサー内の8個のベクトルユニットの合計値なので、1ベクトルユニットあたりの性能12.8 GFLOPSというのがアーキテクチャの基本性能(1コアの性能)に相当すると言えなくもありません。そうすると12.8 GFLOPS(SX-9) 対 20.0GFLOPS(595)です。またラック当たりの性能で見ると水冷クラスター Power 575の8.4 TFLOPSに対して、SX-9のシングル・ノード システムは1.6TFLOPSですから、5倍以上の違いになります。
・ベクトル・レジスターとキャシュの性能差、メモリー・バンド幅の差ということがよく言われますが、このようにスカラー・プロセッサー・システムの演算性能の上昇傾向が続きベクトル・プロセッサーというアーキテクチャの優位性はさらに影が薄くなってきた感じです。ベクトル・プロセッサーによる大ヒットが、例えば次世代スーパーコンピューター・プロジェクトで可能かどうかも興味深いところです。
・昨年から出荷されている IBM System p 570改めIBM Power 570では、4.7GHzのPOWER6だったので、POWER6のクロックは着実に上がっている印象です。
・POWER6はコア当たり1クロックで4個の浮動小数点演算を行なうので、5GHzの場合の1コアの理論ピーク性能は4 FLO*5GHz =20GFLOPSとなります(FLO:Floating point Operation、FLOPS: Floating point Operations Per Second)。
・64コアのIBM Power 595の場合の理論ピーク性能は、64*20 GFLOPS (1,280 GFLOPS)となります。IBMが発表しているLINPACK HPC性能(April 8, 2008)を見ると1,028 GFLOPSと、1 TFLOPSを超えました。ついに1ラック 1 TFLOPSのSMPサーバーの時代になったわけです。
・1ラック当たりのHPC性能で言えば、「水冷クラスター・スーパーコンピューター」として同時に発表されたIBM Power 575が圧倒的です。これは昨年の11月にSC07で展示されていたシステム(写真)ですが、きちんと約5ヶ月後に製品として発表されたわけです。・水冷クラスター Power 575に積むPOWER6は4.7GHzのプロセッサーですが、これを2Uのユニットに32コア詰め込んでいます。これだけで理論ピーク性能は 4FLO*4.7GHz*32コアの601.6 GFLOPS、LINPACK HPC性能が466.9 GFLOPSとなりますが、1ラックには14ユニット入るので、1ラックの理論ピーク性能は14*601.6 GFLOPS (8.4 TFLOPS)となります。水冷に回帰したというのは冷却効率からやむを得ないという面もあるでしょうが、HPCでますます無視できなくなってきたグリーン・テクノロジー(省エネ)を促進するという積極的な一面もうかがわれます。
・ちなみにやはり先週おこなわれた日立「SR16000」スーパーコンピューターの発表では、4.7GHzのPOWER6を積む水冷モデル「L2」に加えて、3.5GHzのPOWER6による空冷モデル「L1」を提供するとしています(共に16プロセッサー/ノード(最初16コアと書いたのは誤りでした。私の大ポカで、正しくは16プロセッサー=32コアです。(訂正:4月22日))。これが水冷と空冷の冷却能力の差かもしれません。
・ラック当たりの理論ピーク性能で水冷クラスター Power 575の上となると、13.9 TFLOPS/ラックのIBM Blue Gene/Pになります。72ラックで1 PetaFLOPSの理論ピーク性能というのがBlue Gene/Pです。こちらはゆうゆう空冷です。
・ここでHPCでは忘れてならないベクトル・プロセッサー、たとえば最新のNEC SX-9と比較してみます。SX-9ではベクトルユニットのパイプライン部は3.2GHzで動作し、プロセッサーあたり102.4GFLOPSのピーク性能となっています。POWER6(5GHz)のコア当たり20.0GFLOPSという性能ですらいかにも小さく見えてしまいます。
・しかし、102.4GFLOPSの性能というのはプロセッサー内の8個のベクトルユニットの合計値なので、1ベクトルユニットあたりの性能12.8 GFLOPSというのがアーキテクチャの基本性能(1コアの性能)に相当すると言えなくもありません。そうすると12.8 GFLOPS(SX-9) 対 20.0GFLOPS(595)です。またラック当たりの性能で見ると水冷クラスター Power 575の8.4 TFLOPSに対して、SX-9のシングル・ノード システムは1.6TFLOPSですから、5倍以上の違いになります。
・ベクトル・レジスターとキャシュの性能差、メモリー・バンド幅の差ということがよく言われますが、このようにスカラー・プロセッサー・システムの演算性能の上昇傾向が続きベクトル・プロセッサーというアーキテクチャの優位性はさらに影が薄くなってきた感じです。ベクトル・プロセッサーによる大ヒットが、例えば次世代スーパーコンピューター・プロジェクトで可能かどうかも興味深いところです。
2008年04月06日
●クラウド・コンピューティングとHPC
去年の秋からクラウド・コンピューティングという雲が世界のあちこちから湧き上がっています。IBMがクラウド・コンピューティングに積極的なせいかもしれません。
・さしずめ紅雲は中国最初の無錫(Wuxi)のクラウド・コンピューティング・センター設立 (今年2月1日発表)、エメラルド雲がアイルランドのダブリンにヨーロッパのクラウド・コンピューティング拠点設立 (今年3月19日発表)、白雲がベトナムの科学技術省(MoST)とのパイロット・プログラム(昨年の11月13日発表)といったところでしょうか。
・最近ではアメリカのジョージア工科大とオハイオ大とIBMとで、Critical Enterprise Cloud Computing Services (CECCS) を設立する(今年3月26日発表)など、今後もさらに続きそうです。
・そのさきがけが青雲(藍色雲?)のIBMのBlue Cloudイニシャティブの発表でした(昨年の11月15日)。
・青雲の志というと英語でアンビシャスになりますが、そういう意気込みがこれには感じられます。Blue Cloudイニシャティブの発表によれば、IBMアルマデン研究所のクラウド・インフラストラクチャ -- Xen、PowerVM Virtualized Linux OS image、Hadoop Parallel Workload schedulingが含まれる予定 -- がベースになり、それにIBM Tivoliがサポートされるとなっています。Web 2.0のアプリケーションを開発できる環境が短期にできあがり、スケールアウトしているインフラの複雑な管理とコスト増を削減する助けになるものだと言っています。
・それに先だって昨年10月8日に、GoogleとIBMがワシントン大学を舞台に協力するAcademic Cluster Computing Initiativeの発表はまだ記憶に新しいものです。ユーチューブにあるAcademic Cluster Computing Initiativeの内容を見ると、ワシントン大学の卒業生でGoogleのシニア・ソフトウェア・エンジニアのクリストフ・ビシグリア(まだ20代か)がワシントン大学の学生にインタビューしたところ、数千台規模のクラスターと数テラバイトのディスクへとスケール・アウトしつつある最新のシステムがもたらすものに対して非常に優秀な学生ですらきちんとしたイメージがつかめていない。そこでオープンソースの技術を使用して並列プログラムのソフトウェア開発をするためには何を準備すべきか考えたというようなことを話していました。
・これを見ると、このプロジェクトに関心を抱いたIBMがBladeCenterなどのサーバーを大量に提供するなどして一肌脱いだというのがもともとの話のようです。大発表も初めはGoogleの一社員のこんな活動から始まったというのは、なかなかまねができないところかもしれません。
・星雲のシミュレーションをしている学生などがインタビューを受けていますが、これがとても生き生きしています。クリストフも全米の大学生がこのワシントン大学のクラウド・コンピューティング環境にアクセスするようになることが目標と抱負を語っているのがまたいいです。
・クラウド・コンピューティングの概念についてはいろいろ紹介されているのでそちらを見ていただくとして、Blue Cloudの発表等からHPC風に言い換えると、IBMでの起源は超並列コンピューターのIBM SP1やチェスのDeep Blue、Blue Geneスーパーコンピューター、メインフレームのSysplexテクノロジー、そしてGrid Computingの経験と実績に裏打ちされ超並列計算プログラム開発や実行、資源の管理を簡単にできるようにするインフラ環境を提供することにあるとも言えます。
・したがってワシントン大学やジョージア工科大の例のようにHPC分野が大学・研究機関向けクラウド・コンピューティングの対象分野になるのは自然なことでしょう。
・中小規模のデータセンターから大学の大規模計算センター、さらにはGoogleなどの超大型データセンターまで、動的にコンピューター資源を割り当てる仮想化技術が進み、インターネットからユーザーが必要なサービスを必要なだけアクセスできるクラウド・コンピューティング環境へ今の環境が置き換わっていくのはあんがい早い気がします。
・加えてこれがエネルギー消費を減らすグリーン・テクノロジー・モデルに該当するという重要さもあります。
・日本からも早く梅雲が湧き起こらないと、これからもHPC分野のソフトウェア開発面で差をつけられそうですが、どうなんでしょうか。
・さしずめ紅雲は中国最初の無錫(Wuxi)のクラウド・コンピューティング・センター設立 (今年2月1日発表)、エメラルド雲がアイルランドのダブリンにヨーロッパのクラウド・コンピューティング拠点設立 (今年3月19日発表)、白雲がベトナムの科学技術省(MoST)とのパイロット・プログラム(昨年の11月13日発表)といったところでしょうか。
・最近ではアメリカのジョージア工科大とオハイオ大とIBMとで、Critical Enterprise Cloud Computing Services (CECCS) を設立する(今年3月26日発表)など、今後もさらに続きそうです。
・そのさきがけが青雲(藍色雲?)のIBMのBlue Cloudイニシャティブの発表でした(昨年の11月15日)。
・青雲の志というと英語でアンビシャスになりますが、そういう意気込みがこれには感じられます。Blue Cloudイニシャティブの発表によれば、IBMアルマデン研究所のクラウド・インフラストラクチャ -- Xen、PowerVM Virtualized Linux OS image、Hadoop Parallel Workload schedulingが含まれる予定 -- がベースになり、それにIBM Tivoliがサポートされるとなっています。Web 2.0のアプリケーションを開発できる環境が短期にできあがり、スケールアウトしているインフラの複雑な管理とコスト増を削減する助けになるものだと言っています。
・それに先だって昨年10月8日に、GoogleとIBMがワシントン大学を舞台に協力するAcademic Cluster Computing Initiativeの発表はまだ記憶に新しいものです。ユーチューブにあるAcademic Cluster Computing Initiativeの内容を見ると、ワシントン大学の卒業生でGoogleのシニア・ソフトウェア・エンジニアのクリストフ・ビシグリア(まだ20代か)がワシントン大学の学生にインタビューしたところ、数千台規模のクラスターと数テラバイトのディスクへとスケール・アウトしつつある最新のシステムがもたらすものに対して非常に優秀な学生ですらきちんとしたイメージがつかめていない。そこでオープンソースの技術を使用して並列プログラムのソフトウェア開発をするためには何を準備すべきか考えたというようなことを話していました。
・これを見ると、このプロジェクトに関心を抱いたIBMがBladeCenterなどのサーバーを大量に提供するなどして一肌脱いだというのがもともとの話のようです。大発表も初めはGoogleの一社員のこんな活動から始まったというのは、なかなかまねができないところかもしれません。
・星雲のシミュレーションをしている学生などがインタビューを受けていますが、これがとても生き生きしています。クリストフも全米の大学生がこのワシントン大学のクラウド・コンピューティング環境にアクセスするようになることが目標と抱負を語っているのがまたいいです。
・クラウド・コンピューティングの概念についてはいろいろ紹介されているのでそちらを見ていただくとして、Blue Cloudの発表等からHPC風に言い換えると、IBMでの起源は超並列コンピューターのIBM SP1やチェスのDeep Blue、Blue Geneスーパーコンピューター、メインフレームのSysplexテクノロジー、そしてGrid Computingの経験と実績に裏打ちされ超並列計算プログラム開発や実行、資源の管理を簡単にできるようにするインフラ環境を提供することにあるとも言えます。
・したがってワシントン大学やジョージア工科大の例のようにHPC分野が大学・研究機関向けクラウド・コンピューティングの対象分野になるのは自然なことでしょう。
・中小規模のデータセンターから大学の大規模計算センター、さらにはGoogleなどの超大型データセンターまで、動的にコンピューター資源を割り当てる仮想化技術が進み、インターネットからユーザーが必要なサービスを必要なだけアクセスできるクラウド・コンピューティング環境へ今の環境が置き換わっていくのはあんがい早い気がします。
・加えてこれがエネルギー消費を減らすグリーン・テクノロジー・モデルに該当するという重要さもあります。
・日本からも早く梅雲が湧き起こらないと、これからもHPC分野のソフトウェア開発面で差をつけられそうですが、どうなんでしょうか。
2008年03月24日
●HPCの教育
・「スパコン使いこなせ 神大が研究者養成講座」という神戸新聞の記事によると神戸大の「第一回シミュレーション・スクール」が3月17日から5日間の合宿形式でおこなわれ、神戸大のほか愛媛大、金沢大、九州大の院生計約60人が参加したそうです。
・詳しい中味はわかりませんが合宿形式とあるので相当ハードな内容で、参加者には大きな刺激になったと思います。参加者のレベルも様々で、主催者側も苦労されたと想像できますが、有意義な試みだと思います。
・日本のHPCの将来がこのところ心もとなく感じるようになってきた(?)こともあって、2/28に開催された多圏地球COEの「HPC教育に関するワークショップ」に出席したばかりですが、これは最近のHPC教育の試みについて知るよい機会になりました。
・このワークショップは、東京大学大学院理学系研究科地球惑星科学専攻において,2003年度から開始された 「多圏地球COE」の中で、特に2004年度から開講した「並列プログラミング」など先端的な計算機環境利用のためのHPC(High-Performance Computing)教育に関するものです。
・3月末で終了するCOEですが、ここでのHPC教育はこれまでに無いチャレンジングな試みとして広く注目を集めるとともに,大きな効果をあげてきたと先のホームページで紹介されています。
。ワークショップでは、中島研吾先生(東大・理・地球惑星)が まとめと課題と題して「並列計算プログラミング」,「先端計算機演習」について、古村孝志先生(東大・地震研)が「先端計算地球科学」についてそれぞれフランクでわかりやすく話されていました。
・D1の院生をターゲットにしたせいか講義も充実した内容で、このHPC教育にどれだけ力をかけて高いレベルを維持してきたのか、努力のあとがうかがわれます。
・カリキュラム内容を狭い範囲に限定せず、中島先生が強調するSMASH(Science, Modeling, Algorithm, Software, Hardware)をカバーすることを念頭に、アプリケーション中心という方針のもと優れたソース・コードを読む能力を身につけさせることにも重点を置くなど、より実践的かつ幅広い視野に立った丁寧な教育がうかがわれて、いろいろと共感できる内容でした。
・講義のボリュームが多すぎたかもしれないとか、はじめの予想に比べて講義の受講者数が少なかった、ターゲットのD1よりM1の院生が多かったためレベル設定がしにくかった等々運営面で難しい点もあったようです。
・そうはいっても、受講者の大石さん(受講時にD3)と松村さん(D3)のHPC分野の研究発表については、招待講演者のMarques氏(LBNL)も感心していたので、少なくとも少数の受講生は確実に高いレベルに達していたと思います。
・COEのHPC教育のカリキュラム内容が充実していただけに、e-ラーニングなどを利用して全国的な規模で講義や実習が出来たらいいなと思いましたが、冒頭の神戸の例を見ても、縦割りプロジェクトが普通という現状では、一朝一夕にはできないのでしょう。
上の例は大学の若手研究者(または研究者候補)を対象にしたHPC教育のアプローチですが、アプローチの両極としては
A) HPCを基礎から時間をかけてたたき込んでいくアプローチと
B) HPCのおもしろさや有用さを短期間に感じとらせ、後は本人やグループの努力にまかせるアプローチ、のふたつの方法が考えられます。「多圏地球COE」のカリキュラムは1)に近く、「シミュレーション・スクール」はもっと2)に近いように見えます。
・ 私個人のコンピュータ教育を受けた経験 ― (1) 院生時代には実験三昧、大型計算機センターにはほとんど近づかなかった。(2) それが日本IBMの新入社員教育でアセンブラー中心に連続16ヶ月ほど(技術教育だけではないが約3,000時間)詰込み教育に曝された。(3) その後On the Job Trainingと称する実務経験で先輩の指導を1-2年受けて、いちおう専門家の卵としての業務をすることを許された― から言えば、A)を最初におこない、その後でB)に入るのが自然な流れに思えます。ただこれは専門家育成を目的とする教育ですから、大学にはもっと柔軟な形があってもいいとは思います。
・HPCでよく言われる課題のひとつに、PCやワークステーション、あるいは小型SMPサーバーを使用したシミュレーションで満足している大多数のユーザー層のボトムアップ (HPCのスキルと使用システムの両面で)というのがあります。ただ、画一的なボトムアップの必要性は小さいのではないでしょうか。
・いまスーパーコンピューターを対象に、大学や研究機関でのHPCの活性化と成果を拡大することを重視するのであれば、まず研究者が自分の研究にHPCを応用できる可能性を発見できるようなHPC教育を行ない、次にはそうした中から実際にHPCに取り組む活動的な研究者が並列プログラミング、チューニングといった具体的なインプリメンテーションへと進めるように、SMASH全体について総合的に指導・支援できる、層の厚いプロフェッショナル(研究者レベル)が控えているというような、大学や研究機関を横断して存在するバーチュアルなHPC教育・指導システムが今の時代に合致していると思います。
・詳しい中味はわかりませんが合宿形式とあるので相当ハードな内容で、参加者には大きな刺激になったと思います。参加者のレベルも様々で、主催者側も苦労されたと想像できますが、有意義な試みだと思います。
・日本のHPCの将来がこのところ心もとなく感じるようになってきた(?)こともあって、2/28に開催された多圏地球COEの「HPC教育に関するワークショップ」に出席したばかりですが、これは最近のHPC教育の試みについて知るよい機会になりました。
・このワークショップは、東京大学大学院理学系研究科地球惑星科学専攻において,2003年度から開始された 「多圏地球COE」の中で、特に2004年度から開講した「並列プログラミング」など先端的な計算機環境利用のためのHPC(High-Performance Computing)教育に関するものです。
・3月末で終了するCOEですが、ここでのHPC教育はこれまでに無いチャレンジングな試みとして広く注目を集めるとともに,大きな効果をあげてきたと先のホームページで紹介されています。
。ワークショップでは、中島研吾先生(東大・理・地球惑星)が まとめと課題と題して「並列計算プログラミング」,「先端計算機演習」について、古村孝志先生(東大・地震研)が「先端計算地球科学」についてそれぞれフランクでわかりやすく話されていました。
・D1の院生をターゲットにしたせいか講義も充実した内容で、このHPC教育にどれだけ力をかけて高いレベルを維持してきたのか、努力のあとがうかがわれます。
・カリキュラム内容を狭い範囲に限定せず、中島先生が強調するSMASH(Science, Modeling, Algorithm, Software, Hardware)をカバーすることを念頭に、アプリケーション中心という方針のもと優れたソース・コードを読む能力を身につけさせることにも重点を置くなど、より実践的かつ幅広い視野に立った丁寧な教育がうかがわれて、いろいろと共感できる内容でした。
・講義のボリュームが多すぎたかもしれないとか、はじめの予想に比べて講義の受講者数が少なかった、ターゲットのD1よりM1の院生が多かったためレベル設定がしにくかった等々運営面で難しい点もあったようです。
・そうはいっても、受講者の大石さん(受講時にD3)と松村さん(D3)のHPC分野の研究発表については、招待講演者のMarques氏(LBNL)も感心していたので、少なくとも少数の受講生は確実に高いレベルに達していたと思います。
・COEのHPC教育のカリキュラム内容が充実していただけに、e-ラーニングなどを利用して全国的な規模で講義や実習が出来たらいいなと思いましたが、冒頭の神戸の例を見ても、縦割りプロジェクトが普通という現状では、一朝一夕にはできないのでしょう。
上の例は大学の若手研究者(または研究者候補)を対象にしたHPC教育のアプローチですが、アプローチの両極としては
A) HPCを基礎から時間をかけてたたき込んでいくアプローチと
B) HPCのおもしろさや有用さを短期間に感じとらせ、後は本人やグループの努力にまかせるアプローチ、のふたつの方法が考えられます。「多圏地球COE」のカリキュラムは1)に近く、「シミュレーション・スクール」はもっと2)に近いように見えます。
・ 私個人のコンピュータ教育を受けた経験 ― (1) 院生時代には実験三昧、大型計算機センターにはほとんど近づかなかった。(2) それが日本IBMの新入社員教育でアセンブラー中心に連続16ヶ月ほど(技術教育だけではないが約3,000時間)詰込み教育に曝された。(3) その後On the Job Trainingと称する実務経験で先輩の指導を1-2年受けて、いちおう専門家の卵としての業務をすることを許された― から言えば、A)を最初におこない、その後でB)に入るのが自然な流れに思えます。ただこれは専門家育成を目的とする教育ですから、大学にはもっと柔軟な形があってもいいとは思います。
・HPCでよく言われる課題のひとつに、PCやワークステーション、あるいは小型SMPサーバーを使用したシミュレーションで満足している大多数のユーザー層のボトムアップ (HPCのスキルと使用システムの両面で)というのがあります。ただ、画一的なボトムアップの必要性は小さいのではないでしょうか。
・いまスーパーコンピューターを対象に、大学や研究機関でのHPCの活性化と成果を拡大することを重視するのであれば、まず研究者が自分の研究にHPCを応用できる可能性を発見できるようなHPC教育を行ない、次にはそうした中から実際にHPCに取り組む活動的な研究者が並列プログラミング、チューニングといった具体的なインプリメンテーションへと進めるように、SMASH全体について総合的に指導・支援できる、層の厚いプロフェッショナル(研究者レベル)が控えているというような、大学や研究機関を横断して存在するバーチュアルなHPC教育・指導システムが今の時代に合致していると思います。
2008年03月15日
● 今週のセミナーから
・めっきり春らしくなってきましたが、このところの花粉症に加え、後半には治療した歯が痛み初め最低の週でしたが、どうやら復旧に向かっています。
・「ペタ超級のアプリケーション開発に向けて」の理研シンポジウムは、そんなことからやむなく欠席。
・火曜日に開催されたCell/B.E. 実践活用セミナーの方は、Terra SoftのKaiさんの米国らしい活動的な雰囲気を感じさせるよい講演でしたし、他の国内の三人の講師もそれぞれ特長を発揮したよい内容の講演でした。講師・参加者間のコミュニケーションも多かったし、総じてよいセミナーだったです。
・講演資料はWebサイトからダウンロードできるので、セル・プロセッサーのHPCへの応用に興味のある方は特にご推薦です。
・「ペタ超級のアプリケーション開発に向けて」の理研シンポジウムは、そんなことからやむなく欠席。
・火曜日に開催されたCell/B.E. 実践活用セミナーの方は、Terra SoftのKaiさんの米国らしい活動的な雰囲気を感じさせるよい講演でしたし、他の国内の三人の講師もそれぞれ特長を発揮したよい内容の講演でした。講師・参加者間のコミュニケーションも多かったし、総じてよいセミナーだったです。
・講演資料はWebサイトからダウンロードできるので、セル・プロセッサーのHPCへの応用に興味のある方は特にご推薦です。
2008年02月24日
● TACCのRangerがフル稼働、NSFに納入
・稼働が当初の予定よりも遅れていたテキサス大学オースティン校Texas Advanced Computing Center (TACC)のRangerシステムが2月4日にフル稼働に入り、2月22日(金)にNSFに納入されるとTACCが2月22日(金)に発表しています。
・理論ピーク性能は当初の仕様どうりの504 TFLOPSです。最新のTop500スーパーコンピューター・リストのピーク性能だけから言えば、LLNLのBlue Gene/Lに次ぐ2位に該当しますが、internetnews.comの記事がPlayStation3ユーザーが集まって作られているFolding@Homeをいれたとすれば第3位と面白い表現をしています。
・記事では約15,000 CPU(正確には62,976 コア)を1タスクが占有するというよりは、ユーザーがプログラムを書き換えてより高い性能を引き出せるようになるまでは高々1,000 CPU程度を使うタスクが複数個走ることになると、当たり前とはいえ、書き換えをするというペタスケールへ向けての着実なスタンスが見受けられます。
・このシステム開発と4年間の運用コストについては$59M (約64億円)のNSFのアワード(NSF Track2 HPC)でまかなわれ、NSFのTeraGridの最大ノードになります。
・そのためか、90%のマシンタイムはTeraGridのユーザーによって使用され、TACCは10%のみです。TACCの分が少なさそうに見えますが、先のinternetnews.comの記事ではRangerを使用するためのウェイティング・リストは3ヶ月になるだろうと言っているので、むしろ好条件なのでしょう。
・理論ピーク性能は当初の仕様どうりの504 TFLOPSです。最新のTop500スーパーコンピューター・リストのピーク性能だけから言えば、LLNLのBlue Gene/Lに次ぐ2位に該当しますが、internetnews.comの記事がPlayStation3ユーザーが集まって作られているFolding@Homeをいれたとすれば第3位と面白い表現をしています。
・記事では約15,000 CPU(正確には62,976 コア)を1タスクが占有するというよりは、ユーザーがプログラムを書き換えてより高い性能を引き出せるようになるまでは高々1,000 CPU程度を使うタスクが複数個走ることになると、当たり前とはいえ、書き換えをするというペタスケールへ向けての着実なスタンスが見受けられます。
・このシステム開発と4年間の運用コストについては$59M (約64億円)のNSFのアワード(NSF Track2 HPC)でまかなわれ、NSFのTeraGridの最大ノードになります。
・そのためか、90%のマシンタイムはTeraGridのユーザーによって使用され、TACCは10%のみです。TACCの分が少なさそうに見えますが、先のinternetnews.comの記事ではRangerを使用するためのウェイティング・リストは3ヶ月になるだろうと言っているので、むしろ好条件なのでしょう。
2008年02月13日
● Cell/B.E. 実践活用セミナー 3月11日開催
・Cell/B.E. 実践活用セミナーが3月11日(火)午後に日本IBMの箱崎事業所で開催されます。
・詳しくは、「Cell/B.E. 実践活用セミナー」案内ページにありますが、日本IBM、アルゴグラフィックス、フィックスターズに加えて米国のTerra Soft Solutionsの4社による講演があります。
・いずれもCell Broadband Engine (Cell/B.E.)の分野で積極的に活動を続けている4人の講師によるセミナーなので、その内容は期待できます。
・SC07での縁もあることから私もTerra Soft SolutionsのCEO カイ・スターツさんを講師にお願いしたりしたのですが、忙しいスケジュールをぬって快く来日してくれることになり、ほっとひと安心。
ということなどもあって、我田引水になりますがセミナーの内容は期待できます!
・Cell/B.E.というと、毎年2月にサンフランシスコで開かれる半導体回路国際会議ISSCCで最新テクノロジーの発表をするものという記憶がありますが、今年もやってくれました。
・PCWatchの「後藤弘茂のWeekly海外ニュース」
ISSCCに次世代Cell B.E. 45nm版が登場
〜6GHz動作、電力を30%以上削減
で、IBM発表の内容について実に詳細でわかりやすく紹介されています。
・詳しくは、「Cell/B.E. 実践活用セミナー」案内ページにありますが、日本IBM、アルゴグラフィックス、フィックスターズに加えて米国のTerra Soft Solutionsの4社による講演があります。
・いずれもCell Broadband Engine (Cell/B.E.)の分野で積極的に活動を続けている4人の講師によるセミナーなので、その内容は期待できます。
・SC07での縁もあることから私もTerra Soft SolutionsのCEO カイ・スターツさんを講師にお願いしたりしたのですが、忙しいスケジュールをぬって快く来日してくれることになり、ほっとひと安心。
ということなどもあって、我田引水になりますがセミナーの内容は期待できます!
・Cell/B.E.というと、毎年2月にサンフランシスコで開かれる半導体回路国際会議ISSCCで最新テクノロジーの発表をするものという記憶がありますが、今年もやってくれました。
・PCWatchの「後藤弘茂のWeekly海外ニュース」
ISSCCに次世代Cell B.E. 45nm版が登場
〜6GHz動作、電力を30%以上削減
で、IBM発表の内容について実に詳細でわかりやすく紹介されています。
2008年02月11日
● 脳の研究とHPC
・ 日本の脳科学研究は世界のトップを走っていると聞いたことはあるものの、専門家でもない私にとって、脳科学はまったく未知の分野です。
・とはいえ、脳については養老孟司著の「脳の見方」(ちくま文庫1997.11.20 第11版、養老孟司著、筑摩書房 (1986.10.20))と「からだの見方」(ちくま文庫 1995.7.5 第3版、養老孟司著、筑摩書房 (1988.7))を読んで鮮烈な印象を受けた記憶があります。( )内は最初の発行日(文庫以外)です。ところで養老先生の書かれたものは今のベストセラーよりもこの頃の方が私にはずっと面白く感じられます。たとえば視覚系についての考えはその最たるものですが、著者は異なるものの、ほぼ20年後に書かれた「進化しすぎた脳」でも、どこか共通した考えが感じられるのは私の脳がそう解釈したいからなのでしょうか。
・ 「進化しすぎた脳」(ブルーバックス B-1538 2007.11.8 第9版、池谷裕二著、講談社)はこの連休にたまたま駅前の三省堂書店で買って読みました。専門家でない私には情報量がやや多く、すべて消化しきれたわけではないですが、2003年頃のアメリカ留学中にニューヨークの日本人高校生8人を相手にした脳科学講義ということもあってでしょうか、知的活気にあふれた第一章から四章までの講義と高校生との質疑応答がなかなかいい雰囲気です。やはり異環境で挑んだ30代前半の試みというのはとびっきりの勢いを持っています。
・「進化しすぎた脳」から思ったのは、脳の物理モデル・シミュレーションにそろそろ力を入れていい時期になってきたのではないかということです。たぶん脳科学の専門家ほど脳はコンピューター・シミュレーションには複雑過ぎると思われているでしょうから、ブレークするためには最初から異分野の専門家との協力が必要かも知れません。
・ スイスのBlue Brain Projectでは、Blue Geneの巨大なコンピュータ・パワーを前提に、実際の神経細胞をもとにしたNeocortical column(NCC)(大脳新皮質カラム)のシミュレーションに挑戦し、昨年11月に第1フェーズを完了しています。
・ 最先端を走っていると言われている日本の脳科学研究がベースにあれば、こうした先端的なシミュレーション分野でも日本ならではの優れた研究成果がでる可能性は高いと個人的には思っています。
・とはいえ、脳については養老孟司著の「脳の見方」(ちくま文庫1997.11.20 第11版、養老孟司著、筑摩書房 (1986.10.20))と「からだの見方」(ちくま文庫 1995.7.5 第3版、養老孟司著、筑摩書房 (1988.7))を読んで鮮烈な印象を受けた記憶があります。( )内は最初の発行日(文庫以外)です。ところで養老先生の書かれたものは今のベストセラーよりもこの頃の方が私にはずっと面白く感じられます。たとえば視覚系についての考えはその最たるものですが、著者は異なるものの、ほぼ20年後に書かれた「進化しすぎた脳」でも、どこか共通した考えが感じられるのは私の脳がそう解釈したいからなのでしょうか。
・ 「進化しすぎた脳」(ブルーバックス B-1538 2007.11.8 第9版、池谷裕二著、講談社)はこの連休にたまたま駅前の三省堂書店で買って読みました。専門家でない私には情報量がやや多く、すべて消化しきれたわけではないですが、2003年頃のアメリカ留学中にニューヨークの日本人高校生8人を相手にした脳科学講義ということもあってでしょうか、知的活気にあふれた第一章から四章までの講義と高校生との質疑応答がなかなかいい雰囲気です。やはり異環境で挑んだ30代前半の試みというのはとびっきりの勢いを持っています。
・「進化しすぎた脳」から思ったのは、脳の物理モデル・シミュレーションにそろそろ力を入れていい時期になってきたのではないかということです。たぶん脳科学の専門家ほど脳はコンピューター・シミュレーションには複雑過ぎると思われているでしょうから、ブレークするためには最初から異分野の専門家との協力が必要かも知れません。
・ スイスのBlue Brain Projectでは、Blue Geneの巨大なコンピュータ・パワーを前提に、実際の神経細胞をもとにしたNeocortical column(NCC)(大脳新皮質カラム)のシミュレーションに挑戦し、昨年11月に第1フェーズを完了しています。
・ 最先端を走っていると言われている日本の脳科学研究がベースにあれば、こうした先端的なシミュレーション分野でも日本ならではの優れた研究成果がでる可能性は高いと個人的には思っています。
2008年02月03日
● 4.2GHzのPOWER6搭載エントリーUNIXサ―バー登場
IBMは昨年
・4.7GHz POWER6搭載の中型UNIXサーバー IBM System p 570 (最大16プロセッサー・コア)、そして
・4.0GHz POWER6搭載のブレード・サーバー IBM BladeCenter JS22 (4プロセッサー・コア) を発表しています。
それに続いて先週、
・4.2GHz POWER6搭載エントリーUNIXサ―バー IBM System p520 (最大4プロセッサー・コア)とp550 (最大8プロセッサー・コア)を発表しました。
・IBM System pのベンチマーク・データも更新されていました。IBMのWebサイトには類似のベンチマーク性能情報があちこちにあるものの、目当てのものになかなかたどりつけないきらいがあるのですが、ここのpdfにはp520とp550のSPEC2006とLINPACK HPCの性能が黄色でマーキングされて載っています。
・日立製作所も同じ日に、POWER6プロセッサーを搭載したエントリーモデル「EP8000 550」、「EP8000 520」を新たにラインアップに追加という発表をしています。
・そういえば、T2K仕様で日立製作所が東京大学に納入する1万5232プロセッサー・コア構成のLinuxクラスター・システムについて開発責任者 深川部長のたいへん興味深いインタビュー記事がITproに載っています。予想どうりとはいえ、熱設計、信頼性確保、3,800個を越えるクアッドコアOpteronプロセッサーの調達の三点が難関だったそうです。
このようすだと1月にフル・プロダクションを予定していた、AMDの先客でもあるテキサス Rangerも15,744個のクアッドコアOpteronプロセッサーを調達できたことでしょう。
予定通りに進捗が進んでいればそろそろTACCから何かRangerについての発表があってもよいころですが。
・4.7GHz POWER6搭載の中型UNIXサーバー IBM System p 570 (最大16プロセッサー・コア)、そして
・4.0GHz POWER6搭載のブレード・サーバー IBM BladeCenter JS22 (4プロセッサー・コア) を発表しています。
それに続いて先週、
・4.2GHz POWER6搭載エントリーUNIXサ―バー IBM System p520 (最大4プロセッサー・コア)とp550 (最大8プロセッサー・コア)を発表しました。
・IBM System pのベンチマーク・データも更新されていました。IBMのWebサイトには類似のベンチマーク性能情報があちこちにあるものの、目当てのものになかなかたどりつけないきらいがあるのですが、ここのpdfにはp520とp550のSPEC2006とLINPACK HPCの性能が黄色でマーキングされて載っています。
・日立製作所も同じ日に、POWER6プロセッサーを搭載したエントリーモデル「EP8000 550」、「EP8000 520」を新たにラインアップに追加という発表をしています。
・そういえば、T2K仕様で日立製作所が東京大学に納入する1万5232プロセッサー・コア構成のLinuxクラスター・システムについて開発責任者 深川部長のたいへん興味深いインタビュー記事がITproに載っています。予想どうりとはいえ、熱設計、信頼性確保、3,800個を越えるクアッドコアOpteronプロセッサーの調達の三点が難関だったそうです。
このようすだと1月にフル・プロダクションを予定していた、AMDの先客でもあるテキサス Rangerも15,744個のクアッドコアOpteronプロセッサーを調達できたことでしょう。
予定通りに進捗が進んでいればそろそろTACCから何かRangerについての発表があってもよいころですが。
2008年01月08日
●"T2Kオープン スパコン"
・東大、筑波大、京大の"T2Kオープン スパコン"(T2Kは東大、筑波大、京大のイニシャル(TTK)からきている)と言われる仕様を満たす大規模HPCシステムの入札結果が昨年の暮れに発表されていました。
・そして今日の日立製作所のニュースリリース、「東京大学情報基盤センターから国内最高性能のスーパーコンピュータシステムを受注」で具体的なシステム構成が紹介されています。
● OSはRed Hat Linux
● 1ノードにクアッドコアAMD Opteronプロセッサー(2.3GHz)を4個搭載 (ということは16コア/ノード)
● 1ラックに16ノードを格納し、3,738 GFLOPS/m**2を実現する省スペース (256コア/ラックになる)
● 2Uサイズのノード952個(60ラック相当)を、高速多段クロスバネットワークで接続
● 米国Myricom社のMyri-10Gネットワークを採用し、10ギガビットイーサネット級のノード間高速通信を実現
・この表現だけからだと”高速多段クロスバネットワーク=Myri-10Gネットワーク”とも受け取れますが、何かおかしい。実際はどうなのでしょうか。
・最大理論ピーク性能は140TFLOPSで、2007年11月版のTop500リストのRPeakの順番だけから見ると6位に入る性能です。LINPACKの性能が順当に達成できると2008年6月版でTop10に入る可能性は相当高そうです。もちろん国内ではトップの性能です。
・東大は日立製作所が受注していますが、筑波大をクレイ・ジャパン・インク/米Approが受注、京大が富士通、と日経ITpro等で報道されています。
・いずれも各大学のいわゆる大型計算センターのシステムなので、その基本要件には、多様化した大学ユーザーの計算ニーズに対応できないといけないと言う問題意識が反映されています。
・ユーザーについては最近さらに進んで、大学ユーザーだけでなく民間企業へのマシンタイムの提供も文部科学省「先端研究施設共用イノベーション創出事業」プログラム から支援を受け、公募で行われているとは知りませんでした。
正月にはPS3を買ってYellow Dogを入れてと考えていたのも、知人が暮れにWiiを持参してやってきたのが運の尽き、Amazonから翌日配達でFitのボードも手に入れ、すっかり遊んでしまいました。まだ手や腹筋が痛い・・・。
ところで、ニュース・リリースによると日立の自動並列コンパイラが提供されるようですが、これも両刃の剣で、大学生ならば少し苦労してプログラミングやチューニングをしたほうが、多少生産性は落ちても結局は日本の国力・競争力強化につながるのにと考えてしまうのはまだ少数派?
・そして今日の日立製作所のニュースリリース、「東京大学情報基盤センターから国内最高性能のスーパーコンピュータシステムを受注」で具体的なシステム構成が紹介されています。
● OSはRed Hat Linux
● 1ノードにクアッドコアAMD Opteronプロセッサー(2.3GHz)を4個搭載 (ということは16コア/ノード)
● 1ラックに16ノードを格納し、3,738 GFLOPS/m**2を実現する省スペース (256コア/ラックになる)
● 2Uサイズのノード952個(60ラック相当)を、高速多段クロスバネットワークで接続
● 米国Myricom社のMyri-10Gネットワークを採用し、10ギガビットイーサネット級のノード間高速通信を実現
・この表現だけからだと”高速多段クロスバネットワーク=Myri-10Gネットワーク”とも受け取れますが、何かおかしい。実際はどうなのでしょうか。
・最大理論ピーク性能は140TFLOPSで、2007年11月版のTop500リストのRPeakの順番だけから見ると6位に入る性能です。LINPACKの性能が順当に達成できると2008年6月版でTop10に入る可能性は相当高そうです。もちろん国内ではトップの性能です。
・東大は日立製作所が受注していますが、筑波大をクレイ・ジャパン・インク/米Approが受注、京大が富士通、と日経ITpro等で報道されています。
・いずれも各大学のいわゆる大型計算センターのシステムなので、その基本要件には、多様化した大学ユーザーの計算ニーズに対応できないといけないと言う問題意識が反映されています。
・ユーザーについては最近さらに進んで、大学ユーザーだけでなく民間企業へのマシンタイムの提供も文部科学省「先端研究施設共用イノベーション創出事業」プログラム から支援を受け、公募で行われているとは知りませんでした。
正月にはPS3を買ってYellow Dogを入れてと考えていたのも、知人が暮れにWiiを持参してやってきたのが運の尽き、Amazonから翌日配達でFitのボードも手に入れ、すっかり遊んでしまいました。まだ手や腹筋が痛い・・・。
ところで、ニュース・リリースによると日立の自動並列コンパイラが提供されるようですが、これも両刃の剣で、大学生ならば少し苦労してプログラミングやチューニングをしたほうが、多少生産性は落ちても結局は日本の国力・競争力強化につながるのにと考えてしまうのはまだ少数派?
2007年12月28日
●専用システムか、それとも汎用システムか?
・次世代生命体統合シミュレーション研究開発プロジェクトのシンポジウムの続きになりますが、医薬品メーカーの方がMO(Molecular Orbital Method)専用機(Special Purpose Computer)もあるといいなというコメントをしていました。その心は、MO計算が超高速かつ少ないコストでできるようになると創薬研究におおいに役立つということだったと思います。MD(Molecular Dynamics)専用機 MDGRAPE-3の開発者の泰地さんに直接うかがったところではMO専用機も技術的には可能ということでした。
・このように専用機というのは圧倒的高性能とコスト・パフォーマンスとが両立するので常に引きつける魅力があります。
・対する汎用機(General Purpose Computer)ですが、その代名詞が360度オールラウンドに使えるコンピューターとして1960年代に発表されたIBM System/360です。それ以前は科学技術計算向けのコンピューターと、商用向けのコンピューターが別々に開発されてきましたが、S/360があっという間にシェアを獲得し、科学技術計算向け、商用向けともに汎用機に吸収されてしまいました。
・その後もアレイ・プロセッサーのような実験的なシステムやQCD専用機などが企画・製作されたものの専用機の大半が短寿命で衰退してしまったのは、やはりある程度汎用性のあるものでないと開発投資が続けられず、そのうちに専用機としての競争力が失なわれてしまったという現実があるのでしょう。
・その中でも比較的長い間生き残ってきたのがベクトル型コンピューターですが、これも2007年11月のTop500リストによるとシェア0.8%へと衰退してしまいました。
一方、汎用機の代名詞だったメインフレームも、絶対に故障してはならない基幹システムのためのプラットフォームへ進化したものの、科学技術計算分野では使われなくなってしまいました。一回りして1950-60年代当時と同じ状況になってしまったとも言えます。
・それではいま先を争って開発が進められている超並列型コンピューターはどうなのでしょうか。ここで少し強引にIBM Blue Geneを引き合いに出してみます。
・もともとBlue Geneはタンパク質の折りたたみ現象のシミュレーション 1ケースを1年で完了できる性能(1ペタFLOPS)の専用機として、設計がスタートしたものです。自己修復機能を備えるなどいくつかの革新的なアイデアがその中から生まれましたが、実際のシステムは当初描いていた先鋭的専用機にはならず、プログラム開発環境やI/OノードにLinux OSを採用するなど相当に汎用性を持たせたものになりました。性能の方も約1/3と控えめです。しかし最初のタンパク折りたたみ計算専用機のイメージが強いために、いまだに専用機(Special Purpose Computer)と思われているふしがあります。
・ちょうどIBM Journal of Research and Developmentの最新号が"Applications of Massively Parallel Systems" 特集ですので、これを参考に、進化を続けるためにはある程度の汎用性がないと難しいという視点からBlue Geneを見てみます。
・この号には、Blue Gene/Lのアプリケーション・ユーザーの16編の論文で埋まっています。それらのアプリケーションは、
1) タンパク構造の予測
2) MDシミュレーション
3) 大脳新皮質コラムのシミュレーション
4) 同上
5) リガンド発見のための並列計算
6) 創薬のための分子のドッキング・シミュレーション
7) 3-D 地震探査計算
8) 炭化水素の電気伝導度計算
9) 閉じこめプラズマ乱流の粒子シミュレーション
10) 気象シミュレーション
11) 弱圧縮性乱流のシミュレーション
12) 第一原理によるMD計算
13) N-体分子シミュレーション
14) ab initio MD計算
15) スケーラブルMD計算
16) QCD計算
ですが、個人的にはこれらに
17) 携帯電話の3-D落下衝撃解析 ((株)アライドエンジニアリング 秋葉博氏他)というSC06でゴードン・ベル賞のファイナリストに残った論文を加えたいと思います。
・これらを眺めてわかるとおり、隣接相互作用の計算が得意なBlue Geneらしく粒子系シミュレーションがやや目立ちますが、それだけにとどまらない様々な分野のアプリケーションに適用されています。
・最新のBlue Gene/Pでは、低消費電力を維持しつつ7万2千ノードで1ペタ・ピークFLOPS性能を実現するというだけではなく、ノードの4-way SMP化、メモリー倍増(2GB、オプションで4GB)、ネットワークの性能アップ(バンド幅拡大と遅延短縮)というように、アプリケーションに対してより制約の少ない方向(より汎用化)に進化しているように見えます。Blue Geneはなるほどすごいなと思いました。
・もうひとつ注目の超並列型コンピューターが、複合汎用システムとして理研が開発を進めている次世代スーパーコンピューターです。性能目標10ペタFLOPSを実現するテクノロジーには非常に興味がもたれます。
・このように専用機というのは圧倒的高性能とコスト・パフォーマンスとが両立するので常に引きつける魅力があります。
・対する汎用機(General Purpose Computer)ですが、その代名詞が360度オールラウンドに使えるコンピューターとして1960年代に発表されたIBM System/360です。それ以前は科学技術計算向けのコンピューターと、商用向けのコンピューターが別々に開発されてきましたが、S/360があっという間にシェアを獲得し、科学技術計算向け、商用向けともに汎用機に吸収されてしまいました。
・その後もアレイ・プロセッサーのような実験的なシステムやQCD専用機などが企画・製作されたものの専用機の大半が短寿命で衰退してしまったのは、やはりある程度汎用性のあるものでないと開発投資が続けられず、そのうちに専用機としての競争力が失なわれてしまったという現実があるのでしょう。
・その中でも比較的長い間生き残ってきたのがベクトル型コンピューターですが、これも2007年11月のTop500リストによるとシェア0.8%へと衰退してしまいました。
一方、汎用機の代名詞だったメインフレームも、絶対に故障してはならない基幹システムのためのプラットフォームへ進化したものの、科学技術計算分野では使われなくなってしまいました。一回りして1950-60年代当時と同じ状況になってしまったとも言えます。
・それではいま先を争って開発が進められている超並列型コンピューターはどうなのでしょうか。ここで少し強引にIBM Blue Geneを引き合いに出してみます。
・もともとBlue Geneはタンパク質の折りたたみ現象のシミュレーション 1ケースを1年で完了できる性能(1ペタFLOPS)の専用機として、設計がスタートしたものです。自己修復機能を備えるなどいくつかの革新的なアイデアがその中から生まれましたが、実際のシステムは当初描いていた先鋭的専用機にはならず、プログラム開発環境やI/OノードにLinux OSを採用するなど相当に汎用性を持たせたものになりました。性能の方も約1/3と控えめです。しかし最初のタンパク折りたたみ計算専用機のイメージが強いために、いまだに専用機(Special Purpose Computer)と思われているふしがあります。
・ちょうどIBM Journal of Research and Developmentの最新号が"Applications of Massively Parallel Systems" 特集ですので、これを参考に、進化を続けるためにはある程度の汎用性がないと難しいという視点からBlue Geneを見てみます。
・この号には、Blue Gene/Lのアプリケーション・ユーザーの16編の論文で埋まっています。それらのアプリケーションは、
1) タンパク構造の予測
2) MDシミュレーション
3) 大脳新皮質コラムのシミュレーション
4) 同上
5) リガンド発見のための並列計算
6) 創薬のための分子のドッキング・シミュレーション
7) 3-D 地震探査計算
8) 炭化水素の電気伝導度計算
9) 閉じこめプラズマ乱流の粒子シミュレーション
10) 気象シミュレーション
11) 弱圧縮性乱流のシミュレーション
12) 第一原理によるMD計算
13) N-体分子シミュレーション
14) ab initio MD計算
15) スケーラブルMD計算
16) QCD計算
ですが、個人的にはこれらに
17) 携帯電話の3-D落下衝撃解析 ((株)アライドエンジニアリング 秋葉博氏他)というSC06でゴードン・ベル賞のファイナリストに残った論文を加えたいと思います。
・これらを眺めてわかるとおり、隣接相互作用の計算が得意なBlue Geneらしく粒子系シミュレーションがやや目立ちますが、それだけにとどまらない様々な分野のアプリケーションに適用されています。
・最新のBlue Gene/Pでは、低消費電力を維持しつつ7万2千ノードで1ペタ・ピークFLOPS性能を実現するというだけではなく、ノードの4-way SMP化、メモリー倍増(2GB、オプションで4GB)、ネットワークの性能アップ(バンド幅拡大と遅延短縮)というように、アプリケーションに対してより制約の少ない方向(より汎用化)に進化しているように見えます。Blue Geneはなるほどすごいなと思いました。
・もうひとつ注目の超並列型コンピューターが、複合汎用システムとして理研が開発を進めている次世代スーパーコンピューターです。性能目標10ペタFLOPSを実現するテクノロジーには非常に興味がもたれます。
2007年12月26日
●Blue Brain Projectが第一フェーズを完了
・昨日開催された理研主催の次世代生命体統合シミュレーション研究開発プロジェクトのシンポジウムで、理研脳科学総合研究センターの甘利センター長の招待講演でも触れられていたローザンヌ工科大学のBlue Brain Projectが11月26日に第一フェーズを完了しました。
・このプロジェクトは哺乳類の脳をリバース・エンジニアリングにより研究しようとするもので、ねずみの脳を対象に取り8,192プロセッサーのBlue Geneによるシミュレーションでその機能を理解しようと試みています。
・2005年の7月にローザンヌ工科大学(EPFL)とIBMがこの研究開始を発表し、SC06でのマークマル教授の講演は非常にわくわくする内容だったことを覚えています。
・開始にあたってリーダーのマークマル教授が「脳研究者の半分以上はこの研究に懐疑的だろうが、今がはじめるのにちょうどよいタイミングだ」と言っていましたが、相当アンビシャスなプロジェクトだったようです。
・第一フェーズの成果として、大脳新皮質のコラム1個を10,000個のニューロンと3,000万個のシナプス接続でモデル化したもののシミュレーションで、ニューロンからニューロンへと電気信号が伝わる様子が可視化されたものをBlue Brain Projectのギャラリーで見ることができます。
・MITの11月のTechnology Reviewでも取り上げられていますが、脳科学に大きなインパクトを与えうる驚くべき仕事と評価しています。
・このように、脳科学でもインシリコ (コンピューター・シミュレーション)を研究に利用できることが示されたということも第一フェーズの大きな成果になるでしょう。
・次世代生命体統合シミュレーション研究開発プロジェクトが生体分子スケールから臓器全身スケールまで対象とするビッグ・プロジェクトだと今回シンポジウムに参加してわかりましたが、今は含まれていない脳・自律神経系という制御機能が含まれるようになると、実にわくわくするものになるのではないかと想像をめぐらしてしまいます。
・このプロジェクトは哺乳類の脳をリバース・エンジニアリングにより研究しようとするもので、ねずみの脳を対象に取り8,192プロセッサーのBlue Geneによるシミュレーションでその機能を理解しようと試みています。
・2005年の7月にローザンヌ工科大学(EPFL)とIBMがこの研究開始を発表し、SC06でのマークマル教授の講演は非常にわくわくする内容だったことを覚えています。
・開始にあたってリーダーのマークマル教授が「脳研究者の半分以上はこの研究に懐疑的だろうが、今がはじめるのにちょうどよいタイミングだ」と言っていましたが、相当アンビシャスなプロジェクトだったようです。
・第一フェーズの成果として、大脳新皮質のコラム1個を10,000個のニューロンと3,000万個のシナプス接続でモデル化したもののシミュレーションで、ニューロンからニューロンへと電気信号が伝わる様子が可視化されたものをBlue Brain Projectのギャラリーで見ることができます。
・MITの11月のTechnology Reviewでも取り上げられていますが、脳科学に大きなインパクトを与えうる驚くべき仕事と評価しています。
・このように、脳科学でもインシリコ (コンピューター・シミュレーション)を研究に利用できることが示されたということも第一フェーズの大きな成果になるでしょう。
・次世代生命体統合シミュレーション研究開発プロジェクトが生体分子スケールから臓器全身スケールまで対象とするビッグ・プロジェクトだと今回シンポジウムに参加してわかりましたが、今は含まれていない脳・自律神経系という制御機能が含まれるようになると、実にわくわくするものになるのではないかと想像をめぐらしてしまいます。
2007年12月18日
●1PetaFLOPSのRoadrunnerが最終フェーズに
・1PetaFLOPSの持続性能を目標にしたロスアラモス国立研究所(LANL)のRoadrunnerが、いよいよ最終フェーズに入り、そのお祝いが行われたそうです。楽しそうな写真も紹介されています。
・RoadrunnerはCell BroadBand Engineをアクセルレータにした最初のスーパーコンピューターで、LANLとIBMの共同開発プロジェクトとして2006年始めにスタートしています。最初に第一フェーズの71TFLOPSのクラスター・システムから始まり、この10月に第二フェーズを終え、National Nuclear Security Administration(NNSA)と、独立HPC専門家チームという二つの外部アセスメントを受けていました。
・その結果を受けてLANLは最終フェーズすなわちフル・スケールのRoadrunnerの開発に入ることを決め、NNSAの承認が降り次第フル・スケールのRoadrunnerの入手を進めます。マシンがIBMからLANLに到着するのが2008年秋、最初のアプリケーションが走るのが2009年1月ということです。
・このスケジュールどおりだと、SC08のタイミングではTop500の1位は依然LLNLのBlue Gene/Lになっている可能性が高いので、LANLとしてはもう少しスケジュールを前倒ししたいところだと思います。
・ともあれ、このテクニカルアセスメントのための資料が紹介されています。この中の"Roadrunner Applications Team: Cell and Hybrid Results to Date"というのを見るとLANLは2003年からすでにAcceleration modelを検討していてFPGAとGPによる小規模システムの結果から自信を得、2006年、いっきにCell/B.E.で1 PetaFLOPSの挑戦に出たようです。決して唐突ではなかったわけです。
・Roadrunner projectにはLANLの100人以上のスタッフが参加し、プロジェクトのコストは約$120M (ざっと130億円)の予定とあります。LLNLとIBMとのBlue Gene/Lの共同プロジェクトでもそうですが、特にRoadrunnerでは製品を使用することを前提に設計しているので、計画がたてやすいという利点がIBM, LANL双方にありそうです。
・ただし、この種のシステムの性能と開発コストの関係は、使用目的、信頼性(MTBFなど)、それらを反映したアーキテクチャの先進性の度合い、さらには開発コストの回収計画等々でさまざまに変わるものなので、表面的なコスト-性能比の比較はもはや無意味でしょう。
別の見方をすれば、使用するアプリケーションを通じてその性能のシステムから得られる価値をいくらに評価するかがプロジェクトの価値でしょうから、米国National Nuclear Securityのプロジェクトというのは強いですね。日本では何にあたるのでしょうか。おそらく、省石油に関したものすべて?
・RoadrunnerはCell BroadBand Engineをアクセルレータにした最初のスーパーコンピューターで、LANLとIBMの共同開発プロジェクトとして2006年始めにスタートしています。最初に第一フェーズの71TFLOPSのクラスター・システムから始まり、この10月に第二フェーズを終え、National Nuclear Security Administration(NNSA)と、独立HPC専門家チームという二つの外部アセスメントを受けていました。
・その結果を受けてLANLは最終フェーズすなわちフル・スケールのRoadrunnerの開発に入ることを決め、NNSAの承認が降り次第フル・スケールのRoadrunnerの入手を進めます。マシンがIBMからLANLに到着するのが2008年秋、最初のアプリケーションが走るのが2009年1月ということです。
・このスケジュールどおりだと、SC08のタイミングではTop500の1位は依然LLNLのBlue Gene/Lになっている可能性が高いので、LANLとしてはもう少しスケジュールを前倒ししたいところだと思います。
・ともあれ、このテクニカルアセスメントのための資料が紹介されています。この中の"Roadrunner Applications Team: Cell and Hybrid Results to Date"というのを見るとLANLは2003年からすでにAcceleration modelを検討していてFPGAとGPによる小規模システムの結果から自信を得、2006年、いっきにCell/B.E.で1 PetaFLOPSの挑戦に出たようです。決して唐突ではなかったわけです。
・Roadrunner projectにはLANLの100人以上のスタッフが参加し、プロジェクトのコストは約$120M (ざっと130億円)の予定とあります。LLNLとIBMとのBlue Gene/Lの共同プロジェクトでもそうですが、特にRoadrunnerでは製品を使用することを前提に設計しているので、計画がたてやすいという利点がIBM, LANL双方にありそうです。
・ただし、この種のシステムの性能と開発コストの関係は、使用目的、信頼性(MTBFなど)、それらを反映したアーキテクチャの先進性の度合い、さらには開発コストの回収計画等々でさまざまに変わるものなので、表面的なコスト-性能比の比較はもはや無意味でしょう。
別の見方をすれば、使用するアプリケーションを通じてその性能のシステムから得られる価値をいくらに評価するかがプロジェクトの価値でしょうから、米国National Nuclear Securityのプロジェクトというのは強いですね。日本では何にあたるのでしょうか。おそらく、省石油に関したものすべて?
2007年12月14日
●スーパーコンピューターも立体構造に?
・もう12月半ばとなると、近い将来に期待したいものがいろいろ浮かんできますが、その中で最たるもののひとつが三次元回路集積技術の実用化です。
・現在のチップは平面上に配線しているため線幅がミクロン以下の超極細で、想像を超えた長さ(初期のIBM POWERプロセッサーでもチップ内配線は全長1kmくらいあったと記憶)の配線が必要となります。このため、熱やリーク電流、信号遅延が大きな問題になっています。しかしこれらは配線を立体的におこなう三次元配線にすることで劇的に改善できます。
・たとえば今年発表になったIBMの研究成果では、回路を作ったシリコン・ウエハーを複数重ねたものに数千の貫通孔を空けてその中を金属で満たす"Through-Silicon Via"という方法で積層チップ内の三次元配線を実用化しています。この結果、配線長は1/1000になるそうです。この量産が2008年に始まります。
・三次元配線の技術も、アナロジーで言うと、初期はあたかも上下階の連絡をするために建物の外壁に外階段をつける方法しか取れなかったのが、TSVによってエレベーター方式で信号が行き来できるようになったわけです。
・これができると、現在平面上に展開しているプロセッサー・チップ自体を立体的に作る技術も必要になります。
・2006年9月にMany-coreの実験チップとしてインテルが8x10コア(簡単な処理エンジンとルータの組み合わせのタイルと呼ばれる小規模コア)の二次元構造を持ったチップを発表していますし、
Cell/B.E.も9コアの二次元構造のチップでできています。東大のGRAPE-DRプロジェクトでは実に1024コアのチップの研究開発に成功しています。
・これらはすべて平面状に回路を展開している二次元チップですが、もしチップの三次元化が可能になれば、サンドイッチのように下をCPUコア、中をメモリー、その上にインターコネクト・スイッチと重ね、このサンドイッチを16層重ねた三次元ICチップにするといったことも夢でなくなります。
・そうした微小インターコネクト・スイッチの研究開発では、この12月にIBMが発表したブレークスルーに、電気信号を光パルスに変換するモジュレータを従来の1/100〜1/1000の大きさにできたという“Ultra-compact, low RF power, 10 Gb/s silicon Mach-Zehnder modulator”があります。
・この技術は高性能と低電力消費を兼ね備えた"Tiny Supercomputers-on-a-chip"の実現をめざす上で、大きな影響を与えると思います。
・ついこの前まで90nmテクノロジーだったのがみるみるうちに小さくなって今は32nmテクノロジーも話題になっています。たいへんな速さで微小化が進行してきたわけですが、これはCPUチップだけの話。コンピューター・システムを見ればわかるように、(<100nmの世界から見ると)はるか遠く離れた場所にメモリーやインターコネクト・スイッチが配置され、システム全体が教室〜体育館程度の平面に分散配置されているというのが実際です。こうしただれが見ても異常なほどのアンバランスを解消するテクノロジーの研究開発は時代の要請ですから、今後さらに急速に進んでいくはずです。
・オン・チップ・メモリーも微小化、高速化、低電力化の研究開発が進んでいます。従来のSRAMに比べて1/3の大きさと1/4の電力の世界最速組み込みDRAM(embedded DRAM)です。
・最新のBlue Gene/Pのチップには、このeDRAMとプロセッサーが三次元積層されたチップを使います。
・さて、技術の粋とも言える地球シミュレーターでは合計2,400kmというノード間インターコネクトの太いケーブルが床下を這っています。地球シミュレーターよりも大食いの、巨大なモンスターへとばく進しているスーパーコンピューターが、このようにプロセッサー・チップやシステムが三次元的に集積統合されていくことで、一転して羊になるのも夢ではないかもしれません。
・ということで、ここからは半分夢物語ですが、いま1チップが16x16x16 コア(大メモリー、インターコネクト付き)のサイコロ形状の三次元プロセッサーができたとすると1チップのコア数は4,096です。このコアの性能をBlue Gene/Pと同じ14GFLOPSとします。
・このサイコロ・チップをルービック・キューブのように4x4x4 (=64)の立方体に組み立てると全体のコア数は262,144個になり、2007年にTop500で首位のBlue Gene/L(596ピークTFLOPS)のコア数106,496の倍以上になる勘定です。
・このときのピーク性能は3,670TFLOS(3.7ペタFLOPS)になります。
・最速スーパーコンピューターのひとつ、Blue Gene/Pの性能がルービック・キューブくらいの大きさで実現するという妄想でしたが、いままでの経験から見てさほど遠くない時期に実現しても驚きません。
・ルービック・キューブには熱除去のための強力な冷却装置が取り付けられ、さらに宇宙線や自然放射能からの回路の誤動作から護るため、鉛の分厚い放射線シールド容器の中に鎮座していて、現在のスーパーコンピューターの姿とはだいぶ異なっているでしょうが。
・現在のチップは平面上に配線しているため線幅がミクロン以下の超極細で、想像を超えた長さ(初期のIBM POWERプロセッサーでもチップ内配線は全長1kmくらいあったと記憶)の配線が必要となります。このため、熱やリーク電流、信号遅延が大きな問題になっています。しかしこれらは配線を立体的におこなう三次元配線にすることで劇的に改善できます。
・たとえば今年発表になったIBMの研究成果では、回路を作ったシリコン・ウエハーを複数重ねたものに数千の貫通孔を空けてその中を金属で満たす"Through-Silicon Via"という方法で積層チップ内の三次元配線を実用化しています。この結果、配線長は1/1000になるそうです。この量産が2008年に始まります。
・三次元配線の技術も、アナロジーで言うと、初期はあたかも上下階の連絡をするために建物の外壁に外階段をつける方法しか取れなかったのが、TSVによってエレベーター方式で信号が行き来できるようになったわけです。
・これができると、現在平面上に展開しているプロセッサー・チップ自体を立体的に作る技術も必要になります。
・2006年9月にMany-coreの実験チップとしてインテルが8x10コア(簡単な処理エンジンとルータの組み合わせのタイルと呼ばれる小規模コア)の二次元構造を持ったチップを発表していますし、
Cell/B.E.も9コアの二次元構造のチップでできています。東大のGRAPE-DRプロジェクトでは実に1024コアのチップの研究開発に成功しています。
・これらはすべて平面状に回路を展開している二次元チップですが、もしチップの三次元化が可能になれば、サンドイッチのように下をCPUコア、中をメモリー、その上にインターコネクト・スイッチと重ね、このサンドイッチを16層重ねた三次元ICチップにするといったことも夢でなくなります。
・そうした微小インターコネクト・スイッチの研究開発では、この12月にIBMが発表したブレークスルーに、電気信号を光パルスに変換するモジュレータを従来の1/100〜1/1000の大きさにできたという“Ultra-compact, low RF power, 10 Gb/s silicon Mach-Zehnder modulator”があります。
・この技術は高性能と低電力消費を兼ね備えた"Tiny Supercomputers-on-a-chip"の実現をめざす上で、大きな影響を与えると思います。
・ついこの前まで90nmテクノロジーだったのがみるみるうちに小さくなって今は32nmテクノロジーも話題になっています。たいへんな速さで微小化が進行してきたわけですが、これはCPUチップだけの話。コンピューター・システムを見ればわかるように、(<100nmの世界から見ると)はるか遠く離れた場所にメモリーやインターコネクト・スイッチが配置され、システム全体が教室〜体育館程度の平面に分散配置されているというのが実際です。こうしただれが見ても異常なほどのアンバランスを解消するテクノロジーの研究開発は時代の要請ですから、今後さらに急速に進んでいくはずです。
・オン・チップ・メモリーも微小化、高速化、低電力化の研究開発が進んでいます。従来のSRAMに比べて1/3の大きさと1/4の電力の世界最速組み込みDRAM(embedded DRAM)です。
・最新のBlue Gene/Pのチップには、このeDRAMとプロセッサーが三次元積層されたチップを使います。
・さて、技術の粋とも言える地球シミュレーターでは合計2,400kmというノード間インターコネクトの太いケーブルが床下を這っています。地球シミュレーターよりも大食いの、巨大なモンスターへとばく進しているスーパーコンピューターが、このようにプロセッサー・チップやシステムが三次元的に集積統合されていくことで、一転して羊になるのも夢ではないかもしれません。
・ということで、ここからは半分夢物語ですが、いま1チップが16x16x16 コア(大メモリー、インターコネクト付き)のサイコロ形状の三次元プロセッサーができたとすると1チップのコア数は4,096です。このコアの性能をBlue Gene/Pと同じ14GFLOPSとします。
・このサイコロ・チップをルービック・キューブのように4x4x4 (=64)の立方体に組み立てると全体のコア数は262,144個になり、2007年にTop500で首位のBlue Gene/L(596ピークTFLOPS)のコア数106,496の倍以上になる勘定です。
・このときのピーク性能は3,670TFLOS(3.7ペタFLOPS)になります。
・最速スーパーコンピューターのひとつ、Blue Gene/Pの性能がルービック・キューブくらいの大きさで実現するという妄想でしたが、いままでの経験から見てさほど遠くない時期に実現しても驚きません。
・ルービック・キューブには熱除去のための強力な冷却装置が取り付けられ、さらに宇宙線や自然放射能からの回路の誤動作から護るため、鉛の分厚い放射線シールド容器の中に鎮座していて、現在のスーパーコンピューターの姿とはだいぶ異なっているでしょうが。
2007年12月11日
●Cellスピードチャレンジ2008 参加受付中
・2007年に続いて、Cell Broadband Engine (Cell/B.E.)を対象にしたマルチコア・プログラミング・コンテスト Cellスピードチャレンジ2008の受付が始まっています。
・2008年も課題は規定課題(「連立一次方程式の求解」)と自由課題の二本立てで、日程については参加受付開始が2007年11月20日、参加受付〆切と予選ラウンド開始が2008年2月1日等々となっています。
・リーフレットによると、今回は(財) 北九州産業学術推進機構 (FAIS)のCell/B.E.のオンライン環境を借用してスピード測定をすることになったようです。
・二、三の大学研究室の方とお話しした例から類推するとプログラミングで多そうなケースは、プログラミングとテストまでは研究室に設置したソニーのPLAYSTATION3 (PS3)を使用することですが、プログラミング・テスト環境として考えてもPS3は実に安価と言えます (なにせPCよりも低価格!)。
・先月にはSC07の会場で、Yellow Dog Linux for PLAYSTATION3 をTerra Soft SolutionsのCEO、Kai Staatsさんからいただいたので、これはPS3を買わないとまずいかなと思いつつ、まだ積んどくになっています。
・PS3は電力消費が少ない新モデルも発売されましたが、HPCから見てどれがいいかかぐらいは知った上でと思っています。さて何になるのか。ちなみにコンテスト参加のためには、協賛各社の従業員でないこと、または協賛各社でインターンシップ中の学生でないこととあるので、私は参加資格なし。
Kaiさんはフットワークの軽そうな、まだ学生の雰囲気が残っている(知人の弁)方で、IT系の(Web系ではない)先進ベンチャーはこんな感じの人が起業しているんだと思わせられました。
・2008年も課題は規定課題(「連立一次方程式の求解」)と自由課題の二本立てで、日程については参加受付開始が2007年11月20日、参加受付〆切と予選ラウンド開始が2008年2月1日等々となっています。
・リーフレットによると、今回は(財) 北九州産業学術推進機構 (FAIS)のCell/B.E.のオンライン環境を借用してスピード測定をすることになったようです。
・二、三の大学研究室の方とお話しした例から類推するとプログラミングで多そうなケースは、プログラミングとテストまでは研究室に設置したソニーのPLAYSTATION3 (PS3)を使用することですが、プログラミング・テスト環境として考えてもPS3は実に安価と言えます (なにせPCよりも低価格!)。
・PS3は電力消費が少ない新モデルも発売されましたが、HPCから見てどれがいいかかぐらいは知った上でと思っています。さて何になるのか。ちなみにコンテスト参加のためには、協賛各社の従業員でないこと、または協賛各社でインターンシップ中の学生でないこととあるので、私は参加資格なし。
Kaiさんはフットワークの軽そうな、まだ学生の雰囲気が残っている(知人の弁)方で、IT系の(Web系ではない)先進ベンチャーはこんな感じの人が起業しているんだと思わせられました。
2007年12月09日
日本 巻き返しなるか
・今頃という感がありますが、ホンダF1の記事と同じ今日の読売新聞朝刊25面に"スパコン 日本また後退"という大きな記事が載っています。
・"日本また後退"という意味は、Top500リストで"日本の代表的スーパーコンピューターが順位を下げた(同記事)"ということを言っています。
・この記事の"日本の代表的スーパーコンピューター"というのが、国産メーカーが納入したスーパーコンピューターを指していて、日本国内で利用されているスーパーコンピューターを指しているわけではないという粗さが個人的には少なからず気になりますが、しかしどちらから見てもこのところ日本が米国はもとよりヨーロッパに対してもHPC分野の元気度合いがめっきり弱くなってきた印象は否めません。
・しかし先日発表されたIDC社の予測では、世界全体のHPCサーバー売り上げ高は強い成長を続け、2011年には2006年の1.5倍以上になるとあります。
研究開発では、お金のかかる実験からコストの小さくなってきたコンピューター・シミュレーションへのシフトが続くというのがこの予測の主要な裏付けのひとつになっていて、日本もその点では例外でないはずですので、巻き返す元気さが必要です。
・さて読売新聞の記事ですが、東工大の松岡聡教授が"長期計画で一台だけ作るのではなく、常に先を見越して世界トップに届く計画を次々と打ち立てていかないと新興国に負けてしまう"という指摘をしています。
・これは日本のHPC戦略の弱点を指摘していて、まったくそのとおりだと思いますし、スーパーコンピューターのリーダー格と目されているIBMやCray社は、企業としてこのことを必死に実行しているように見えます。
コンピューター・シミュレーションについては国内に長い経験を蓄積してきた強みがあるので、いまHPCの巻き返しに必要なものはなんと言っても海外に負けない若手・中堅層の開拓者精神と戦略立案・実行力と思っています。
・"日本また後退"という意味は、Top500リストで"日本の代表的スーパーコンピューターが順位を下げた(同記事)"ということを言っています。
・この記事の"日本の代表的スーパーコンピューター"というのが、国産メーカーが納入したスーパーコンピューターを指していて、日本国内で利用されているスーパーコンピューターを指しているわけではないという粗さが個人的には少なからず気になりますが、しかしどちらから見てもこのところ日本が米国はもとよりヨーロッパに対してもHPC分野の元気度合いがめっきり弱くなってきた印象は否めません。
・しかし先日発表されたIDC社の予測では、世界全体のHPCサーバー売り上げ高は強い成長を続け、2011年には2006年の1.5倍以上になるとあります。
研究開発では、お金のかかる実験からコストの小さくなってきたコンピューター・シミュレーションへのシフトが続くというのがこの予測の主要な裏付けのひとつになっていて、日本もその点では例外でないはずですので、巻き返す元気さが必要です。
・さて読売新聞の記事ですが、東工大の松岡聡教授が"長期計画で一台だけ作るのではなく、常に先を見越して世界トップに届く計画を次々と打ち立てていかないと新興国に負けてしまう"という指摘をしています。
・これは日本のHPC戦略の弱点を指摘していて、まったくそのとおりだと思いますし、スーパーコンピューターのリーダー格と目されているIBMやCray社は、企業としてこのことを必死に実行しているように見えます。
コンピューター・シミュレーションについては国内に長い経験を蓄積してきた強みがあるので、いまHPCの巻き返しに必要なものはなんと言っても海外に負けない若手・中堅層の開拓者精神と戦略立案・実行力と思っています。
ホンダF1の成績を決めた空力設計
・「ホンダ設計ミスに泣く」という記事が今日の読売新聞朝刊の34面に載っていました。今年のF1世界選手権でトヨタ、ホンダの日本チーム勢が不調だったことについての記事ですが、ホンダの不振の原因は車体空力設計にあったと分析しています。
・空気抵抗が大きかった上に、走行中のダウンフォースも小さいために直線、カーブとも後れを取ったとあります。
・SC07(その2)で、BMWのF1のCFDシミュレーションの発表を紹介しましたが、600kgという軽い車体が時速350kmで運動する世界ですから、仮にドライバーの技量が同じであれば、規格はあるものの自由度が残されている空力設計での優劣しか設計者には残されていないわけです。
・国内では地球シミュレーターを使用してフォーミュラカーの詳細なCFDシミュレーションも発表されていますが、実戦に応用しようとすると風洞実験では難しい高速走行時の路面、タイヤからの影響の予測や、コーナリング時の空力チューニングなど膨大な計算ケースが必要だとBMWのLarsson氏が話していたのを思い出します。(どのレベルまでBMWが実現しているかはわかりませんが)。
HPCに関係する一人としては、" F1日本勢がCFDを活用した空力設計で勝利 "という見出しが現れる日が来ることを期待するばかりです。
もちろん地球シミュレーターでなければできない問題ではなく、むしろ最新の大型HPCシステムを企業がCFD専用に利用できる環境とCFD専門家の存在が大事なことがBMWの例からわかります。
・空気抵抗が大きかった上に、走行中のダウンフォースも小さいために直線、カーブとも後れを取ったとあります。
・SC07(その2)で、BMWのF1のCFDシミュレーションの発表を紹介しましたが、600kgという軽い車体が時速350kmで運動する世界ですから、仮にドライバーの技量が同じであれば、規格はあるものの自由度が残されている空力設計での優劣しか設計者には残されていないわけです。
・国内では地球シミュレーターを使用してフォーミュラカーの詳細なCFDシミュレーションも発表されていますが、実戦に応用しようとすると風洞実験では難しい高速走行時の路面、タイヤからの影響の予測や、コーナリング時の空力チューニングなど膨大な計算ケースが必要だとBMWのLarsson氏が話していたのを思い出します。(どのレベルまでBMWが実現しているかはわかりませんが)。
HPCに関係する一人としては、" F1日本勢がCFDを活用した空力設計で勝利 "という見出しが現れる日が来ることを期待するばかりです。
もちろん地球シミュレーターでなければできない問題ではなく、むしろ最新の大型HPCシステムを企業がCFD専用に利用できる環境とCFD専門家の存在が大事なことがBMWの例からわかります。
2007年10月25日
●IBM POWER6マイクロプロセッサー・テクノロジー号
・IBM POWER6マイクロプロセッサーというと、電力消費をその前のPOWER5と同じままでクロックをいっきに倍の4.7GHzに上げた現在最速のデュアル・コア プロセッサーです。
・どうしてそれを実現したか、POWER6マイクロアーキテクチャなどについての詳細な内容がIBM Journal of Research and Development Vol.51,No.6 "IBM POWER6 Microprocessor Technology"のWeb版で発表されています。まだEarly paper版なので論文の一部は未刊になっていますがけっこうな分量です。
・個人的には二種類の演算加速器: POWERアーキテクチャのSIMDへの拡張命令であるVMXと十進浮動小数点演算器DFUについて書かれた章に興味を持ちました。前者はグラフィックスや科学技術計算対象、後者は十進数の正しい丸め処理が必要な金融計算向けです。
10E − 1 + 100E − 2 = 200E − 2 という表現に興味があればこの章も一読でしょう。
・図があるのでHTMLよりも、ダウンロードできるpdfのほうが断然読みやすいです。
・どうしてそれを実現したか、POWER6マイクロアーキテクチャなどについての詳細な内容がIBM Journal of Research and Development Vol.51,No.6 "IBM POWER6 Microprocessor Technology"のWeb版で発表されています。まだEarly paper版なので論文の一部は未刊になっていますがけっこうな分量です。
・個人的には二種類の演算加速器: POWERアーキテクチャのSIMDへの拡張命令であるVMXと十進浮動小数点演算器DFUについて書かれた章に興味を持ちました。前者はグラフィックスや科学技術計算対象、後者は十進数の正しい丸め処理が必要な金融計算向けです。
10E − 1 + 100E − 2 = 200E − 2 という表現に興味があればこの章も一読でしょう。
・図があるのでHTMLよりも、ダウンロードできるpdfのほうが断然読みやすいです。
2007年10月20日
●Allenおばさんのチューリング賞記念にIBMがPh.D奨励賞を新設
・Fran Allenと言えば女性初のIBM Fellowであり、今年二月にHPC分野のプログラム最適化理論などにより女性で始めて情報科学のノーベル賞とも言われるチューリング賞を受賞した科学者です。
・そのチューリング賞受賞を記念してIBMがPh.D. Fellowship Award というのを設立しました。この賞はフロリダでおこなわれている"Grace Hopper Celebration of Women in Computing 2007"で昨夕発表されています。
・受賞者はキャリア・メンターのIBM研究者の指導を受けたり、IBMの研究所に招かれて発表や討論できることになっているようです。
・Ph.D.の女子学生がもっと大勢コンピューター・サイエンスやエンジニアリングの研究に入ってくるのを元気づけるというのがこの賞の主旨ですので、男子学生は対象外でした。
そういえばコンピュータ系は女性が少ないような気がします。SC06のテクニカルコンファレンスの発表でも男性がほとんどでした。
・そのチューリング賞受賞を記念してIBMがPh.D. Fellowship Award というのを設立しました。この賞はフロリダでおこなわれている"Grace Hopper Celebration of Women in Computing 2007"で昨夕発表されています。
・受賞者はキャリア・メンターのIBM研究者の指導を受けたり、IBMの研究所に招かれて発表や討論できることになっているようです。
・Ph.D.の女子学生がもっと大勢コンピューター・サイエンスやエンジニアリングの研究に入ってくるのを元気づけるというのがこの賞の主旨ですので、男子学生は対象外でした。
そういえばコンピュータ系は女性が少ないような気がします。SC06のテクニカルコンファレンスの発表でも男性がほとんどでした。
2007年10月19日
●次世代スーパーコンピューティング・シンポジウム2007
・ちょっと前になりますが、第二回になる次世代スーパーコンピューティング・シンポジウムは、今回も広い会場が満員になるという大盛況のシンポジウムでした。産官学に加えて政界からも参加しているというのがこの種の学術的な会としては印象的です。
・このことはプロジェクトの応援団が多岐の分野に渡っていることを示しているわけで、最初は心強いでしょうが、いわば多くのステークホルダーをどうやってプロジェクト成功に向けて収束させていくのか、これから大変な努力がいるだろうなというのが実感でした。
・岩崎筑波大学長が基調講演「計算科学への挑戦」でも話されていたと思いますが、私などはやはりいくつかのグランドチャレンジ問題に正面から挑戦することに次世代スーパーコンピュータ開発の意味がある、とするのがいちばん理にかなっているだろうと考えています。
・このプロジェクトを応援している産業界が、次世代スパコンを自社のR&Dに本格的に利用するためには投資判断するための、アーキテクチャなどについての次々世代にわたる信頼できる開発ロードマップが欲しいわけで、これは政府プロジェクトでは難題です。コンピューター・メーカーが自社製品化する際にしか提示できないでしょう。
・さらに予算が大きいからといって(地球シミュレーターのときの約二倍程度)、だれでも、どんな問題についても性能がだせるような10ペタFLOPS級のスーパーコンピュータなどが現在の技術レベルでできるわけがないのですから、アーキテクチャの変遷に対応し、性能を引き出していくだけのアプリケーション・プログラム開発の力量をつけていくことが必要です。フリーランチのよき時代はもう終わりつつあります。
・シンポジウムでやや気になったのは、この点について楽観的というか、積極的な計画が見えない点です。今よりすぐれたコンパイラーは開発できるでしょうが、未開拓のペタFLOPSの世界がそれで済むものとは思えません。
・ベクトル・プロセッサーによるスーパーコンピューターが急速に関心を高めた1980年代半ばはプログラミング手法やアルゴリズム開発の意欲が非常に高かったときで、中でも物理学会が企画した(記憶では)冷房もないお茶の水は日仏会館に三日間缶詰めになって受けた講習会がいまでも記憶に残っています。
・詳細なアーキテクチャの情報をもとにして、性能を最後の1%まで引き出すためのプログラミングへ持続する熱気を作り出していくことはとても大事で、おそらくこの講習会はその先鞭をつけたのではなかったかと思います。
・改めていま見ると講習会の世話人(左)には、後の理研理事長や文部科学大臣の有馬朗人東大教授はじめ、この分野を重要とした先覚者諸氏が並んでいて納得です。こういう地味だが実際的な企画も、若い世代を対象に次世代スーパーコンピューター・プロジェクトの中で大いにすすめてみたらどうかと思いました。
・このことはプロジェクトの応援団が多岐の分野に渡っていることを示しているわけで、最初は心強いでしょうが、いわば多くのステークホルダーをどうやってプロジェクト成功に向けて収束させていくのか、これから大変な努力がいるだろうなというのが実感でした。
・岩崎筑波大学長が基調講演「計算科学への挑戦」でも話されていたと思いますが、私などはやはりいくつかのグランドチャレンジ問題に正面から挑戦することに次世代スーパーコンピュータ開発の意味がある、とするのがいちばん理にかなっているだろうと考えています。
・このプロジェクトを応援している産業界が、次世代スパコンを自社のR&Dに本格的に利用するためには投資判断するための、アーキテクチャなどについての次々世代にわたる信頼できる開発ロードマップが欲しいわけで、これは政府プロジェクトでは難題です。コンピューター・メーカーが自社製品化する際にしか提示できないでしょう。
・さらに予算が大きいからといって(地球シミュレーターのときの約二倍程度)、だれでも、どんな問題についても性能がだせるような10ペタFLOPS級のスーパーコンピュータなどが現在の技術レベルでできるわけがないのですから、アーキテクチャの変遷に対応し、性能を引き出していくだけのアプリケーション・プログラム開発の力量をつけていくことが必要です。フリーランチのよき時代はもう終わりつつあります。
・ベクトル・プロセッサーによるスーパーコンピューターが急速に関心を高めた1980年代半ばはプログラミング手法やアルゴリズム開発の意欲が非常に高かったときで、中でも物理学会が企画した(記憶では)冷房もないお茶の水は日仏会館に三日間缶詰めになって受けた講習会がいまでも記憶に残っています。
・改めていま見ると講習会の世話人(左)には、後の理研理事長や文部科学大臣の有馬朗人東大教授はじめ、この分野を重要とした先覚者諸氏が並んでいて納得です。こういう地味だが実際的な企画も、若い世代を対象に次世代スーパーコンピューター・プロジェクトの中で大いにすすめてみたらどうかと思いました。
2007年10月08日
● Cell/B.E. Challenge'07コンテストの受賞者
・大学生を対象に今年の2月5日から始まったIBM主催の国際的なCell/B.E. Challenge'07コンテストの入賞者が最近発表されました。Cell/B.E. のポテンシャルを発見しようというのがこの"Challenge'07"コンテストの副題となっています。
・地域特性を考慮したのでしょうか、(地域1)北米/ラテン・アメリカと(地域2)ヨーロッパ/インド・中国に分けて各1位〜4位まで入賞としています。最初の関門のChallenge 1[Cell/B.E. Trivia]というクイズには25ヶ国から8万人弱が競ったともあります。
・賞金は1位が1万ドル(今日のレートで117万円)、4位でも2,500ドルと日本では考えられない高額賞金となっているのが目立ちます。
・(地域1)北米/ラテン・アメリカの1位はカリホルニア大とダートマス・カレッジの四人のチームによる「Brain Circuit Bottom-Up Engine Simulation and Acceleration for Vision Applications」という人間の脳の大規模モデルをPlayStation3の低価格クラスター・システムで既存の小型クラスター・システムの100倍の性能を出したというものです。
・2位、3位は米国の大学の学生でそれぞれ「MapReduce on Cell for large-scale data processing」と「C-Ray: Interactive Volume Ray Casting Library」、4位をブラジルのサンパウロ大学の日系人らしい学生二人の仕事「Implementation of fast object detection」が受賞しています。
・(地域2)ヨーロッパ/インド・中国では、中国の学生が1位から4位まで総なめしています。
・1位はShanghai Jiaotong University(上海交通大学)の6人の学生による「Exact CT Reconstruction on Cell/B.E.」で、CTによる医用画像構築をCell/B.E.を使用して10分以内で実現したものです。
・以下2位がTianjin University(天津大学)の4人の学生による「Multi-resolution Texture Synthesis on Cell/B.E.」、3位がまた上海交通大学の別の学生4人による「H264 Real Time encoding on Cell/B.E.」、4位がNanjing University(南京大学)の二人の学生による「A Novel Cell Powered Grid Space」です。 .
・やはりというか、入賞作品には画像や信号処理に関するものが多く、大規模シミュレーションというのはないものの、いずれもレベルが高い印象を受けます。ヨーロッパ/インドからの入賞者がいないのは、積極的な中国の学生の前に蹴散らされてしまったのでしょうか。
日本では学界主催のプログラミング・コンテストが普通ですが、国際的な企業主催による各国横断型のこの種のコンテストに参加して、とかく日本が弱いと言われているソフトウェア分野で大学生が腕試しをするという可能性も今後はありそうです。その時にはまず元気な中国やインドの学生に伍して活躍してほしいところです。
・地域特性を考慮したのでしょうか、(地域1)北米/ラテン・アメリカと(地域2)ヨーロッパ/インド・中国に分けて各1位〜4位まで入賞としています。最初の関門のChallenge 1[Cell/B.E. Trivia]というクイズには25ヶ国から8万人弱が競ったともあります。
・賞金は1位が1万ドル(今日のレートで117万円)、4位でも2,500ドルと日本では考えられない高額賞金となっているのが目立ちます。
・(地域1)北米/ラテン・アメリカの1位はカリホルニア大とダートマス・カレッジの四人のチームによる「Brain Circuit Bottom-Up Engine Simulation and Acceleration for Vision Applications」という人間の脳の大規模モデルをPlayStation3の低価格クラスター・システムで既存の小型クラスター・システムの100倍の性能を出したというものです。
・2位、3位は米国の大学の学生でそれぞれ「MapReduce on Cell for large-scale data processing」と「C-Ray: Interactive Volume Ray Casting Library」、4位をブラジルのサンパウロ大学の日系人らしい学生二人の仕事「Implementation of fast object detection」が受賞しています。
・(地域2)ヨーロッパ/インド・中国では、中国の学生が1位から4位まで総なめしています。
・1位はShanghai Jiaotong University(上海交通大学)の6人の学生による「Exact CT Reconstruction on Cell/B.E.」で、CTによる医用画像構築をCell/B.E.を使用して10分以内で実現したものです。
・以下2位がTianjin University(天津大学)の4人の学生による「Multi-resolution Texture Synthesis on Cell/B.E.」、3位がまた上海交通大学の別の学生4人による「H264 Real Time encoding on Cell/B.E.」、4位がNanjing University(南京大学)の二人の学生による「A Novel Cell Powered Grid Space」です。 .
・やはりというか、入賞作品には画像や信号処理に関するものが多く、大規模シミュレーションというのはないものの、いずれもレベルが高い印象を受けます。ヨーロッパ/インドからの入賞者がいないのは、積極的な中国の学生の前に蹴散らされてしまったのでしょうか。
日本では学界主催のプログラミング・コンテストが普通ですが、国際的な企業主催による各国横断型のこの種のコンテストに参加して、とかく日本が弱いと言われているソフトウェア分野で大学生が腕試しをするという可能性も今後はありそうです。その時にはまず元気な中国やインドの学生に伍して活躍してほしいところです。
2007年09月16日
●スーパーコンピューターを20万円で創る
・友人の霜田さんが面白いと言って貸してくれたのがこの新書です。
スーパーコンピューターを20万円で創る
伊藤智義著 集英社新書(2007.6)
・いまではゴードン・ベル賞の常連となっている宇宙シミュレーション専用超高速コンピューターGrapeですが、その開発プロジェクト開始時、1989年に東大杉本研究室の大学院生(M1)として参加し、それ以来ハードウェアの開発を担当してGrape-1、Grape-2の成功をもたらした中核の一人、伊藤智義氏(現千葉大教授)による本です
・Grapeも発展してGrape-7が稼動するまでになり、さらに分子動力学専用のMD-Grapeへと枝分かれし、こちらもMDGRAPE-3へと進化して理研で稼動を始めています。そして今年のゴードン・ベル賞ファイナリストにもなっています。
より汎用目的のGRAPE-DRプロジェクトも進行中です。
・この本のユニークなところは、なんといってもプロジェクトの主要当事者である伊藤智義氏が執筆し当時のリーダーの杉本教授始め全員が実名で登場していることで、日本の出版物としてはめずらしいのではないでしょうか。文章は平易でたいへん読みやすいものです。
HPC関係者にとっても貴重な一冊になることは間違いありません。
この本から連想したのは、ステルスの開発者が書いた「ステルス戦闘機―スカンク・ワークスの秘密 」Ben R. Rich (原著), 増田 興司 (翻訳) 講談社 (1997/01) です。これも非常に面白い本でしたが、Grapeプロジェクトは、もしかして日本風にアレンジされたスカンク・ワークスだったのかも知れません。
スーパーコンピューターを20万円で創る
伊藤智義著 集英社新書(2007.6)
・いまではゴードン・ベル賞の常連となっている宇宙シミュレーション専用超高速コンピューターGrapeですが、その開発プロジェクト開始時、1989年に東大杉本研究室の大学院生(M1)として参加し、それ以来ハードウェアの開発を担当してGrape-1、Grape-2の成功をもたらした中核の一人、伊藤智義氏(現千葉大教授)による本です
・Grapeも発展してGrape-7が稼動するまでになり、さらに分子動力学専用のMD-Grapeへと枝分かれし、こちらもMDGRAPE-3へと進化して理研で稼動を始めています。そして今年のゴードン・ベル賞ファイナリストにもなっています。
より汎用目的のGRAPE-DRプロジェクトも進行中です。
・この本のユニークなところは、なんといってもプロジェクトの主要当事者である伊藤智義氏が執筆し当時のリーダーの杉本教授始め全員が実名で登場していることで、日本の出版物としてはめずらしいのではないでしょうか。文章は平易でたいへん読みやすいものです。
HPC関係者にとっても貴重な一冊になることは間違いありません。
この本から連想したのは、ステルスの開発者が書いた「ステルス戦闘機―スカンク・ワークスの秘密 」Ben R. Rich (原著), 増田 興司 (翻訳) 講談社 (1997/01) です。これも非常に面白い本でしたが、Grapeプロジェクトは、もしかして日本風にアレンジされたスカンク・ワークスだったのかも知れません。
2007年09月07日
●テキサスの0.5ペタFLOPSシステム
・9/3(月)の筑波大学計算科学研究センター主催による「PACS-CSシステムと計算科学」シンポジウムで、テキサス大学TACCのMinyard博士による同センターが導入中の0.5ペタFLOPSシステム(TACC Rangerシステム)の招待講演がありました。
・システム96ラックと分電盤がコンパクトにマシンルームに配置された写真を見せてくれましたが、たぶん中味の方はこれから実装していくのでしょう。
・このRangerシステムは、簡単に言えばAMD Barcelonaプロセッサー 4ソケット搭載のSun製ブレード・サーバーをInfinibandスイッチによる相互接続網で結んだクラスター・システム(ISC'07で発表されたSun Constellation Systemがそれ)で、OSにはLinuxが使われます。
・ノード(ブレード・サーバー)数が3,936ノード、Barcelonaプロセッサー数が15,744個(プロセッサーはQuad-coreで各コアが4FLOPS/cycle)。Barcellonaプロセッサーを2GHzで動作させるとちょうど504TFLOPSになります。
メモリーは125TB (8GB/プロセッサー)、外部HDが合計1.7ペタバイト(内蔵HDはなし。かわりにIBM BladeCenterでも採用されたフラッシュ・メモリーを使用)
・Blue Gene/LやBlue Gene/Pのように、数万ノードまで性能がスケーラブルになるための演算性能/通信性能のバランスへの配慮や、故障を回避するような特別な工夫が特に見当たらない一見コモディティの集積からBlue Gene/Lの性能を超える0.5ペタFLOPSを達成しようとしていますが、これがテキサス魂というのでしょう。
・計算ノードのラック数は82個なので、これでシステム消費電力の2.4MWを割るとラックあたりの電力消費は約29KWとなります。25KW以上になると熱設計が難しいとMinyard博士話していましたが、最終形でどう解決されているかがシステムの信頼性にも影響してきそうです。Blue Gene/Lでは確かラックあたり23〜24KWの電力消費。そしてラックの内部に斜め整流版を入れるというコロンブスの卵のような簡単な方法で解決しています。
・気になる消費電力は、システムが2.4MW、冷却用が約1MW、計約3.4MW、電気代は年間約100万ドル(1.2億円)だそうです。
・ところで購入(?)費用はNSF(全米科学財団)から獲得した賞金$59M(約62億円)にテキサス大からの助成金を入れて総額$76M (約85億円)とのことです。性能が目標通り達成できれば世界最大性能のHPCシステムが高々100億円以下で実現可能という時代に入ります。
・Minyard博士が多くのアプリケーションに対する性能期待値として、サステインドで50〜100TFLOPSはいくだろうと話していましたが、さてどうなるでしょうか。
・博士は課題として、
●密に実装したことによる発熱や、コモディティなプロセッサー利用による信頼性(MTBF)への影響
●ソフトウェアがまだ成熟していない
ことを指摘していました。講演からはよくわかりませんでしたが、高速プロセッサーとインフィニバンド相互接続網の組み合わせも巨大クラスター・システムの場合定量的に見てスケーラビリティのボトルネックにならないのか気になります。もっともこうした点は百も承知のことでしょうが。
今日、ペタFLOPS以上の性能を指向したスーパーコンピュータには、
●10ペタFLOPSを目指しTechnology By Japanによる次世代スーパーコンピューター・プロジェクト(アーキテクチャの詳細についてはまだ未公開)、
●Powerアーキテクチャをベースに精緻な設計で1〜20ペタFLOPSをターゲットにするIBM Blue Gene、そして
●1ペタFLOPSを目標に、Cell Broadband EngineをアクセルレータにしたLos Alamos National Laboratory/IBMのRoadrunner
の三つがよく知られています。
それらとは異なり、コモディティ製品を集めてシンプルに組み立てるというアプローチをとるTACC Rangerシステムはどこまでの性能を実現するでしょうか。
・システム96ラックと分電盤がコンパクトにマシンルームに配置された写真を見せてくれましたが、たぶん中味の方はこれから実装していくのでしょう。
・このRangerシステムは、簡単に言えばAMD Barcelonaプロセッサー 4ソケット搭載のSun製ブレード・サーバーをInfinibandスイッチによる相互接続網で結んだクラスター・システム(ISC'07で発表されたSun Constellation Systemがそれ)で、OSにはLinuxが使われます。
・ノード(ブレード・サーバー)数が3,936ノード、Barcelonaプロセッサー数が15,744個(プロセッサーはQuad-coreで各コアが4FLOPS/cycle)。Barcellonaプロセッサーを2GHzで動作させるとちょうど504TFLOPSになります。
メモリーは125TB (8GB/プロセッサー)、外部HDが合計1.7ペタバイト(内蔵HDはなし。かわりにIBM BladeCenterでも採用されたフラッシュ・メモリーを使用)
・Blue Gene/LやBlue Gene/Pのように、数万ノードまで性能がスケーラブルになるための演算性能/通信性能のバランスへの配慮や、故障を回避するような特別な工夫が特に見当たらない一見コモディティの集積からBlue Gene/Lの性能を超える0.5ペタFLOPSを達成しようとしていますが、これがテキサス魂というのでしょう。
・計算ノードのラック数は82個なので、これでシステム消費電力の2.4MWを割るとラックあたりの電力消費は約29KWとなります。25KW以上になると熱設計が難しいとMinyard博士話していましたが、最終形でどう解決されているかがシステムの信頼性にも影響してきそうです。Blue Gene/Lでは確かラックあたり23〜24KWの電力消費。そしてラックの内部に斜め整流版を入れるというコロンブスの卵のような簡単な方法で解決しています。
・気になる消費電力は、システムが2.4MW、冷却用が約1MW、計約3.4MW、電気代は年間約100万ドル(1.2億円)だそうです。
・ところで購入(?)費用はNSF(全米科学財団)から獲得した賞金$59M(約62億円)にテキサス大からの助成金を入れて総額$76M (約85億円)とのことです。性能が目標通り達成できれば世界最大性能のHPCシステムが高々100億円以下で実現可能という時代に入ります。
・Minyard博士が多くのアプリケーションに対する性能期待値として、サステインドで50〜100TFLOPSはいくだろうと話していましたが、さてどうなるでしょうか。
・博士は課題として、
●密に実装したことによる発熱や、コモディティなプロセッサー利用による信頼性(MTBF)への影響
●ソフトウェアがまだ成熟していない
ことを指摘していました。講演からはよくわかりませんでしたが、高速プロセッサーとインフィニバンド相互接続網の組み合わせも巨大クラスター・システムの場合定量的に見てスケーラビリティのボトルネックにならないのか気になります。もっともこうした点は百も承知のことでしょうが。
今日、ペタFLOPS以上の性能を指向したスーパーコンピュータには、
●10ペタFLOPSを目指しTechnology By Japanによる次世代スーパーコンピューター・プロジェクト(アーキテクチャの詳細についてはまだ未公開)、
●Powerアーキテクチャをベースに精緻な設計で1〜20ペタFLOPSをターゲットにするIBM Blue Gene、そして
●1ペタFLOPSを目標に、Cell Broadband EngineをアクセルレータにしたLos Alamos National Laboratory/IBMのRoadrunner
の三つがよく知られています。
それらとは異なり、コモディティ製品を集めてシンプルに組み立てるというアプローチをとるTACC Rangerシステムはどこまでの性能を実現するでしょうか。


