研究人員仔細檢查每個系統(tǒng)節(jié)點。
1月9日,北京,人民大會堂。
國防科技大學“天河一號”獲2014年國家科技進步獎特別獎。湖南漣源人、“天河一號”工程總指揮廖湘科作為2014年國家科技進步獎代表發(fā)言。
這是一個歷史性的時刻。從1983年中國科學家成功研制出第一代“銀河”超級計算機開始,經(jīng)過幾代中國科學家的艱苦探索,中國的超級計算機終于登上了世界之巔,盡顯王者風范。“天河一號”被譽為“全國最重的武器”。
這個光榮的WINNER的故事從恥辱的玻璃房子開始。
正式介紹
在國防科技大學,很多人都聽說過玻璃房子的故事。
對于高性能電腦,歐美國家對中國實行了長期禁運,也成立了專門從事禁運的機構(gòu)。80年代,中國氣象部門想從美國克萊公司進口一臺電腦,但美國人死活不肯賣。后來我終于松口了,但是美國政府不得不對出口到中國的高性能電腦進行監(jiān)控,就是在機房安裝監(jiān)控儀器,把機器封在玻璃房里自己人監(jiān)控,禁止中國科技人員進入。
2010年,國防科技大學超級計算機“天河一號”獲得國際500強第一名。在接受新華社采訪時,總設(shè)計師楊曾大談自己親眼看到玻璃房子的感受:“這段真實的歷史,是中國科研工作者心中永遠的痛。在中國土地上,外國人被‘技術(shù)門’拒之門外,就像農(nóng)民家里沒飯吃,母親沒奶喂孩子。”
面對西方國家如此嚴密的技術(shù)封鎖,以慈云貴教授為代表的中國第一代計算機科學家坐不住了。國防科技大學計算機系和計算機研究所的創(chuàng)始人,帶領(lǐng)國防科技大學計算機研究團隊,于1983年12月研制出中國第一臺十億次巨型電子計算機,取名“銀河”。從此,中國成為繼美國、日本之后,能夠自主設(shè)計制造超級計算機的國家。慈云歸被譽為中國超級計算機之父。
從云貴到楊,短短幾十年的中國超級計算,可以用楊的一句詩來形容:夢見天河,閃電巡陸十億年。濱海坐地匆匆,倚天妙計。
當時,當我得知“天河一號”獲得國際500強第一名時,楊說:“我們做了一些讓自己滿意的事情,做了一些讓中國人驕傲的事情。”得到這首詩。
前奏
中國的超級計算總是比別人差一點點,讓人心痛
90年代初,微處理器的出現(xiàn)導(dǎo)致了MPP整體技術(shù)的突破。人類計算機已經(jīng)進入了超級計算機時代。國際戰(zhàn)略家認為,“超級計算機已經(jīng)成為國際競爭的戰(zhàn)略領(lǐng)域?!?/p>
1993年,德國曼海姆大學的漢斯·埃里克教授開始實施國際500強排名。雖然純粹是“民間活動”,但卻釋放出了強大的魅力,甚至贏得了政治家的青睞,日益演變成“高科技奧運”。
此時,國防科大Galaxy系列超級計算機的關(guān)鍵技術(shù)正在如火如荼的進行著。但每當中國躍上一個新臺階,美國或日本很快就會宣布研制出世界上最快的超級計算機。用那句臺詞的話說:“我們的超級計算機水平總是比別人差一點”。
雖然只是一點點,但在日益激烈的國際競爭中卻大相徑庭。在一篇即將在發(fā)表的報告文學中,作者龔評論了這“一點點”:
如果別人長得那么“高一點”,那就意味著站在“高峰”上,可以用俯視的眼光看世界;你這么“低”一點,說明你還在半山腰,只能抬頭卑微別人!
別人只要高“一點點”,就可以狂妄地說“這個在中國不能賣給你”“那個在中國不能賣給你”,還可以告訴你怎么做,讓你做這個,不讓你做那個...總之,別人愛干嘛干嘛,你不喜歡別人!
這個“一點點”是套在中國人脖子上的“套索”,讓人喘不過氣來。
這個“一點點”是一把掛在中國人頭上的“劍”,深深刺痛著中國人的心。
中國站在同一起跑線上,巔峰對決開始
21世紀,世界超級計算機的發(fā)展遇到了“冰封”時期。為了提高超級計算系統(tǒng)的整體性能,科學家們只能依靠增加系統(tǒng)規(guī)模:例如,計算機有幾個足球場那么大,需要建造一個特殊的發(fā)電站來滿足其功耗。2004年,日本的“地球模擬器”一度占據(jù)國際500強榜首,但它的機房實際上需要四層,銅纜長達數(shù)百公里。
超級計算技術(shù)需要新的架構(gòu)理論來支撐。這也意味著,中國和美國、日本等發(fā)達國家處在同一起跑線上,是時候在超級計算領(lǐng)域打一場決戰(zhàn),沖擊巔峰了!
經(jīng)過反復(fù)論證,楊在國際上首次提出了異構(gòu)融合架構(gòu)技術(shù)。2006年,他帶領(lǐng)R&D團隊解決關(guān)鍵問題。楊擔任行政領(lǐng)導(dǎo)、總工程師等多個職務(wù),每周抽出兩天時間與大家交流、討論學術(shù)問題。晚飯時間過后,他買單,繼續(xù)在飯桌上討論。通常,和他的成員楊會帶兩個手機面板。一旦發(fā)現(xiàn)新東西就打電話討論,經(jīng)常在手機上燒耳朵。
2007年6月,楊帶領(lǐng)團隊完成了《64位流處理器體系結(jié)構(gòu)研究》的研究論文,該論文在計算機系統(tǒng)體系結(jié)構(gòu)國際會議上發(fā)表,并被國際權(quán)威期刊接受。這是ISCA承認的第一篇由中國學者獨立完成的學術(shù)論文。也是中國人在計算機發(fā)展史上提出的第一個架構(gòu)理論。
中國科學家為世界超級計算機技術(shù)突破“冰凍期”提供了全新的思維方式。中國和世界計算機強國之間的“巔峰”對抗已經(jīng)開始。
兩次襲擊
“冒險”攻擊:直接沖刺從每秒10萬億次到每秒1000萬億次
從2006年開始,楊和他的團隊開始了一場極具創(chuàng)意甚至有點冒險的主動進攻。
當時國家制定了“先研制兩百萬臺超級計算機,再研制一臺千兆級超級計算機”的“兩步走”戰(zhàn)略。而以楊為總設(shè)計師的總工程師組,經(jīng)過深入的技術(shù)研究和反復(fù)權(quán)衡利弊,決定直接從每秒10萬億次沖刺到每秒1000萬億次,走的是別人從來沒有走過的CPU+GPU技術(shù)路線。這個非同尋常的決定引起了軒然大波。
以10倍的速度開發(fā)超級計算機已經(jīng)成為國際慣例。從每秒10萬億次直接跳到每秒1000萬億次是不是有點太大了?然而,楊認為,雖然兩步一步在世界上是罕見的,但對銀河人來說并不新鮮。慈云貴帶領(lǐng)大家開發(fā)王源-1遠洋測量船中心電腦的時候,不是直接從每秒一萬次沖刺到每秒一百萬次嗎?當今世界,超級計算機的性能每10年提高1000倍。在這種情況下,如果按所謂的“慣例”一步一步來,只能永遠跟在別人后面。
野心再大,也需要實踐檢驗。偏劍怪棋不太好。
CPU+GPU的異構(gòu)集成架構(gòu),形象地說是將很多CPU和GPU有機地連接成一個“捆綁火箭”。
中國有句諺語:“一個和尚挑水喝,兩個和尚挑水喝,三個和尚沒水喝。”把幾千個CPU和幾千個GPU組合成一個“大廟”,還能硬“挑水”嗎?
2009年3月,他們把CPU和GPU結(jié)合起來,發(fā)現(xiàn)總性能不到600億倍,而一個CPU的性能接近500億倍。也就是說,雖然GPU在圖像處理上的速度驚人,但是把它和CPU放在一起進行科學計算就變得很懶,計算效率只有20%左右。
面對考試成績,大家心里都涼了半截。聽完情況匯報,楊向妻子招手:“你去把車開過來,帶我出去走走?!碑斳囻偝龈咚偈召M站時,楊拿出手機堅定地說:“別人不敢走的路,不代表自己不能走。從技術(shù)原理分析,通過軟件優(yōu)化可以大大提高GPU的計算性能……”
“特種兵”在長沙郊區(qū)封閉了半年
關(guān)鍵時刻,經(jīng)學校黨委推薦,時任中央軍委主席的胡錦濤任命廖湘科為petascale超級計算機項目總指揮兼執(zhí)行副總工程師。這個湖南籍的男人也是“虎將軍”。1983年,當“銀河一號”研制成功的消息傳來時,正在清華讀書的廖湘科和他的同學們立即南下長沙,親眼目睹了創(chuàng)造歷史的機器是什么樣的。畢業(yè)后,廖湘科毫不猶豫地進入國防科技大學攻讀碩士學位。用他的話說:“我剛?cè)チ恕y河’!”
面對挫折,楊、、不僅沒有退縮,還做出了非同尋常的決定:將完成研發(fā)任務(wù)的時間節(jié)點從2010年底提前一年,即在2009年底前推出中國第一臺千兆級超級計算機。很多人擔心:“關(guān)鍵技術(shù)還沒有突破,任務(wù)提前一年完成。能做到嗎?”
總攻已經(jīng)開始。位于長沙郊區(qū)的防汛指揮部——國防科技大學的超級計算機創(chuàng)新團隊已經(jīng)關(guān)閉半年了。
楊燦群帶領(lǐng)的“突擊隊”在三層樓房里呆了一整天,試圖調(diào)動GPU修士們的積極性,讓他們從早上7點到午夜都能“挑水”,眼睛只盯著顯示屏。
一連好幾天沒有任何成果,楊燦群在床上翻來覆去,閉上眼睛,滿腦子都是波浪般翻滾的數(shù)據(jù)。突然,他隱約覺得眼前滾動的一些數(shù)據(jù)低于設(shè)計目標,爬起來跑到辦公室打開電腦,進入實驗數(shù)據(jù)庫,發(fā)現(xiàn)GPU的一些計算資源沒有被使用。興奮之余,楊燦群立即著手優(yōu)化程序。
楊燦群帶領(lǐng)突擊隊乘勝追擊,擴大戰(zhàn)果。他連續(xù)奮戰(zhàn)四個月,改進優(yōu)化8萬多次,創(chuàng)造了科學奇跡:GPU計算效率躍升至70%以上,達到世界最高水平!
張屠夫死后,中國人還是不吃帶毛的豬!
沒有時間再激動了,一個接一個的挑戰(zhàn)來了。要實現(xiàn)每秒數(shù)十億次運算,超級計算機系統(tǒng)不僅需要CPU和GPU“快速計算”,還需要一個快速平滑的網(wǎng)絡(luò)系統(tǒng),使各種信息“快速運行”。但在2009年7月的試運行中,發(fā)現(xiàn)由于GPU的穩(wěn)定性不夠,系統(tǒng)的穩(wěn)定運行時間幾乎不能超過半小時。“特種兵”想日夜解決GPU的穩(wěn)定性,被稱為petascale超級計算機通信網(wǎng)絡(luò)“立交橋”的新切換方案又出了問題:芯片制造商美國技術(shù)工程師堅決反對他們的提議,拒絕支持。如果堅持走自己的設(shè)計路線,一切都要從零開始探索,創(chuàng)新是困難的,也是有風險的;如果我們完全按照美國的計劃,我們可以肯定會成功,但沒有創(chuàng)新或優(yōu)勢。
怎么辦?
不信的銀河人選擇了前者。他們堅信,沒有美國人的技術(shù)支持,中國人依然會做出新的開關(guān):即使張屠夫死了,中國人依然不會吃帶毛的豬!
短短10個月,他們研制出了一種新型開關(guān),測得的技術(shù)指標大大超過了同類系統(tǒng),成本是同規(guī)模產(chǎn)品的80%。
2009年國慶前夕,第一期超級計算機系統(tǒng)每十億次安裝。這時候,性能更高的新型GPU上市了,讓大家興奮不已,欣喜若狂。但是離任務(wù)節(jié)點只有一個月了,GPU更換必須拆開再重裝。整個系統(tǒng)有2560多個節(jié)點,團隊完成GPU更換一般需要半個月左右。整個團隊二話不說,投入了男女老少的戰(zhàn)斗,終于在三天三夜內(nèi)完成了數(shù)千個GPU的更換工作。任務(wù)完成后,每個人的手上都蓋著創(chuàng)可貼,一雙眼睛熬紅了。
三場決戰(zhàn)
經(jīng)過兩天三夜的睡眠,發(fā)起新的挑戰(zhàn)
2009年10月29日,中國第一臺千兆級超級計算機橫空出世空,中國成為世界上第一個掌握CPU+GPU異構(gòu)集成架構(gòu)技術(shù)的國家,也是第二個研制千兆級超級計算機的國家。時任中共中央總書記、國家主席、中央軍委主席胡錦濤聽到這個消息,親自給她取名“天河”。
2009年11月18日,國際500強榜單出爐。“天河一號”獲得世界第五,亞洲第一,這是中國機在500強排名中的最好成績。十大機器中,9臺美國制造,只有天河一號是中國制造。國防科技大學教授王寶生代表該隊領(lǐng)獎時說:“感覺就像在奧運會上贏得了一枚大獎牌。像奧運會一樣演奏中華人民共和國國歌,那就太美了。”
天河一號總工程師楊接到大洋彼岸的好消息后,放下手機,倒在床上睡了兩天三夜。
作為一個在超級計算機前沿戰(zhàn)斗多年的老兵,他知道在這個充滿火藥味的競爭領(lǐng)域,稍有懈怠,就會被別人超越甚至淘汰。2009年10月,國防科大計算機學院超級計算機創(chuàng)新團隊召開天河一號系統(tǒng)二期動員大會,目標是每秒4700萬億次,必須用自己的CPU逐步改變微處理器依賴進口的局面。
“中國機器,外國核心”是一種說不出的遺憾,是中國人心中隱隱的痛。
許多同行專家對此深表欽佩和擔憂:“一年之內(nèi),機器的性能將提高近三倍,除非發(fā)生奇跡?!?/p>
奇跡真的發(fā)生了。
2010年11月,在世界超級計算大會上,“天河一號”二期系統(tǒng)以其計算峰值比第二名——“美洲虎”高出一倍多的絕對優(yōu)勢獲得國際500強第一名,打破了美國在超級計算機領(lǐng)域的長期霸主地位,標志著我國自主研發(fā)的超級計算機綜合技術(shù)水平進入世界領(lǐng)先行列。
玩過幾個《上甘嶺》
這樣的奇跡,來源于超越常人的超級大膽和艱辛。參與者表示,他們真的玩過幾款“上甘嶺”游戲。比如通信光纖的防御。
通信光纖的鋪設(shè)是“天河一號”二期系統(tǒng)進入國家超級計算天津中心的一期工程,時間緊,任務(wù)重。為了保證施工任務(wù)如期完成,指揮員把任務(wù)細化到天,要求大家“任務(wù)沒完成當天不吃不睡”。
我不知道有些是剛開工第一天就鋪好的。施工指揮拿起一看,頓時目瞪口呆:光纖的絕緣橡膠磨破了,有裂縫,光纖的芯部有些地方露出來了。原來是溝的水泥面太粗糙,盛夏溝溫高達40度,所以光纖保溫層烤得像細骨一樣,可以承受水泥地面的破壞。這個問題不解決,后果不堪設(shè)想。信號會中斷,通信會短路,系統(tǒng)會紊亂。
如何避免光纖絕緣層損壞?大家絞盡腦汁也沒有想出辦法。指揮官擦了擦臉上的汗,拍了拍大腿:“有辦法!”
我看見他脫下襯衫和褲子,跳進悶熱的陰溝里,趴在粗糙的水泥地上。大家一看到,馬上就明白了指揮官的意思。沒有任何人的命令,他們脫下衣服,跳進陰溝里,鋪上一張光滑的“人毯”!
一根光纖沿著官兵光滑的皮膚平滑地向前延伸。官兵的血肉在滾燙的水泥地上被烤焦了,每個人都滿身是汗和污垢。
肉都磨破了,傷口還在流血,沒有人退縮...
天津濱海新區(qū)一位領(lǐng)導(dǎo)看到這一幕非常感動?!霸趹?zhàn)爭年代,我們的士兵用他們的血肉堵住漏洞,炸毀碉堡,為民族獨立和人民解放而戰(zhàn)。和平年代,人民軍隊跳入洪流,堵住大堤,冒著地震,搶救人民。今天看到我軍科研人員光著屁股躺在陰溝里,汗流浹背,血流不止,不撤退,為了保護科研設(shè)備。人民軍隊的光榮傳統(tǒng)沒有在你身上喪失!我們國家有這樣的研究團隊,就算是再難的項目也能拿下!”
幾十個人光著身子光著背在粗糙悶熱的戰(zhàn)壕里爬了幾十天,被堅硬的混凝土和光纖劃得遍體鱗傷。但是15000根光纖毫發(fā)無損。
天河一號二期系統(tǒng)調(diào)試當天,機器一開機,所有通訊線路就暢通了。國家超級計算天津中心領(lǐng)導(dǎo)特意看了看官兵背上尚未愈合的傷口,感慨道:“天河一號二期系統(tǒng)首測順利,有你的貢獻!信用本上,有大家族的名字!”
尾聲
2015年1月7日,國防科技大學天河樓4樓長沙。
上午9點,計算機學院教授、博士生導(dǎo)師陸鈺彤穿著筆挺的軍裝來到辦公室。前一天晚上,她加班到晚上十點半。作為天河的總設(shè)計師,陸鈺彤早就習慣了這種工作模式。她告訴三相都市報記者,“開發(fā)天河一號和天河二號的時候,加班熬夜是常事。我們稱之為‘五加二,白加黑’?!?/p>
陸鈺彤,皮膚白皙,身材修長,是國防科技大學著名的美容學家,天河R&D隊為數(shù)不多的女性之一。1983年Galaxy開發(fā)成功的時候,這個年輕的長沙女孩向往著這個“Galaxy-我出生的地方”,在國防科技大學從本科到博士。
和、陸鈺彤一樣,越來越多的年輕人因為銀河一號、天河一號來到這里,2010年天河一號奪冠時,整個天河隊的平均年齡只有30歲,總設(shè)計師楊只有46歲。
半年后,天河一號被日本的“京”超越。此后,美國紅杉和泰坦先后獲得第一名。但從2013年6月到2014年11月,“天河二號”連續(xù)四次排名第一,獲得“四連冠”。
天河一號的管理者和運營者劉光明對比天河一號和天河二號:“天河一號”運營一個小時,相當于13億人同時用計算器算340年;天河二號一個小時的運行相當于13億人算1000年。
在超級計算機的國際競爭戰(zhàn)略領(lǐng)域,巔峰對抗永無止境,中國已經(jīng)將王者風范鐫刻在史冊上。
■特約撰稿人龔記者嚴平照片由龔提供
科普
天河超級計算機能做什么?
算上天、地、人...
2015年1月9日,“天河一號”超級計算機獲得2014年國家科技進步獎特別獎。超級計算機有什么神奇之處?它和我們的生活有什么關(guān)系?
“超級計算機計算天空,計算土地,計算人,計算過去,計算現(xiàn)在,計算未來...利用超級計算在地球上做CT,可以快速準確的找到石油;用超級計算分析人類基因可以解讀生命的奧秘……”
國家超級計算中心主任劉光明這樣解釋超級計算。超級計算已經(jīng)進入各行各業(yè),千家萬戶,人們的衣、食、住、行、樂無時無刻不在分享著超級計算機計算的“紅利”。
數(shù)數(shù)日子:飛機為什么能飛得更高更快?
航空空航空航天是大國競爭的焦點?!疤旌右惶枴笔俏覈笮秃教旌娇诊w機設(shè)計空氣動仿真和新型發(fā)動機開發(fā)的重要平臺。例如,使用超級計算作為風洞,設(shè)計的飛機可以飛得更快、更高、更省油。
超級計算也可以幫助控制大氣煙霧。為了摸清霧霾形成的區(qū)域、過程及相關(guān)因素,建立相關(guān)模型,做出準確預(yù)測,中國氣象科學研究院、國家氣象中心、清華大學、國家超級計算天津中心等機構(gòu)通力合作,利用天河一號10%-20%的計算資源,建立并完善了數(shù)字模擬模型。目前,該研究取得了關(guān)鍵進展,有望在三到五年內(nèi)對霧霾氣候做出準確預(yù)測,為國家制定區(qū)域發(fā)展規(guī)劃提供相關(guān)評估數(shù)據(jù)。
計算土地:給地球一個CT找油
油呢?當人們想到這個問題時,就會出現(xiàn)地質(zhì)勘探人員背著沉重的設(shè)備,用小錘子在河湖岸邊的巖石間敲打的場景。超級計算技術(shù)已經(jīng)把這種獨創(chuàng)的“找油”方法送到了歷史博物館。人們利用超級計算機科學計算人工地震波的反射數(shù)據(jù),建立大規(guī)模三維地質(zhì)模型,可以恢復(fù)某一地區(qū)的地質(zhì)結(jié)構(gòu),進而確定石油天然氣的具體方位和儲量。電腦運行越快,探索就越快越準。
天河石油地球物理計算中心以中石油、中石化、中海油為重點,搭建了完善的地震地球物理數(shù)據(jù)處理和地球物理信息管理平臺,大力開展石油地球物理數(shù)據(jù)處理的開發(fā)和應(yīng)用,成功設(shè)計了具有完全自主知識產(chǎn)權(quán)的石油三維偏移軟件,扭轉(zhuǎn)了該領(lǐng)域受制于人的局面,促進了產(chǎn)業(yè)技術(shù)進步和協(xié)同創(chuàng)新。
清點人數(shù):生物醫(yī)學的新革命
天津國際生物醫(yī)學聯(lián)合研究所的科學家說:“過去我們研究開發(fā)一種新藥,要投入10億美元,進行10萬次化合物篩選,歷時10年?,F(xiàn)在我們用‘天河一號’篩選一周,可以完成過去一年的篩選量,大大縮短研發(fā)周期,降低研發(fā)成本,為新藥研發(fā)提供新思路。高性能計算在藥物研發(fā)中的應(yīng)用是醫(yī)藥行業(yè)的一場革命?!?/p>
中科院上海藥物研究所的科學家也通過計算模擬與藥物實驗相結(jié)合的方式,在天河一號上確認了一個全新的藥物作用位點。藥物設(shè)計直接在天津超級計算中心進行,不經(jīng)過任何化學作用,就獲得了一種對某種疾病有顯著療效的藥物。在“天河二號”上,他們對75萬種小分子化合物進行了親和力評價,完成了600多種藥物的體內(nèi)外活性測試,為人類治療惡性腫瘤、乙肝、糖尿病等慢性病提供了一種新的途徑。
計算過去和計算未來:探索我們的星球
幾萬年前和幾億年前人類居住的星球是什么樣的?它是怎么變成今天這個樣子的?要解開每個地球的奧秘,必須依靠超級計算機進行數(shù)值模擬,全面系統(tǒng)地研究各種物理、化學、生物變化過程。天河一號已經(jīng)成為中科院大氣物理研究所、國家海洋局、國家氣象局的研發(fā)模擬平臺。通過模擬全球氣候變化和海洋環(huán)境變化,對人類未來的生存環(huán)境有一定的認識,為保障人類社會的可持續(xù)發(fā)展提供科學數(shù)據(jù)。
■特約撰稿人龔記者李婷婷
1.《銀河一號 國防科大“天河一號”:國之重器 超算英雄(圖)》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《銀河一號 國防科大“天河一號”:國之重器 超算英雄(圖)》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/shehui/1341864.html