平方公里陣列(Square Kilometre Array,SKA)射電望遠(yuǎn)鏡是將要建設(shè)的全球最大的天文大科學(xué)裝置【1,2】,也是我國將要參加的國際大科學(xué)工程之一【3,4】,它將產(chǎn)生前所未有的巨大數(shù)據(jù)量,每秒鐘高達(dá)TB量級。由于SKA項(xiàng)目對科學(xué)處理器的功耗有嚴(yán)格限制,在運(yùn)行經(jīng)費(fèi)有限的情況下,如何有效地管理、分析和存儲如此大規(guī)模的數(shù)據(jù)面臨著巨大的技術(shù)挑戰(zhàn),這些問題也把射電天文推向了“大數(shù)據(jù)”的最前沿。 當(dāng)前射電天文中最先進(jìn)的數(shù)據(jù)分析軟件系統(tǒng)所能處理的數(shù)據(jù)量跟SKA第一階段產(chǎn)生的數(shù)據(jù)相比低了兩到三個數(shù)量級,遠(yuǎn)遠(yuǎn)不能滿足SKA的數(shù)據(jù)處理需求。為此,由西澳大學(xué)ICRAR研究所SKA技術(shù)團(tuán)隊(duì)牽頭包括上海天文臺參加在內(nèi)的國際聯(lián)合團(tuán)隊(duì)研發(fā)了一款數(shù)據(jù)流管理系統(tǒng),取名為DAliuGE (Data Activated Flow (流Liu) Graph Engine)。DAliuGE的最終目的是為SKA科學(xué)數(shù)據(jù)處理器提供了一個高效的分布式數(shù)據(jù)管理平臺和具有良好拓展性的管線系統(tǒng)執(zhí)行環(huán)境,以低功耗來支持連續(xù)的數(shù)據(jù)密集型科學(xué)數(shù)據(jù)處理,為SKA提供科學(xué)預(yù)處理產(chǎn)品。DAliuGE采用了“數(shù)據(jù)驅(qū)動”的先進(jìn)設(shè)計(jì)理念: 用軟件封裝數(shù)據(jù)并啟動處理這些數(shù)據(jù)所需的程序。相當(dāng)于數(shù)據(jù)被包裝在一個具有活性的軟件里,每當(dāng)一個數(shù)據(jù)項(xiàng)準(zhǔn)備就緒,它就將觸發(fā)下一個執(zhí)行任務(wù),該任務(wù)不會因?yàn)榈却龜?shù)據(jù)(到來)而空閑運(yùn)行。 我臺安濤研究員【青促會會員】帶領(lǐng)的SKA團(tuán)隊(duì)參加了DAliuGE項(xiàng)目的研發(fā)工作,完成了Bash APP Drops的應(yīng)用及DAliuGE邏輯圖編輯器的完善、大規(guī)模Drops運(yùn)行算法的優(yōu)化、以及DAliuGE集群測試程序的完善等工作。2016年6-7月,由SKA團(tuán)隊(duì)牽頭、在廣州超算中心和ICRAR研究所技術(shù)團(tuán)隊(duì)的協(xié)助下,在天河II超級計(jì)算平臺上成功部署了SKA數(shù)據(jù)流管理系統(tǒng)DAliuGE并完成了1000計(jì)算節(jié)點(diǎn)的大規(guī)模集成測試,檢驗(yàn)了軟件系統(tǒng)的穩(wěn)定性和可擴(kuò)展性。本次測試即以SKA先導(dǎo)射電望遠(yuǎn)鏡成像管線系統(tǒng)為樣板,DAliuGE執(zhí)行框架中的物理圖共包含132874個Drops(Drop是物理圖的基本單元,每個Drop對應(yīng)于成像管線系統(tǒng)的一個應(yīng)用程序或者一套數(shù)據(jù))。在此次測試前,我臺SKA技術(shù)團(tuán)隊(duì)已在澳大利亞Pawsey 超算開展了50個計(jì)算節(jié)點(diǎn)的大量測試,通過反復(fù)實(shí)驗(yàn)熟練掌握了DAliuGE系統(tǒng),解決了DAliuGE多節(jié)點(diǎn)運(yùn)行本地監(jiān)測、處理多個實(shí)際觀測數(shù)據(jù)時邏輯圖到物理圖轉(zhuǎn)換方法、DAliuGE上執(zhí)行復(fù)雜的Bash腳本程序等問題,并成功地將SKA先導(dǎo)低頻射電望遠(yuǎn)鏡數(shù)據(jù)處理管線系統(tǒng)移植到DAliuGE執(zhí)行框架,處理得到一批預(yù)處理天文圖像結(jié)果,為后續(xù)在大型超算中心開展天文應(yīng)用研究打下基礎(chǔ)。這是SKA核心軟件首次完成大規(guī)模集成測試,在國際上引起了廣泛的關(guān)注和積極的反響,得到SKA總部的贊揚(yáng),也為將來工程化驗(yàn)證提供了技術(shù)支撐。

天河測試物理圖 
天河測試運(yùn)行結(jié)果圖 此次在天河-2超算平臺上順利完成DAliuGE軟件系統(tǒng)的測試,表明了DAliuGE能夠有效集成SKA天文應(yīng)用軟件并在大規(guī)模計(jì)算節(jié)點(diǎn)上正常運(yùn)行,從穩(wěn)定性、可擴(kuò)展性、可靠性等方面均滿足了SKA第一階段數(shù)據(jù)預(yù)處理的初步要求。下一步將考慮最高用10000節(jié)點(diǎn)(注:天河2號的極限能力是16000計(jì)算節(jié)點(diǎn))開展全規(guī)模驗(yàn)證實(shí)驗(yàn)。DAliuGE有望成為首批完成工程化驗(yàn)證的SKA科學(xué)數(shù)據(jù)處理核心軟件系統(tǒng)。
|