概述:
HPC是高性能計算(High Performance Computing)機(jī)群的簡稱。指能夠執(zhí)行一般個人電腦無法處理的大資料量與高速運(yùn)算的電腦,其基本組成組件與個人電腦的概念無太大差異,但規(guī)格與性能則強(qiáng)大許多。現(xiàn)有的超級計算機(jī)運(yùn)算速度大都可以達(dá)到每秒一兆(萬億,非百萬)次以上。“超級計算”(supercomputing)這名詞第一次出現(xiàn),是在1929年《紐約世界報》關(guān)于IBM為哥倫比亞大學(xué)建造大型報表基(tabulator)的報導(dǎo)。
高性能計算機(jī)群:
綜述
高性能計算(High Performance Computing)機(jī)群,簡稱HPC機(jī)群。構(gòu)建高性能計算系統(tǒng)的主要目的就是提高運(yùn)算速度,要達(dá)到每秒萬億次級的計算速度,對系統(tǒng)的處理器、內(nèi)存帶寬、運(yùn)算方式、系統(tǒng)I/O、存儲等方面的要求都十分高,這其中的每一個環(huán)節(jié)都將直接影響到系統(tǒng)的運(yùn)算速度。這類機(jī)群主要解決大規(guī)模科學(xué)問題的計算和海量數(shù)據(jù)的處理,如科學(xué)研究、氣象預(yù)報、計算模擬、軍事研究、CFD/CAE、生物制藥、基因測序、圖像處理等等。信息服務(wù)機(jī)群的應(yīng)用范圍很廣,包括如數(shù)據(jù)中心、電子政務(wù)、電子圖書館、大中型網(wǎng)站、網(wǎng)絡(luò)游戲、金融電信服務(wù)、城域網(wǎng)/校園網(wǎng)、大型郵件系統(tǒng)、VOD、管理信息系統(tǒng)等等。就其實(shí)現(xiàn)方式上分,還可以分為負(fù)載均衡機(jī)群、高可用機(jī)群等。簡單的說,高性能計算(High Performance Computing)是計算機(jī)科學(xué)的一個分支,研究并行算法和開發(fā)相關(guān)軟件,致力于開發(fā)高性能計算機(jī)(High Performance Computer)。隨著信息化社會的飛速發(fā)展,人類對信息處理能力的要求越來越高,不僅石油勘探、氣象預(yù)報、航天國防、科學(xué)研究等需求高性能計算機(jī),而金融、政府信息化、教育、企業(yè)、網(wǎng)絡(luò)游戲等更廣泛的領(lǐng)域?qū)Ω咝阅苡嬎愕男枨笱该驮鲩L。集群分為下面幾種
主/主 (Active/active)這是最常用的集群模型,它提供了高可用性,并且在只有一個節(jié)點(diǎn)在線時提供可以接受的性能,該模型允許最大程度的利用硬件資源。每個節(jié)點(diǎn)都通過網(wǎng)絡(luò)對客戶機(jī)提供資源,每個節(jié)點(diǎn)的容量被定義好,使得性能達(dá)到最優(yōu),并且每個節(jié)點(diǎn)都可以在故障轉(zhuǎn)移時臨時接管另一個節(jié)點(diǎn)的工作。所有的服務(wù)在故障轉(zhuǎn)移后仍保持可用,但是性能通常都會下降。
主/從(Active/passive)為了提供最大的可用性,以及對性能最小的影響,Active/passive模型需要一個在正常工作時處于備用狀態(tài),主節(jié)點(diǎn)處理客戶機(jī)的請求,而備用節(jié)點(diǎn)處于空閑狀態(tài),當(dāng)主節(jié)點(diǎn)出現(xiàn)故障時,備用節(jié)點(diǎn)會接管主節(jié)點(diǎn)的工作,繼續(xù)為客戶機(jī)提供服務(wù),并且不會有任何性能上影響。
混合型(Hybrid)混合是上面兩種模型的結(jié)合,只針對關(guān)鍵應(yīng)用進(jìn)行故障轉(zhuǎn)移,這樣可以對這些應(yīng)用實(shí)現(xiàn)可用性的同時讓非關(guān)鍵的應(yīng)用在正常運(yùn)作時也可以在服務(wù)器上運(yùn)行。當(dāng)出現(xiàn)故障時,出現(xiàn)故障的服務(wù)器上的不太關(guān)鍵的應(yīng)用就不可用了,但是那些關(guān)鍵應(yīng)用會轉(zhuǎn)移到另一個可用的節(jié)點(diǎn)上,從而達(dá)到性能和容錯兩方面的平衡。
高性能計算集群應(yīng)用程序性能優(yōu)化:
高性能計算集群選擇適合的內(nèi)存
高性能計算集群依賴于并行處理系統(tǒng),所以高性能計算集群信息需要快速的傳入與傳出內(nèi)存。高性能計算集群系統(tǒng)往往是I/O密集型的,因此高性能計算集群選擇正確的內(nèi)存配置,可以顯著提升高性能計算集群應(yīng)用程序性能。
高性能計算集群系統(tǒng)依賴于DIMM模塊,因?yàn)楦咝阅苡嬎慵菏轻槍Σ⑿邢到y(tǒng)設(shè)計的。
高性能計算集群有三種DIMM內(nèi)存可用:UDIMM內(nèi)存、RDIMM內(nèi)存和LRDIMM內(nèi)存。高性能計算集群在處理較大型工作負(fù)載時,無緩沖DIMM速度快、廉價但不穩(wěn)定。寄存器式DIMM內(nèi)存穩(wěn)定、擴(kuò)展性好、昂貴,高性能計算集群對內(nèi)存控制器的電氣壓力小。高性能計算集群同樣在許多傳統(tǒng)服務(wù)器上使用。降載DIMM內(nèi)存是寄存器式內(nèi)存的替代品,高性能計算集群能提供高內(nèi)存速度,降低服務(wù)器內(nèi)存總線的負(fù)載,而且功耗更低。
高性能計算集群升級設(shè)施
高性能計算集群應(yīng)用程序正在迅速增長,所以高性能計算集群體系未來的擴(kuò)展能力需要重視。
高性能計算集群系統(tǒng)設(shè)計與傳統(tǒng)數(shù)據(jù)中心基礎(chǔ)設(shè)施設(shè)計的一大區(qū)別就是選擇現(xiàn)成工具或定制系統(tǒng)?,F(xiàn)成的高性能計算集群只能在很小的范圍內(nèi)進(jìn)行擴(kuò)展,高性能計算集群限制了未來增長。HPC定制可以保持一個開放式的設(shè)計,讓企業(yè)在將來獲得更好的擴(kuò)展功能。然而,高性能計算集群額外的功能對于定制系統(tǒng)來說是一筆不小的代價,比購買現(xiàn)成高性能計算集群系統(tǒng)要高得多。
高性能計算集群系統(tǒng)一致
高性能計算集群系統(tǒng)初次上線時,高性能計算集群所有的配置都很完美,但隨著時間流逝,高性能計算集群配置會變得不一致。
高性能計算集群中出現(xiàn)不一致,高性能計算集群管理員可能會看到一些零星的異常貨變化,高性能計算集群影響應(yīng)用程序性能??紤]到潛在的性能,IT部門需要實(shí)施策略來確認(rèn)高性能計算集群系統(tǒng)中都運(yùn)行著什么應(yīng)用程序, 并想辦法讓高性能計算集群配置同步。這些高性能計算集群檢查每季度應(yīng)該進(jìn)行,或者每年不少于兩次。
高性能計算集群能耗
高性能計算集群在過去15年中,高性能計算集群能源成本隨著高性能計算密度增加而急劇上升?,F(xiàn)在高性能計算集群普通的服務(wù)器開銷為每機(jī)柜30kw,高性能計算集群這個數(shù)字還在不斷上升。由于高性能計算集群高密度,高性能計算集群高效率數(shù)據(jù)中架構(gòu)基礎(chǔ)設(shè)施與高性能計算集群冷卻系統(tǒng)變得至關(guān)重要。
在高性能計算集群數(shù)據(jù)中心,高性能計算集群高電壓電直接供給到機(jī)架,而不是采用傳統(tǒng)的208伏降壓,這樣可以節(jié)約電子電力設(shè)備因電力轉(zhuǎn)換的損耗。高性能計算集群利用節(jié)能型泵取代了嘈雜、低效率的風(fēng)扇。
內(nèi)容來自百科網(wǎng)