整個(gè)架構(gòu)一共可以看作是四層
第一層是一些基礎(chǔ)設(shè)施,比如模塊化的數(shù)據(jù)中心,方便快速組裝。還有像液冷,我們通常機(jī)房當(dāng)中用的都是風(fēng)冷。在HPC場(chǎng)景下由于服務(wù)器的功耗很大,產(chǎn)熱也多,通過(guò)液冷來(lái)散熱可以降低功耗,降低了功耗就降低了費(fèi)用,從而降低了運(yùn)營(yíng)成本。
第二層是HPC實(shí)現(xiàn)的基礎(chǔ):計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)。后面我們的解決方案也是圍繞這三點(diǎn)展開(kāi)。比如計(jì)算有哪些節(jié)點(diǎn),存儲(chǔ)有哪些類型,網(wǎng)絡(luò)需要有哪些網(wǎng)絡(luò)平面、它們之間如何互相組網(wǎng)。
第三層在底層基礎(chǔ)設(shè)備、系統(tǒng)搭好的基礎(chǔ)上,涉及到集群管理、作業(yè)調(diào)度。在操作系統(tǒng)之上,需要有消息傳遞的通信,各種運(yùn)算的庫(kù),還有編譯器等等。
第四層是偏向于行業(yè)的各種業(yè)務(wù)所需要使用的應(yīng)用,這就我們前面有提到的能源勘探、CAD仿真,基因測(cè)序、氣象預(yù)測(cè)等等。
總結(jié):那我們主要關(guān)注的是在L2層,計(jì)算網(wǎng)絡(luò)存儲(chǔ)怎么去設(shè)計(jì)。
HPC解決方案
首先看底層平臺(tái)
計(jì)算這一塊,像ARM處理器也就是鯤鵬920,單個(gè)處理器可以提供8通道的內(nèi)存,所以它的優(yōu)勢(shì)相比于x86在于大內(nèi)存,以及緩存一致性互聯(lián)技術(shù)。
存儲(chǔ)這塊,它支持Burst Buffer這種向量NAS文件系統(tǒng)。
(解釋一下Burst Buffer,例如HDD存儲(chǔ)容量大,但是性能差。SSD性能高,但是全用SSD部署成本很高。Burst Buffer,在計(jì)算過(guò)程當(dāng)中我們使用性能較高的硬盤(SSD)組成一個(gè)緩沖層,那么計(jì)算都在都在這種高性能緩沖層當(dāng)中進(jìn)行。當(dāng)計(jì)算得到最終結(jié)果,再將數(shù)據(jù)落盤到性能較差、容量較大的硬盤當(dāng)中(HDD)。)
網(wǎng)絡(luò)這塊,需要低時(shí)延就會(huì)用到像RoCE、IB(無(wú)限帶寬技術(shù))等這些技術(shù)
(RoCE—允許通過(guò)以太網(wǎng)使用遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA)的網(wǎng)絡(luò)協(xié)議)
同時(shí)也支持公有云、私有云、混合云的部署方案
然后第二層中間件
在這一層,華為有自己的MPI和作業(yè)調(diào)度器。在Taishan服務(wù)器上也支持其他一些開(kāi)源的通用的工具,還有編譯器、數(shù)學(xué)庫(kù)這些。
第三層就是一些業(yè)務(wù)應(yīng)用,涉及到氣象預(yù)測(cè)、工業(yè)制造、生命科學(xué)這些。
總結(jié):華為HPC的解決能力主要體現(xiàn)在L1和L2當(dāng)中,L3層是和商業(yè)合作伙伴相關(guān)的。
比如在計(jì)算這邊,就可以售賣華為泰山X6000這些高密服務(wù)器或者是RH系列的服務(wù)器。
目前HPC解決方案大部分是基于x86架構(gòu)的,那么華為的泰山服務(wù)器是支持和x86混合部署的,業(yè)務(wù)一樣可以正常運(yùn)行、互相兼容。
存儲(chǔ)這邊,華為有自己的Oceanstore系列企業(yè)級(jí)的存儲(chǔ)。
網(wǎng)絡(luò)這塊,華為也有自己的交換機(jī),例如CE系列交換機(jī)、S系列交換機(jī)。
如圖所示
主要也是從三個(gè)方面去看
計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)
計(jì)算當(dāng)中主要包括以下節(jié)點(diǎn):
計(jì)算節(jié)點(diǎn)(瘦節(jié)點(diǎn):負(fù)責(zé)一般計(jì)算)
胖節(jié)點(diǎn)(具有很高的CPU和內(nèi)存,例如華為的X6000高密服務(wù)器)
加速節(jié)點(diǎn)(例如對(duì)圖像處理的場(chǎng)景下,可以在服務(wù)器上插GPU卡來(lái)進(jìn)行應(yīng)用加速。)
輔助節(jié)點(diǎn)(如工作站)
登錄節(jié)點(diǎn)(如客戶端)
管理節(jié)點(diǎn)(集群之間需要進(jìn)行管理)
網(wǎng)絡(luò)部分,主要分為三個(gè)網(wǎng)絡(luò)平面
高速計(jì)算網(wǎng)絡(luò):計(jì)算平面,用于各個(gè)計(jì)算節(jié)點(diǎn)之間相互通信(就像一個(gè)小組內(nèi)的人員要互相溝通,任務(wù)完成的進(jìn)度之類的。)
存儲(chǔ)網(wǎng)絡(luò):存儲(chǔ)平面,HPC有專門的存儲(chǔ)系統(tǒng),那么集群當(dāng)中的節(jié)點(diǎn)都需要與存儲(chǔ)設(shè)備進(jìn)行相互通信,因此需要搭建一個(gè)存儲(chǔ)網(wǎng)絡(luò)。
管理網(wǎng)絡(luò):管理平面,整個(gè)集群之間資源的調(diào)度,任務(wù)的安排部署都是由管理平面來(lái)做的。
管理平面實(shí)際上分為兩個(gè):
一個(gè)是帶內(nèi)的(負(fù)責(zé)集群間任務(wù)協(xié)調(diào)、分配、管理的平面)
另外一個(gè)是帶外的(可以通過(guò)iBMC進(jìn)行帶外管理,比如上下電等操作)
這樣將管理平面分為帶內(nèi)和帶外的,管理網(wǎng)絡(luò)系統(tǒng)和業(yè)務(wù)系統(tǒng)不共用同一個(gè)平面。當(dāng)業(yè)務(wù)系統(tǒng)出現(xiàn)故障,管理人員還可以通過(guò)帶外的管理網(wǎng)絡(luò)—也就是iBMC登錄去登錄iBMC的控制臺(tái)來(lái)管理服務(wù)器(不然就去需要跑去機(jī)房找相應(yīng)的服務(wù)器進(jìn)行操作了)。(冗余保護(hù)的作用)
存儲(chǔ)系統(tǒng)
支持NAS、華為Oceanstore9000以及開(kāi)源的Lustre(行分布式文件系統(tǒng),通常用于大型計(jì)算機(jī)集群和超級(jí)電腦,目前大部分HPC采用的文件系統(tǒng)都是Lustre文件系統(tǒng))
總結(jié):以上就是計(jì)算、網(wǎng)絡(luò)、存儲(chǔ),三層的應(yīng)用架構(gòu)。
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
版權(quán)聲明:本文為CSDN博主「TKE_chenf」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/f791473571/article/details/105001552