許多企業(yè)組織需要借助HPC來(lái)處理復雜的計算任務(wù),例如金融風(fēng)險建模、政府資源跟蹤、航天器飛行分析以及許多其他“大數據”項目。
幾十年前,高性能計算()只有一些科研人員、科學(xué)家和工程師等使用,作為解決困難數學(xué)問(wèn)題的經(jīng)濟實(shí)惠且可擴展的方法。但隨著(zhù)云計算、物聯(lián)網(wǎng)和大數據等技術(shù)的發(fā)展,HPC越來(lái)越受到行業(yè)的廣泛歡迎,而其在領(lǐng)域的應用也越來(lái)越多。許多企業(yè)組織需要借助HPC來(lái)處理復雜的計算任務(wù),例如金融風(fēng)險建模、政府資源跟蹤、航天器飛行分析以及許多其他“大數據”項目。
根據研究機構Intersect360 Research對全球HPC市場(chǎng)的分析結果顯示,2020-2014年間HPC將以7.1%的高復合增長(cháng)率增長(cháng)。
HPC結合了硬件、軟件、系統管理和數據中心設施,以支持大量互連的計算機協(xié)同工作來(lái)執行單臺計算機無(wú)法單獨完成的過(guò)于復雜的共享任務(wù)。一些企業(yè)可能會(huì )尋求租賃或購買(mǎi)他們的HPC,而其他企業(yè)可能會(huì )選擇在自己的數據中心內構建HPC基礎設施。
通過(guò)了解HPC基礎設施的主要要求和限制因素,您可以確定HPC是否適合您的業(yè)務(wù)以及如何最大限度地發(fā)揮它的價(jià)值。
一般而言,HPC 是使用大型且功能強大的計算機來(lái)有效處理數學(xué)密集型任務(wù)。盡管存在 HPC“”,但除了最大的企業(yè)外,其他所有企業(yè)往往無(wú)法觸及此類(lèi)系統。
相反地,大多數企業(yè)可以將HPC作為一組配置成在集群中運行的相對便宜、緊密集成的計算機或節點(diǎn)進(jìn)行實(shí)施。此類(lèi)集群使用分布式處理軟件框架(例如Hadoop和MapReduce)通過(guò)在多臺聯(lián)網(wǎng)計算機之間劃分和分配計算任務(wù)來(lái)解決復雜的計算問(wèn)題。集群中的每臺計算機都只處理自己的問(wèn)題或數據集部分,然后軟件框架將其重新集成以提供完整的解決方案。
分布式HPC架構為組織帶來(lái)了一些權衡。最直接的好處包括可擴展性和成本管理。Hadoop等框架只能在一臺服務(wù)器上運行,但組織也可以將它們擴展到數千臺服務(wù)器。這使得企業(yè)能夠使用價(jià)格較低的現成計算機來(lái)構建HPC基礎架構,以滿(mǎn)足其當前和未來(lái)的需求。Hadoop還具有容錯能力,可以檢測故障系統并將其從集群中分離出來(lái),將這些故障作業(yè)重定向到可用系統。
構建HPC集群在技術(shù)上很簡(jiǎn)單,但HPC部署可能會(huì )帶來(lái)業(yè)務(wù)挑戰。即使能夠隨著(zhù)時(shí)間的推移管理、擴展和添加節點(diǎn),但是采購、部署、運營(yíng)和維護數十、數百甚至數千臺服務(wù)器的成本——以及支持它們的網(wǎng)絡(luò )基礎設施——也可能成為一筆巨大的財務(wù)投資。加上許多企業(yè)對HPC的需求也有限,很難讓HPC集群保持忙碌,而企業(yè)在HPC上投入的資金和培訓成本要求部署能夠處理業(yè)務(wù)任務(wù)以實(shí)現成本效益。
只有對用例、利用率和投資回報指標有透徹的了解,才能獲得成功的HPC項目。
在商業(yè)數據中心實(shí)施HPC集群的三個(gè)主要要求包括計算硬件、軟件層和容納所有這些的設施。更準確的要求取決于HPC部署的規模。
計算要求。構建HPC集群需要服務(wù)器、存儲和不應共享日常業(yè)務(wù)流量LAN的專(zhuān)用網(wǎng)絡(luò )。理論上,您可以在單臺服務(wù)器上實(shí)施Hadoop等HPC軟件,這可以幫助員工學(xué)習和獲得HPC軟件和作業(yè)調度方面的經(jīng)驗。但是,基于Hadoop的典型HPC集群至少需要使用三臺服務(wù)器:主節點(diǎn)、工作節點(diǎn)和客戶(hù)端節點(diǎn)。
您可以用多個(gè)主節點(diǎn)擴展該簡(jiǎn)單模型,每個(gè)主節點(diǎn)支持多個(gè)工作節點(diǎn),這意味著(zhù)典型的HPC部署由多個(gè)服務(wù)器(通常虛擬化以增加集群可用的有效服務(wù)器數量)組成。專(zhuān)用集群網(wǎng)絡(luò )還需要高帶寬TCP/IP網(wǎng)絡(luò )設備,例如千兆以太網(wǎng)、NIC 和交換機。服務(wù)器和交換機的數量取決于集群的大小,以及每臺服務(wù)器的能力。
剛接觸HPC的企業(yè)通常從擴展到幾個(gè)機架的有限硬件部署開(kāi)始,然后再擴展到集群。您可以通過(guò)投資具有充足處理器和存儲空間的高端服務(wù)器來(lái)限制服務(wù)器和交換機的數量,從而提高每臺服務(wù)器的計算能力。
軟件要求。成熟的堆棧必須能夠隨時(shí)支持HPC集群管理功能套件。Bright Cluster Manager和OpenHPC等軟件堆棧通常包含各種用于集群管理的工具,例如:
一些組織可能會(huì )采用HPC框架(例如Hadoop框架)來(lái)管理他們的HPC。Hadoop包括HDFS 文件系統、Hadoop Common、MapReduce和YARN等組件,它們提供了許多與上面所列相同的功能。
HPC項目需要輸出結果,這種結果可以通過(guò)可視化、建?;蚱渌麍蟾孳浖男问教峁┙o管理員。能夠可視化Hadoop數據的工具包括Hunk、Platfora和Datameer等,以及Jaspersoft、Pentaho和BIRT等開(kāi)源工具;Cognos、MicroStrategy和QlikView等商業(yè)智能工具;而Rshiny、D3.js和Highcharts等圖表庫能夠可視化非Hadoop框架的輸出。
設施要求。設施通常會(huì )成為HPC部署過(guò)程中最大的限制因素。要實(shí)施HPC,您需要物理空間和重量支撐來(lái)容納額外的服務(wù)器機架、運行它們的電源以及足夠的冷卻能力來(lái)管理熱量。一些企業(yè)可能根本沒(méi)有空間和冷卻基礎設施來(lái)支持大量額外的服務(wù)器。
超融合基礎設施系統可以最大限度地減少物理計算占用空間,但HCI具有高功率密度,可能導致機架“熱點(diǎn)”和其他冷卻挑戰。用于HPC部署的完整計算機機架最多可包括72臺刀片式服務(wù)器和5臺架頂式交換機,總重量高達1800磅,需要高達43 kW的電量支持。
HPC部署需要對數據中心設施進(jìn)行仔細評估,并對系統電源和冷卻要求與容量進(jìn)行詳細判斷。如果設施不足以進(jìn)行HPC部署,您必須尋求內部HPC的替代方案。
計算挑戰。盡管HPC硬件很常見(jiàn)且隨時(shí)可用,但您可以使用模塊化高密度服務(wù)器來(lái)解決計算限制。模塊化設計使服務(wù)器易于擴展和更換。您可以使用帶有專(zhuān)用高速LAN的專(zhuān)用高性能服務(wù)器來(lái)實(shí)現最佳性能,這使您能夠通過(guò)定期的技術(shù)更新周期和額外投資來(lái)隨時(shí)間更新HPC程序。
軟件挑戰。HPC軟件方面的主要挑戰在于管理軟件組件版本和互操作性,即確保修補或更新一個(gè)組件不會(huì )對其他軟件組件的穩定性或性能產(chǎn)生不利影響。解決這一問(wèn)題的關(guān)鍵在于,將測試和驗證作為HPC軟件更新過(guò)程的核心部分。
設施挑戰。處理裝滿(mǎn)服務(wù)器和網(wǎng)絡(luò )設備的額外機架所需的可用物理數據中心空間、電源和冷卻問(wèn)題,限制了許多希望實(shí)施HPC的組織。對于這一點(diǎn),服務(wù)器升級或許可以提供幫助。通過(guò)部署更大、功能更強大的服務(wù)器來(lái)支持更多的VM,您可以有效地添加 HPC“節點(diǎn)”,而無(wú)需添加更多物理服務(wù)器。此外,在同一物理服務(wù)器內對VM進(jìn)行分組可以緩解網(wǎng)絡(luò )問(wèn)題,因為VM可以在服務(wù)器內進(jìn)行通信,而無(wú)需通過(guò)LAN傳輸流量。
您也可以尋求查看第三方支持,例如托管以獲得額外空間。托管使您的組織能夠在提供商的數據中心租用空間并使用該提供商的電力和冷卻設施。然而,托管通常需要一項可能跨越數年的昂貴的長(cháng)期合同義務(wù)。
電力成本也會(huì )影響HPC部署的長(cháng)期成本,因此請評估本地電力的可用性和成本??紤]平衡的三相配電基礎設施和先進(jìn)的配電設備——例如智能PDU和開(kāi)關(guān)PDU——以提高電源效率。不間斷電源裝置支持HPC集群服務(wù)器的有序運行,以最大限度地減少數據丟失。
添加高密度服務(wù)器機架會(huì )給數據中心的空氣處理系統增加相當大的冷卻負荷。當額外的冷卻功能不可用時(shí),可以評估托管或云選項,或考慮先進(jìn)的冷卻技術(shù),例如HPC機架的浸入式冷卻。
包括AWS、Google Cloud Platform和Microsoft Azure在內的幾家公有云提供商都在為面臨構建和運營(yíng)HPC挑戰的企業(yè)提供HPC服務(wù)。公有云克服了個(gè)體企業(yè)面臨的規模和成本挑戰,這也使得它們成為了部署HPC任務(wù)的理想選擇。云可以提供:
執行頻繁和適度HPC任務(wù)的企業(yè)可以選擇構建和維護有限的HPC集群,以實(shí)現本地數據處理項目的便利性和安全性,但對于其內部無(wú)法支持的、偶爾要求更高的HPC項目,他們可能仍會(huì )轉向公有云。
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自本網(wǎng)站內容采集于網(wǎng)絡(luò )互聯(lián)網(wǎng)轉載等其它媒體和分享為主,內容觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如侵犯了原作者的版權,請告知一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容,聯(lián)系我們QQ:712375056,同時(shí)歡迎投稿傳遞力量。
Copyright ? 2009-2022 56dr.com. All Rights Reserved. 特網(wǎng)科技 特網(wǎng)云 版權所有 特網(wǎng)科技 粵ICP備16109289號
域名注冊服務(wù)機構:阿里云計算有限公司(萬(wàn)網(wǎng)) 域名服務(wù)機構:煙臺帝思普網(wǎng)絡(luò )科技有限公司(DNSPod) CDN服務(wù):阿里云計算有限公司 百度云 中國互聯(lián)網(wǎng)舉報中心 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2
建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站