作者:admin 日期:2023-08-25 瀏覽: 次
自主研發國產高端企業云服務器,浪潮商用機器如何聚沙成塔?
沙子是半導體集成電路芯片的源材料,硅谷在近半個世紀以來利用世界上最普通的材料,制造出了世界上最高精尖的芯片,可以用“聚沙成寶”一詞形容西方科技史上這一奇跡般的成就。而中國在最近幾十年,特別是近二三十年,也在奮力追趕半導體和集成電路這一戰略級高科技領域的成就。其中之一,就體現在2018年5月2日開門營業的浪潮商用機器公司。
Power芯片是世界上最強的處理器之一,當前全球排名第一和第二的超級計算機均采用的是POWER9芯片。POWER9處理器使用14納米制程工藝,集成了80億個晶體管,在芯片里實現了17層布線,系統內的互聯帶寬達2.3倍內存帶寬,可以實現7GB的片內數據轉換。作為高端服務器芯片的最新一代技術結晶,POWER9芯片可以說是集大成。
自浪潮與IBM成立合資公司浪潮商用機器以來,浪潮商用機器基于之前浪潮長達25年的高端服務器K1的設計實踐和經驗,結合POWER9芯片的高精尖工藝,自主創新設計了K1 Power系列企業級高端Unix服務器,可滿足金融、電信及互聯網、政府和制造業等對超高業務穩定性、巨大數據吞吐、高數據一致性、頻繁的并發訪問能力和要求。
作為混合云時代的最高端科技成果之一,國產高端Unix服務器K1 Power的自研過程體現了當代中國在自主科技創新方面的成就。2019年底,浪潮商用機器的技術專家分享了K1 Power的研發過程。
讓IBM驚訝的中國高端服務器
浪潮與IBM在技術方面的合作,早于浪潮商用機器公司的成立。浪潮早在1993年就研制出了中國首臺小型機服務器SMP2000,當時該服務器基于X86架構。后來,浪潮成立了高效能服務器和存儲技術國家重點實驗室,并于2010年設計成功了高端安騰服務器,也是我國863計劃重大專項“高端容錯計算機研制與應用推廣”項目成果,這在當時屬于一個重大科研突破。
2010年,400多位浪潮工程師耗費4年研制成功K1小型機,突破多項小型機核心技術,使得中國成為除美國、日本之外全球第三個具備關鍵應用主機研制能力的國家,浪潮成為全球第五家具備關鍵應用主機研制能力的企業。K1安騰服務器克服的一大挑戰即多級處理器互聯過程中的Cache緩存一致性。浪潮自研了處理器協同芯片,集成了4.5億個晶體管、有2577根管腳,而Intel當時最高端的通用處理器至強E7集成的晶體管數量也不過14億個、針腳數只有1567個。
正因為有了K1關鍵應用小型機,當浪潮把兩臺機器送到多倫多給IBM進行DB2數據庫的移植時,讓IBM對浪潮產品的研發能力有了新的認知。當時,國際上認為中國無法達到這么高精尖的工藝水平,以為K1是OEM惠普的機器,后來當打開K1仔細研究后才發現與惠普的機器完全不一樣,出乎了IBM工程師的意料。
正是因為有了對浪潮K1服務器創新能力的認知,才有了后來2017年IBM與浪潮合資公司圍繞Power處理器開發K1 Power系列高端機。浪潮商用機器在北京、濟南建立了面向Power生態的K1 Power團隊,浪潮一半的K1研發團隊整合到合資公司共同打造K1 Power服務器。現在浪潮商用機器K1 Power研發團隊有一百多位核心人員,該研發團隊骨干精英全部擁有10年以上高端服務器設計經驗,全程參與了浪潮K1、M13、4/8路X86高端服務器產品的研發,具有從系統原理到主板PCB設計的全流程設計能力,可對結構、電源、信號、散熱等服務器核心模塊進行快速研發。
而K1 Power服務器除了芯片采用POWER9外,其余全部是浪潮商用機器自行研發,浪潮商用機器北京、濟南兩大研發實驗室投資上千萬元配備PCIe 4.0誤碼儀、59GHz 高速示波器、矢量網絡分析儀等頂級硬件研發測試設備,可進行業界領先的高速信號仿真和測試。此外,實驗室除了配備專業的電子設計自動化工具(EDA),還配備了專業測試設備能快速診斷定位設計故障,打造可靠性高于99.9994%的高品質高端服務器產品。
K1 Power服務器的四大特點
作為K1 Power服務器的代表作,K1 Power E980是浪潮商用機器自主研發的16路旗艦級關鍵應用服務器,單臺E980最高可部署成192個邏輯分區或1000個微分區,支撐更大規模虛擬機、更高吞吐、更高性能和更高擴展性,通過云化的方式可將幾十乃至上百個應用負載整合到一臺高端服務器上。而針對分布式大規模機器學習,K1 Power面向加速器、異構計算的Cache一致高速互聯,可以實現多種領域中不同算法近10倍的性能加速;在大數據應用場景中,也使得數據壓縮和解壓縮性能提高了440~740倍。
K1 Power服務器具有高可用、高品質、高可靠和高安全的特點。首先,在高可用方面,POWER9處理器目前是業界性能最高的處理器之一,主頻方面可達到業界最高4Ghz,CPU之間、CPU與內存之間、CPU與I/O之間具備更大的帶寬,相比X86可提高數倍。POWER9支持PCIe4.0協議,而X86 CPU只支持到PCIe3.0;POWER9原生支持NVLink2.0協議,保證CPU和I/O之間高帶寬,以滿足核心數據庫等高性能負載應用的需求,對DB2、Oracle、SPARC等核心數據庫應用系統都可提升兩倍以上性能,開源數據庫也有兩倍以上性能提升。在資源的整合方面,K1 Power服務器可以在一臺服務器上通過分區的形式滿足更多應用需求,整機硬件負載效率高、使用效率高、資源整合能力強;而X86服務器更多是一臺服務器承載一個應用,再通過服務器集群滿足不同的應用,單機負載效率并不高。
在高可靠方面,K1 Power不但保證強大的性能,更看重整個系統的長期高可靠性。這就是通常所說的RAS(可靠性、可用性、自診斷)設計理念:與X86不同,K1 Power服務器增強了硬件的冗余設計,采用了外帶獨立的故障服務處理器,以及從部件、系統、測試、散熱等各個方面嚴格、高標準的測試,以保證整個系統的高可靠。冗余設計是K1 Power服務器的一大特色,主要從時間冗余、空間冗余和信息冗余三個維度實現了容錯服務器。
除了冗余外,錯誤捕獲是保障長期穩定可靠的必要部件,一旦捕獲故障就可以立即隔離并修復,整個K1 Power服務有多達16萬個故障檢查器,遍布系統各個方面以實時監測系統運行狀態。K1 Power服務器的首錯數據捕獲機制FFDC(First Failure Data Capture),可以在設計階段進行各類錯誤模擬,在實際運行階段進行錯誤捕獲,在維護階段對所有可能產生的錯誤提前預警、備案和處理。K1 Power服務器在軟件層面提供糾錯機制,包括內存和緩存的糾錯機制,對于沒有糾錯機制的部件則提供重試機制,也就是有些偶發故障可能出現一次但不一定是真正的故障,則通過重試來判斷是否為真故障,內存控制器和指令集的重試機制也是K1 Power服務器特有功能。對于發生的故障,K1 Power服務能做到更細膩度的隔離與修復,例如X86處理器在內部某個區域或者某個功能故障后整個CPU就宕掉了,而POWER9處理器可以做到CPU內部某個核心故障就單獨把這個核心隔離出去,整個處理器還能繼續工作,對于內存模塊或者是邏輯內存塊也能做到故障的捕獲、隔離和修復。
通過全棧式的可靠保障,包括整個RAS冗余、基于FSP的故障檢測隔離機制以及在線修復更新等糾錯機制,K1 Power系統在物理可靠性方面做到:可抗震、擴低溫、抗粒子干擾;系統時鐘、OSP、FSP、PSU、Fan風扇、Cable線纜等冗余;以及電源與散熱OCC等散熱可靠性;在軟錯誤方面則能處理服務器處理器校驗、MEM循環校驗及冗余、I/O總線冗余、HDD冗余和RAID、Hyervisor虛擬機冗余、操作系統高可用以及災備等。
在高品質方面,K1 Power服務器則提供高達40層主板設計、高效散熱設計、高品質和長壽命器件及部件、精確設計與仿真、高標準檢測、全面認證和檢測等保證。其中,在高品質部件方面,整個K1 Power系統底層,從元器件和部件選型的層級都采用更高標準,例如:電阻采用了更嚴苛環境測試下、遠超7年設計壽命的抗硫化電阻,從而提高電阻本身的壽命和可靠性;風扇是鋁制框設計,通常X86服務器都是塑料框體,而鋁框設計增加了整體可靠性,特別是增加自重以獲得更好的系統減震效果,因為震動也會極大影響系統性能和運行的可靠,同時穩定的自身散熱系統能夠提升導熱效率,在硫化環境下能避免老化,這樣就能在風扇工作周期內大幅減少故障概率,讓風扇達到甚至超過22年的設計使用壽命。
仿真對于K1 Power服務器的設計也很重要,K1 Power服務器的研發階段周期很長,通過大量仿真工作把各種可能的風險在設計階段規避掉。在系統高精度仿真方面,K1 Power服務器在設計階段就進行了:結構仿真,模仿靜態、形變、動態跌落和沖擊等對系統的影響;散熱仿真則建立精度更高、粒度更細的散熱仿真模型,仿真各種可能影響散熱的因素,保障在各種條件下散熱的穩定性;高速信號以及電源信號仿真,在仿真階段提前分析風險,采取優化措施規避風險,確保信號傳輸質量和抗干擾能力。
K1 Power服務器還采用了更高標準的檢測和測試,例如在生產測試上測試的老化時間更長、達到了48小時,而普通的X86服務器的老化時間測試是6到8小時。Power服務器在出廠之前要求每臺服務器都要做到全檢測,而且要求檢測的測試項要做到100%,相比許多X86服務器出廠前主要為抽檢模式。K1 Power服務器經歷的是全自動化測試腳本的執行,即為了規避手動測試偶發故障產生的可能。在K1 Power服務器自研部件的引入過程中,還對自研部件進行階段性測試和整機測試,以保障自研部件質量和性能達到業界最高標準。對一些核心部件,還會增加特殊測試以保障部件的高可靠性,例如PCB板的熱沖擊測試是急劇升溫維持一段時間后再降溫,而X86測試曲線則是緩慢升溫后再降溫。
在高安全方面,因為K1 Power服務器主要是滿足核心數據庫和核心應用,對安全性的考慮與X86服務器相比也有特殊的考慮。K1 Power服務器不會依賴于操作系統層面的安全性來保障機器或系統的安全性,而是在更底層技術層面做安全加固,例如在部件層通過全自主開發的部件來保證整個系統的穩定,K1 Power服務器所有部件的維護都需要通過認證,隨便外插部件不會被識別,而必須經過認證的安全機制。當然,浪潮商用機器自研的K-UX操作系統是全球五大通過UNIX認證的操作系統之一, K-UX本身也是通過安全認證的可信操作系統,還會通過自研的操作系統安全加固模塊,保證操作系統層面系統級安全可靠。
浪潮商用機器有限公司產品研發部副總經理尹宏偉表示,K1 Power服務器從很多維度保證了系統的安全可靠和高性能,而大量的研發工作難以從外部直接感知,只有在產品運行很長時間之后才能發現高可用、高可靠、高品質、高安全的服務器與普通服務器的差距。
K1 Power服務器的自研挑戰
K1 Power作為國產自研的高端關鍵應用服務器,在產品設計、生產和制造方面的故事可以說舉不勝舉,前面已經提及高可用、高可靠、高品質和高安全,而在這四個領域的每個領域都可以深入再詳細展開諸多細節設計。以下從幾個關鍵細節的深入了解,即可知道為什么關鍵應用服務器是國家級戰略科技重點。
首先,冗余是K1 Power服務器的一大特色,也極具挑戰。在空間冗余方面,K1 Power服務器通過VRM虛擬資源管理實現了DRAM芯片冗余,而在多級CPU之間的I/O通信則采用了總線冗余,CPU與DRAM之間則為內存總線冗余,此外還有I/O控制器、I/O柜、I/O柜鏈路、電源、SMP線纜、FSP模塊等多種關鍵部件、路徑等的冗余。例如,電源的穩壓模塊做到了N+2冗余設計,相當于有多套變壓器把系統12伏電壓分給板機的各個元器件使用,而X86則是一套變壓器。
在時間冗余方面,K1 Power服務器的每個系統控制單元中有兩個冗余的時鐘卡,通過線纜對系統提供冗余的時鐘,當任意一個時鐘卡出現故障時,另一組時鐘可以無縫切換保持系統穩定運行。在電源時序控制信號冗余方面,對Enable、Power good等信號進行了冗余設計,實現更加可靠的電源開關控制。這里要強調的是,系統時鐘冗余本身是一個小概率事件,對于X86服務器的設計沒有必要這樣做,但是K1 Power服務器對可靠性的要求特別高,所以即使是系統時鐘這種極小概率故障也要做到冗余。加上電源持續信號控制冗余,說明K1 Power服務器系統對小電路或者器件的設計都要做到冗余,確保萬無一失。
在信息冗余方面,例如Power服務器的校驗數據很多,當一部分校驗數據無法讀出時,可以通過校驗計算恢復回來。
總體來說,K1 Power服務器承載的都是高價值業務,而當服務器系統規模增大之后半導體失效是必然的,怎樣把失效控制在局部范圍并且能夠在線地修復,這是K1 Power服務器設計耗費大量設計時間和精力所在,也是K1 Power服務器RAS的精華所在。與實現計算和存儲等功能相比,K1 Power服務器的RAS設計工作量更大。例如捕獲故障再隔離出來就非常困難,一方面要從硬件芯片角度能處理,另一方面從板機到系統、操作系統固件、操作系統BIOS等都需要與操作系統同時實現,還要在操作系統加入更有針對性的內核驅動去處理這些故障。
浪潮商用機器有限公司副總經理黃家明表示,設計一臺服務器實現計算、存儲等功能,本身不是太大問題,但是如何處理必然的失效,其實體現了K1 Power服務器與X86服務器的巨大不同,其中也蘊含著巨大的工作量,這些工作量也不是一個部門、一個團隊就能處理的,需要專門面向高可靠性設計的團隊聯合在一起來實現,這也是最困難的一部分。
其次,40層主板的設計。為什么K1 Power服務器要做40層主板設計?因為Power的信號都是高速信號,高速信號對信號之間的干擾更敏感。為了完全隔絕高速信號相互的影響,保證高速信號的完整性,要做到每兩層信號之間都是有一個D層,總體板機層數就特別高,而X86服務器通常是表面和底層為D層,中間都是多層信號。除了工藝的挑戰之外,K1 Power服務器也經過了更嚴苛的板機測試,以保障出貨的良品率。因為要挑戰新工藝,不可避免的是良品率的降低,但可以通過技術手段來保障整個成品的良品率。
第三是高效散熱的設計。整個K1 Power服務器系統很復雜,包括了各類的元器件。系統可靠性與熱量密切相關,散熱是影響系統可靠性的一個重要指標。K1 Power服務器用更高效的散熱設計和更高效的散熱管理,從散熱角度提升整個系統的可靠性。例如在導熱材質方面,X86在CPU和散熱器之間采用的是導熱膏,而K1 Power服務器采用的是銦片。為什么選銦片?因為銦片的穩定性和可靠性。導熱膏可能一年之后就揮發了,性能會逐漸下降,而金屬銦片可長期運行,對可靠性是極大的保障。K1 Power服務器系統對熱的管理采用了動態分區散熱控制技術,這種動態、智能化的散熱控制,提高了散熱的效率,也保障了CPU等元器件工作在舒適的溫度里,從而提高器件的壽命。
第四是安全。K1 Power能保持系統一致性,不被篡改。在Secure Boot模式中,X86服務器通常可以用U盤引導服務器啟動,引導啟動后就可以把硬盤拷貝走,而K1 Power服務器的每一個部件都有類似于可信計算的模式,部件的指紋信息在TPM芯片里面已經內置好,如果更換的部件或者硬盤不在指紋庫里,就無法通過該部件引導系統重啟。也就是說,雖然K1 Power服務器可以使用標準的商業部件,但也要刷入key、指紋信息等,從系統部件角度保證安全性。這樣,即使固件被篡改過,例如從網站下載一個固件再修改,就無法通過K1 Power服務器的認證了,因為整個固件是經過校驗過且校驗信息是在工廠模式時寫進去的,在使用用戶模式下無法修改,從而避免惡意軟件直接被內置到系統固件層面。
第五是K1 Power供應鏈整合了原先浪潮K1的供應鏈以及IBM供應鏈。例如工藝管控方面包括熱沖擊實驗管控就從國內測試轉到IBM實驗室測試。本身K1 Power的PCB熱沖擊實驗是交由國內頂級實驗室,開始的時候實驗室認為浪潮X86服務器都可以測試,K1 Power服務器也沒有問題,結果K1 Power服務器要求產品溫度在一分鐘之內上升到300多度,接近玻璃融化溫度,而且要保持兩分鐘再降溫,然后一直做循環,結果幾次測試后對方領導說再做的話測試機器就廢了,于是轉由IBM實驗室提供測試服務。
此外,在板機的生產和設計等方面,實際上X86極致的設計能力已經很強了,因為X86本身是成本敏感型的設計,要求板層減到最少的同時保證穩定性,對布線的能力和要求都有提升。K1 Power服務器在設計的時候,也會引入原來在X86大規模環境下驗證過的設計,然后再增加新工藝、新材料。不同的K1 Power服務器產品體現了不同的自研程度,比如E950 4路和E924 2路服務器就體現了更多浪潮的設計,基本上重新設計了。浪潮商用機器希望從用戶端和客戶端保持K1和Power的口碑,在繼承IBM Power設計的同時,更多地融入浪潮原先K1的設計經驗和實踐。
浪潮商用機器有限公司產品營銷部總經理江豫京介紹,浪潮商用機器的產品線總體來說分為兩大品牌和兩大產品線:兩大品牌是K1 Power與Inspur Power,兩大產品線為縱向擴展(Scale up)、橫向擴展(Scale out),其中K1 Power為基于POWER9芯片的機器,而Inspur Power則為基于OpenPOWER9芯片的機器。除了E950和E980以外,其它所有機型都為橫向擴展產品線。目前,浪潮商用機器在國內非X86的小型機市場占有率達到了65%,獲得了市場的認可。在關鍵應用場景下面,K1 Power有很好的縱向擴展性能,能夠承載大量業務并發情況;對于新興業務場景,包括分布式存儲、大數據、AI等,Power服務器也有其優勢。
整體來說,2020年是私有云和混合云的大年,不少企業級應用從公共云回歸到企業本地部署,而K1 Power服務器系列及虛擬化和云化解決方案,在一個芯片架構下就可實現從物理機到多云/混合云的多種云平臺形態,滿足企業縱向(核心應用)和橫向(云化應用)的擴展需求,這為K1 Power和Inspur Power服務器在混合云時代提供了廣闊的市場空間,而浪潮商用機器則演繹著新時代的“聚沙成塔”。
更多內容請訪問“云科技時代”網站:
www.cloudtimemag.com
“云科技時代”的文章還廣泛出現在:
微信公眾號、天天快報、今日頭條號、微博號、知乎專欄、搜狐新聞端、網易客戶端、百度百家、百家號、中關村在線回響、北京時間科技頻道、一點號、界面、51CTO博客、e-works博客、UC訂閱號、新浪財經頭條、新浪看點、艾瑞網專欄、TechWeb博客等。
“云科技時代”是今日頭條優質科技作者、入選今日頭條精選頻道