在當下人工智慧飛速發展的時代,晶片就如同AI的“心臟”,為各種智慧應用提供著不可或缺的算力支援。華為的昇騰晶片,作為國產AI晶片的傑出代表,備受矚目。今天,咱們就用最通俗易懂的大白話,來深入瞭解一下昇騰晶片到底是怎麼一回事。
一、昇騰晶片誕生的背景
這幾年,人工智慧火得一塌糊塗,到處都在搞AI大模型,像ChatGPT這類的應用更是讓大家看到了AI的巨大潛力。AI大模型的訓練和各種AI應用的落地,都需要巨量的計算能力,這就離不開AI晶片。
以前,在AI晶片領域,英偉達的GPU那是占據著主導地位。但是呢,由於眾所周知的原因,英偉達的GPU對我們進行了禁售,連閹割版的H20都不賣給我們了。這就好比做飯突然冇了鍋,AI發展麵臨著算力短缺的困境。就在這個時候,華為的昇騰晶片挺身而出,成為了國產AI晶片的希望之光,發揮了重要的替代作用,也迎來了巨大的市場機遇。
二、昇騰晶片的家族成員
昇騰晶片是一個龐大的係列,主要包括昇騰310和昇騰910兩個子係列,它們有著各自不同的特點和用途。
(一)昇騰310:小巧靈活的邊緣“助手”
昇騰310是SoC小晶片,就跟我們手機晶片差不多大,隻有指甲蓋那麼點兒大,功耗也特彆低,僅有8W,特彆省電。它麻雀雖小,五臟俱全,整合了多個運算單元,包括8個ARMA55Core的CPU、AICore、數字視覺預處理子係統等。
它主要麵向邊緣計算與低功耗終端,就像是一個靈活的小助手,在邊緣端幫助完成AI推理任務。比如說,在智慧安防攝像頭裡,昇騰310就能實時對采集到的視頻圖像進行分析,看看有冇有異常行為,而且因為它功耗低,攝像頭也不用擔心太費電。它的AICore采用了華為自研的達芬奇架構,就像一個高效的計算小能手,能夠複雜執行矩陣、向量、標量計算的運算元任務,而CPU則負責非矩陣類複雜計算。根據海思官網的披露,昇騰310的FP16算力為8TOPS,INT8算力為16TOPS,采用12nm工藝製造。
(二)昇騰910:雲端的強大“算力擔當”
昇騰910可就大多了,和我們的掌心差不多大,功耗在300W以上,是個“大力士”,主要麵向雲端高效能計算。它的算力特彆強,既能用於AI推理任務,也能用於AI訓練任務,是雲端的“算力擔當”。
華為早期釋出的昇騰910,其實應該算是910A。當時華為還冇被完全禁售,所以910A采用了台積電的7nm增強版EUV工藝。晶片內建了32顆達芬奇Max核心(達芬奇核心分為Max\/Lite\/Tiny三種,Max最完整),支援混合精度計算(FP16\/FP32\/INT8),FP16算力為256TFOPs,最大功耗350W(一開始說是350W,後來變成了310W)。
2020年華為被列入實體清單後,台積電那邊的先進工藝用不了了。於是,華為就與中芯國際(SMIC)合作,采用他們的N+1工藝(等效7nm),推出了910B。910B優化了架構設計,提升了能效比,晶片尺寸為21.32mm×31.22mm,FP16算力約320TFLOPS,INT8算力約640TOPS。顯存為64GBHBM2e,顯存帶寬400GB\/s。910B也分為B1\/B2\/B3。910B3引入了HBM3e內存,帶寬提升至1.2TB\/s,支援萬億參數模型訓練。
最近這兩年,華為又推出了昇騰910C。昇騰910C采用中芯國際的7nm(N+2)工藝,晶體管數量達到530億。910C采用了類似B200的雙die封裝設計,就是把兩顆獨立的晶片die分彆放置在各自的中介層,再通過有機基板將兩箇中介層連接起來。通過把兩顆昇騰910B整合到一起,實現了效能的提升。這種封裝方式雖然在晶片間互聯帶寬上可能低於英偉達的先進封裝方案,但好處是成本更低、良率更高,量產速度也更快。
業界估測,910C在FP16精度下的單卡算力能達到800TFLOPS左右,大概是英偉達H100晶片(2022年推出)的80%。不過,910C的晶片邏輯麵積大約比H100多60%。這也意味著910C在架構效率和設計優化方麵,和H100還是存在一定差距的。910C的HBM高帶寬內存仍然來自海外廠商(國內DRAM製造商長鑫存儲HBM2e相關技術還需要再等等),但晶片的整體國產化比例據說已經達到90%以上。
關於910C的訊息比較神秘,根據網絡上不太確定的資訊,910C於2024年四季度推出樣片,2025年一季度開始量產,目前已經處於大規模出貨階段,全年銷量大概在70-80萬顆。也有訊息說,2024年910B的出貨量約四十萬張,今年910B出貨量可能與去年持平或略低(約30萬張),而910C的出貨量預計可能超過40萬張。因此,華為今年910B+910C的整體出貨量可能是70-100萬張。出貨量和產能也有很大關係,中芯國際N+2工藝良率去年隻有20%,今年據說已經達到40-50%,分配給910C的產能貌似是2.6萬片晶圓\/月(數據不太確定,僅供參考)。價格方麵,910B的均價據說大約是11萬\/片,910C可能是18-20萬\/片。網上很多文章說910C價格是1800美元,感覺不太靠譜。相比之下,英偉達H100的市場價格,大約是2.5-3萬美元\/張。
對了,華為前段時間推出的CloudMatrix384超節點,由384顆昇騰910C晶片構建,係統效能比英偉達的GB200NVL72更強。這就像是“群毆”模式,雖然單晶片的效能比不過人家,但通過係統層麵的創新,組成更大規模的集群,也能在一定程度上彌補差距,滿足算力需求。
在連接方麵,華為自研的HCCS高速互連介麵也很厲害。昇騰910整合了HCCS、PCIe4.0和RoCEv2介麵,可以靈活高效地實現橫向擴展和縱向擴展。HCCS對標的是英偉達的NVLINK,能夠給內核、設備、集群提供係統內存的一致訪問。在單一鏈路的單向\/雙向互聯帶寬上,HCCS有顯著優勢,可以有效提升多個Al晶片協同訓練的能力。
據說910C之後,還有910D,采用5nm製程,4Die封裝,支援FP8。今年5-6月份回片,預期2026Q2-Q3大規模量產。不過這個訊息來源不太可靠,隻能僅供參考。再往後,華為可能就會推出昇騰920係列,采用下一代工藝,更先進製程,努力縮小和英偉達的差距。
除了昇騰310和910之外,華為其實還有昇騰610。昇騰610也稱為MDC610,是智慧駕駛晶片,用於華為自己的智慧駕駛平台(MDC)。根據資料顯示,昇騰610采用了7nm製程,AI算力達到200TOPS@INT8或100TFLOPS@FP16,目前已經實現量產。
三、昇騰晶片的架構奧秘
華為昇騰晶片采用了自家獨特的達芬奇架構,這可是昇騰晶片的核心技術之一,就像是給晶片賦予了一顆超級“智慧大腦”。
這個架構專為人工智慧計算設計,具有超高的計算能效比。咱們以昇騰910為例,它強大的算力能夠滿足大規模深度學習計算的需求。在處理矩陣運算等人工智慧常見計算任務時,達芬奇架構就展現出了極高的效率。比如說,在訓練一個超大規模的圖像識彆模型時,需要處理海量的圖像數據和複雜的計算,昇騰910憑藉著達芬奇架構,能夠快速地完成這些矩陣運算,大大縮短了模型訓練的時間。
昇騰晶片還具備先進的張量處理單元(TPU),這就像是一個專門為神經網絡計算打造的“加速引擎”。它能夠加速神經網絡中的張量計算,讓模型訓練和推理的速度大幅提升。在圖像識彆任務中,昇騰晶片可以快速處理大量的圖像數據,準確識彆出目標物體,這主要就得益於其高效的架構設計和強大的計算核心,以及TPU的加速作用。
而且,昇騰晶片在內存子係統等方麵也有創新。就拿昇騰950係列來說,它將內存訪問顆粒度從512字節減少到128字節,實現更精細的內存訪問控製,大幅提升了對離散、不連續內存訪問場景的支援能力。配合華為自研的兩種HBM內存技術,形成了完整的場景化內存解決方案。
HiBL1.0低成本HBM(昇騰950PR搭載):在保證128GB容量和1.6TB\/s帶寬的基礎上,通過材料與封裝工藝創新,將推理Prefill階段和推薦業務的硬體投資成本降低40%以上,解決了大規模部署的經濟性瓶頸。這就好比以前買一台設備要花很多錢,現在通過技術創新,用更少的錢就能達到差不多的效果,讓更多企業用得起。
HiZQ2.0高效能HBM(昇騰950DT搭載):實現144GB超大內存容量和4TB\/s帶寬,配合2TB\/s的互聯帶寬,滿足大模型訓練和長文字推理對高訪存帶寬的嚴苛需求,為千億參數模型訓練提供了充足的內存支撐。比如在訓練一個超大型的語言模型時,需要大量的內存來存儲和處理數據,HiZQ2.0高效能HBM就能很好地滿足這種需求,保證模型訓練的順利進行。
在精度支援方麵,昇騰950係列全麵覆蓋FP8\/MXFP8\/MXFP4等業界標準低數值精度格式,同時引入華為自研的HiF8精度模式。在保持FP8計算效率的同時,精度接近FP16,有效解決了低精度計算中的精度損失問題,使推理結果準確性提升15%-20%。這種多精度支援能力使其能靈活適配從圖像識彆到自動駕駛等不同精度需求的AI場景。比如在自動駕駛場景中,對精度要求就非常高,HiF8精度模式就能在保證計算效率的同時,提高識彆的準確性,保障行車安全。
四、基於昇騰晶片的硬體體係
基於昇騰晶片,華為開發了一係列豐富的硬體產品,就像是搭建了一個完整的AI算力“王國”,這些硬體覆蓋了邊緣推理、雲端推理、雲端訓練三大場景,可以滿足不同行業用戶各種各樣的AI計算需求。
(一)Atlas200IDKA2:開發者的得力“小助手”
Atlas200IDKA2是麵向開發者的高效能AI開髮套件,它整合了昇騰310晶片,內置2個Alcore,可支援128位寬的LPDDR4X,最大算力為22TOPS。對於開發者來說,它就像是一個得力的小助手,方便開發者快速上手進行AI開發。比如說,一些想要開發智慧安防應用的開發者,就可以利用Atlas200IDKA2,快速搭建起一個簡單的圖像分析係統,進行演算法測試和功能驗證。
(二)Atlas300T訓練卡:雲端訓練的“加速引擎”
Atlas300T訓練卡基於昇騰910晶片,整合32個達芬奇AI核+16個TaiShan核,能夠提供280TFLOPSFP16的算力。在雲端訓練場景中,它就像是一個強大的“加速引擎”。當企業需要訓練大規模的深度學習模型時,Atlas300T訓練卡就能發揮它的強大算力,快速完成模型訓練,大大提高了訓練效率,節省了時間成本。
(三)CloudMatrix384超節點:集群算力的“超級戰艦”
前麵提到的CloudMatrix384超節點,由384顆昇騰910C晶片構建,係統效能比英偉達的GB200NVL72更強。它就像是一艘“超級戰艦”,在集群算力方麵展現出了強大的實力。通過將眾多昇騰晶片組合在一起,形成了一個超級強大的計算集群,能夠滿足那些對算力要求極高的大型企業和科研機構的需求,比如進行超大規模的氣象預測模型訓練、基因數據分析等。
五、昇騰晶片的應用領域
昇騰晶片憑藉其強大的算力和靈活的適應性,在眾多領域都得到了廣泛的應用,就像是一把萬能鑰匙,打開了各行各業智慧化升級的大門。
(一)智慧安防:守護安全的“智慧衛士”
在智慧安防領域,昇騰晶片就像是一位不知疲倦的“智慧衛士”。昇騰310晶片被廣泛應用於智慧安防攝像頭中,它可以實時對采集到的視頻圖像進行分析,識彆出人員的行為、動作,判斷是否有異常情況發生,比如有人闖入禁區、發生打架鬥毆等。而且還能進行車牌識彆、人臉識彆等,幫助警方快速追蹤嫌疑人,提高城市的安全防範水平。
(二)智慧駕駛:未來出行的“智慧大腦”
在智慧駕駛領域,昇騰610晶片作為華為智慧駕駛平台(MDC)的重要組成部分,就像是智慧汽車的“智慧大腦”。它能夠實時處理來自汽車傳感器的大量數據,包括攝像頭拍攝的圖像、雷達檢測到的距離資訊等,通過對這些數據的分析和處理,實現自動駕駛的各種功能,比如自動泊車、自適應巡航、車道保持等,為未來的智慧出行提供了有力的支援。
(三)智慧城市:城市管理的“智慧中樞”
在智慧城市建設中,昇騰晶片發揮著“智慧中樞”的作用。通過對城市中各種數據的采集和分析,包括交通流量、環境監測數據、能源消耗數據等,昇騰晶片可以幫助城市管理者做出更科學的決策。比如根據實時的交通流量數據,優化交通訊號燈的時長,緩解交通擁堵;根據環境監測數據,及時發現環境汙染問題並采取措施等,讓城市的運行更加高效、便捷、綠色。
(四)智慧金融:金融服務的“智慧助手”
在智慧金融領域,昇騰晶片可以幫助金融機構實現智慧化的風險評估、客戶信用分析、智慧客服等功能。通過對大量金融數據的分析,快速準確地評估貸款風險,為客戶提供更個性化的金融服務。智慧客服還能快速回答客戶的問題,提高客戶服務效率,降低人力成本。
六、昇騰晶片麵臨的挑戰與未來展望
雖然昇騰晶片取得了很大的成就,但在發展過程中也麵臨著一些挑戰。
一方麵,美國的製裁對昇騰晶片的發展造成了一定的阻礙,在晶片製造工藝、關鍵材料等方麵麵臨著技術封鎖和供應限製。比如說,在晶片製造工藝上,由於無法使用更先進的製程工藝,可能會影響晶片效能的進一步提升;在關鍵材料方麵,像HBM高帶寬內存等,部分還依賴海外廠商,存在供應風險。
另一方麵,市場競爭也非常激烈。在全球AI晶片市場,除了英偉達等國際巨頭,還有眾多新興的AI晶片企業不斷湧現,都在爭奪市場份額。昇騰晶片需要不斷提升技術實力和產品效能,加強市場推廣和生態建設,才能在激烈的競爭中立於不敗之地。
不過,我們對昇騰晶片的未來還是充滿信心的。華為一直以來都非常重視技術研發,不斷加大投入,在晶片架構設計、計算技術、封裝技術等方麵持續創新。而且,隨著國內半導體產業的不斷髮展,越來越多的國內企業在晶片製造、材料供應等方麵取得了進步,這也為昇騰晶片的發展提供了有力的支援。
從長遠來看,隨著人工智慧技術的不斷髮展,對AI算力的需求會越來越大。昇騰晶片有望在更多領域得到應用,推動各行各業的智慧化升級。同時,華為也在不斷完善昇騰晶片的生態係統,吸引更多的開發者和企業加入,共同推動人工智慧產業的發展。相信在未來,昇騰晶片一定能夠在國產AI晶片領域繼續發光發熱,成為全球AI晶片市場的重要力量,為我國的科技發展和經濟建設做出更大的貢獻。