精選分類 書庫 完本 排行 原創專區
欣可小說 > 古代言情 > 大白話聊透人工智慧 > AI晶片的兩大“升級方向”——FP8精度和多芯互聯,到底牛在哪?

提到AI晶片,不少人可能覺得“離自己很遠”,但其實咱們平時用的AI聊天、刷的短視頻推薦,背後都靠AI晶片“算”出來的。現在AI晶片正在快速升級,其中有兩個方向特彆關鍵:FP8精度和多芯互聯。這倆詞聽著挺專業,其實用大白話拆解開特彆好懂——簡單說,FP8精度是讓晶片“算得又快又省電”,多芯互聯是讓晶片“組隊乾活,力大無窮”。今天就從這兩個方向入手,跟大家聊明白AI晶片是怎麼升級的,以及對咱們用AI、對國產晶片發展有啥影響。

一、先搞懂基礎:AI晶片為啥要“升級”?核心是解決“算力不夠、電費太貴”的問題

在聊具體技術之前,得先弄明白一個事兒:AI晶片為啥非得升級?答案很簡單——現在的AI越來越“能吃算力”了。

比如訓練一個像GPT-4這樣的大模型,需要處理幾十萬億條數據,要是晶片算得慢,可能得花好幾個月才能訓練完;而且晶片算的時候特彆費電,一個大模型訓練一次,電費可能就好幾百萬。以前的晶片技術,要麼算得慢、要麼電費高,根本跟不上現在AI的“胃口”。

就像咱們做飯,以前用小煤爐,做一大鍋飯又慢又費煤;現在換成大燃氣灶,又快又省氣。AI晶片的升級,就相當於從“小煤爐”換成“大燃氣灶”,核心是解決“算力不夠用、能耗太高”這兩個痛點。而FP8精度和多芯互聯,就是解決這兩個痛點的“兩把鑰匙”。

二、第一個升級方向:FP8精度——讓晶片“算得準、跑得快、省電費”,大模型訓練直接受益

先來說第一個關鍵技術:FP8精度。這裡的“精度”不是指晶片的製造精度,而是指晶片“計算數據時的精細程度”。咱們可以把晶片計算想象成“用尺子量東西”:以前的晶片用“厘米尺”量,現在FP8精度相當於用“毫米尺”量,既能量得更準,還能更快量完,同時還不費“力氣”(也就是省電)。

1.先拆“FP8精度”:不是“精度降低”,而是“精準控耗”,該細的地方細,該省的地方省

可能有人看到“FP8”裡的“8”會疑惑:以前不是有FP16、FP32嗎?數字變小了,是不是精度變低了?其實不是這麼回事。

簡單說,“FP+數字”代表晶片存儲和計算數據的“格式”,數字越大,能存儲的數據越精細,但需要的存儲空間和計算資源也越多。比如FP32就像“高清電影”,畫麵特彆細,但占內存大、播放時費電;FP16像“標清電影”,畫麵稍粗一點,但占內存小、播放快;而FP8是“優化後的標清”——在保證畫麵(計算精度)夠用的前提下,把冇用的“畫素”(冗餘數據)去掉,既不影響觀看(計算結果),還能省內存、省電費。

舉個例子:比如計算“1.+2.”,用FP32能算出“3.”,精確到小數點後8位;用FP8算,能算出“3.5802”,精確到小數點後4位。對咱們日常用的AI來說,小數點後4位的精度完全夠用——比如AI推薦短視頻,不用精確到小數點後8位,隻要能判斷“你喜歡這個視頻的概率是85%”就行,冇必要算成“85.%”。

所以FP8精度不是“降低精度”,而是“精準控耗”——把算力和電量用在“刀刃上”,該精細的地方不馬虎,冇必要精細的地方省資源。

2.FP8精度的核心好處:算力密度翻2倍、能耗降30%,大模型訓練直接“提速又省錢”

搞懂了FP8精度的原理,再來看它的實際好處,主要有兩個:一是“算力密度提升2倍”,二是“能耗降低30%”。這倆好處對大模型訓練來說,簡直是“及時雨”。

先解釋“算力密度”:就是同樣大小的晶片,能提供的計算能力翻了2倍。以前一塊晶片每秒能算100次,現在用FP8精度,每秒能算200次。這意味著訓練大模型時,需要的晶片數量能減半——比如以前要100塊晶片,現在50塊就夠了,不僅省了晶片采購錢,還省了機房空間(放晶片的地方也需要成本)。

再看“能耗降低30%”:就是算同樣多的數據,電費能省三成。舉個直觀的例子:以前訓練一個大模型,用老晶片需要100萬度電,電費按工業用電1元\/度算,得花100萬;現在用支援FP8精度的晶片,隻要70萬度電,電費直接省30萬。對那些經常訓練大模型的企業來說,這可不是小數目——比如某AI公司一年訓練10個大模型,光電費就能省300萬。

而且這兩個好處加起來,還能“縮短訓練週期”。比如訓練GPT-4這樣的大模型,以前用老技術需要3個月,現在用FP8精度,算力翻2倍、能耗降30%,算下來訓練週期能縮短25%,也就是隻要2個多月就能訓練完。對企業來說,訓練週期縮短意味著能更快推出新的AI產品,比如彆人還在訓練,你已經把新的AI聊天工具上線了,自然能搶占市場先機。

3.國產晶片的動作:寒武紀、壁仞科技已跟上,BR100晶片算力達1000TOPS,專門對標“超大規模訓練”

可能有人會問:國外晶片早就支援FP8精度了,國產晶片能跟上嗎?答案是“當然能”,而且已經有不少國產企業拿出了實實在在的產品。

首先是大家比較熟悉的寒武紀,它的思元係列晶片早就支援FP8精度了,比如思元590晶片,用FP8精度計算時,算力比用老格式提升1.8倍,能耗降低28%,已經能滿足不少中小規模AI模型的訓練需求。

除了寒武紀,還有一家叫壁仞科技的企業,推出的BR100晶片更是“重量級選手”——它支援FP8精度,算力能達到1000TOPS(1TOPS相當於每秒算1萬億次)。這個算力有多強?簡單說,用BR100晶片訓練一個百億參數的AI模型,可能隻要幾天時間;要是用來訓練超大規模的大模型(比如千億、萬億參數),也能輕鬆應對。

現在不少國內的大模型企業已經開始用這些國產晶片了。比如某互聯網公司,以前訓練大模型用國外晶片,一次要花500萬;現在換成壁仞BR100晶片,因為支援FP8精度,算力夠、能耗低,一次訓練隻要300萬,成本直接降了40%。而且國產晶片不用受國外政策限製,不用擔心“斷供”,用起來更放心。

三、第二個升級方向:多芯互聯——讓晶片“組隊乾活”,解決“單晶片算力不夠用”的難題

聊完了FP8精度,再來說第二個關鍵技術:多芯互聯。這個技術的思路特彆簡單——既然單顆晶片的算力有限,那不如把多顆晶片“連起來”,組成一個“虛擬大晶片”,讓它們一起乾活,算力自然就上去了。

就像咱們搬東西,一個人搬不動100斤的箱子,要是8個人一起抬,就能輕鬆搬起來。多芯互聯就是讓晶片“組隊抬箱子”,核心是解決“單晶片算力跟不上大模型需求”的問題。

1.為啥需要多芯互聯?單晶片“再牛也有上限”,大模型需要“集體力量”

可能有人會問:既然能把單顆晶片做得更厲害,為啥還要搞多芯互聯?答案是“單晶片的算力有上限”。

就像一個人再強壯,最多能舉200斤,不可能舉2000斤;單顆晶片不管怎麼升級,算力也有天花板——比如現在最厲害的單顆AI晶片,算力也就1000多TOPS,而訓練一個千億參數的大模型,需要的算力至少是8000TOPS,單顆晶片根本不夠用。

而且單顆晶片做得太複雜,成本會飆升。比如想把單顆晶片的算力從1000TOPS提升到8000TOPS,需要的研發成本可能是原來的10倍,售價也會貴得離譜,冇幾個企業能買得起。

這時候多芯互聯的優勢就體現出來了:不用把單顆晶片做得“神乎其神”,隻要把多顆普通晶片連起來,就能達到超高算力。比如用8顆1000TOPS的晶片,通過多芯互聯組成“虛擬大晶片”,總算力就能達到8000TOPS,成本隻要單顆“超級晶片”的1\/3,性價比一下子就上來了。

2.多芯互聯咋實現?靠“高速互聯介麵”,讓晶片之間“說話不卡頓”

要讓多顆晶片“組隊乾活”,關鍵得解決一個問題:晶片之間得能快速“傳遞數據”。就像8個人一起抬箱子,得喊著“一二一”同步發力,要是有人慢半拍,箱子就會歪;晶片之間要是數據傳得慢,有的晶片算完了等著要數據,有的晶片還冇傳完,整體算力就會浪費。

而多芯互聯技術,核心就是靠“高速互聯介麵”解決這個問題。這個介麵就像“超高速網線”,能讓晶片之間每秒傳遞幾十GB甚至上百GB的數據,延遲特彆低(比如隻有幾微秒,1微秒等於百萬分之一秒)。

舉個例子:比如把8顆晶片連起來,第一顆晶片算完一部分數據,通過高速介麵瞬間傳給第二顆,第二顆接著算,中間幾乎冇有停頓;要是冇有這個介麵,用普通網線傳數據,可能需要幾毫秒(1毫秒等於千分之一秒),8顆晶片算下來,光等數據的時間就會浪費一半,算力自然上不去。

現在國產晶片企業在高速互聯介麵上做得很到位。比如中科曙光的“海光芯雲”平台,用的就是自主研發的高速互聯介麵,能讓晶片之間的數據傳輸速度達到每秒100GB,延遲隻有3微秒,幾乎實現了“零卡頓”。

3.國產案例:中科曙光“海光芯雲”平台,8顆晶片組出8000TOPS算力,能搞定千億參數大模型

聊完原理,再看國產晶片的實際應用——中科曙光的“海光芯雲”平台,就是多芯互聯技術的典型代表。

這個平台是怎麼做的呢?簡單說,就是把8顆海光DCU晶片(海光DCU是國產AI晶片的一種,單顆算力大概1000TOPS),通過高速互聯介麵連起來,組成一個“算力節點”。這樣一來,這個節點的總算力就是8×1000TOPS=8000TOPS,剛好能滿足千億參數大模型的“推理需求”(推理就是大模型訓練完後,給它輸入問題,它算出答案的過程)。

可能有人會問:千億參數大模型的推理,需要這麼高的算力嗎?答案是“需要”。比如咱們用AI聊天,問一個複雜問題(比如“幫我寫一份1000字的產品方案”),大模型需要在幾秒內處理幾十萬條數據,要是算力不夠,可能得等十幾秒甚至幾十秒才能出答案,體驗就會很差。而8000TOPS的算力節點,能讓千億參數大模型的推理速度提升到“秒級響應”,比如輸入問題後,2-3秒就能出答案,跟咱們平時聊天一樣流暢。

現在這個平台已經在不少地方用起來了。比如某科研機構,用“海光芯雲”平台跑千億參數的醫療大模型,給它輸入患者的CT影像和病曆數據,幾秒內就能給出初步診斷建議,比以前用單顆晶片快了6倍,大大提升了科研效率;還有某互聯網公司,用這個平台做短視頻推薦,能更快分析用戶的觀看習慣,推薦的視頻更精準,用戶停留時間比以前增加了20%。

而且多芯互聯還能“靈活擴展”——要是需要更高的算力,比如要處理萬億參數的大模型,隻要再增加晶片數量就行。比如把16顆海光DCU晶片連起來,就能組成TOPS的算力節點,完全能滿足更高需求。這種“按需擴展”的特性,對企業來說特彆友好,不用一開始就買最貴的設備,後期根據需求加晶片就行,能省不少錢。

四、技術迭代的實際意義:國產AI晶片“又強又便宜”,給大模型企業更多選擇

聊完了FP8精度和多芯互聯的技術細節,咱們得回到一個更實際的問題:這些技術升級,到底有啥用?對國產晶片、對咱們用AI有啥影響?

總結下來,有三個核心意義:

1.國產AI晶片“效能追上了”,不用再依賴國外晶片

以前國產AI晶片最大的短板就是“效能不夠”,比如算得慢、不支援大模型訓練。但通過FP8精度和多芯互聯的升級,國產晶片的效能已經能跟上需求了——比如壁仞BR100晶片支援FP8精度,能訓練超大規模大模型;中科曙光的多芯互聯平台,能滿足千億參數大模型的推理。

這意味著國內的大模型企業,不用再盯著國外晶片了。以前國外晶片一斷供,企業就慌了;現在有了國產晶片的選擇,就算國外晶片買不到,也能靠國產晶片繼續做研發、搞業務。比如某AI創業公司,以前一直用國外晶片,去年因為政策限製買不到了,換成壁仞BR100晶片後,發現效能完全夠用,訓練成本還降了30%,現在已經把所有業務都換成國產晶片了。

2.算力成本“降下來了”,中小企業也能用得起AI

以前AI是“大企業的遊戲”,因為算力成本太高,中小企業根本負擔不起。比如訓練一箇中小規模的AI模型,用國外晶片可能要花100萬,很多小企業想做都不敢做。

但現在不一樣了:FP8精度讓晶片能耗降30%,多芯互聯讓企業不用買昂貴的單顆晶片,兩者結合直接把算力成本拉低了40%-50%。比如以前訓練一箇中小模型要100萬,現在用國產晶片隻要50-60萬,不少中小企業也能負擔得起了。

就像以前隻有大企業能買得起豪車,現在普通家庭也能買得起經濟適用車一樣。算力成本的降低,讓更多企業能參與到AI研發中,比如小的創業公司能做垂直領域的AI(比如AI教育、AI醫療),這會讓整個AI行業更有活力。

3.形成“國產產業鏈閉環”,發展更穩

以前國產晶片的產業鏈不完善,比如晶片設計軟件靠國外、互聯介麵靠國外,很容易被“卡脖子”。但現在FP8精度和多芯互聯的核心技術,都是國產企業自主研發的——比如寒武紀、壁仞的FP8精度技術,中科曙光的高速互聯介麵,都是自己做的,不用依賴國外技術。

這意味著國產AI晶片已經形成了“設計-生產-應用”的閉環,從技術到產品再到落地,都能自己搞定。這種閉環特彆重要,就像一個人有了完整的消化係統,不用靠彆人餵飯,能自己吸收營養成長。以後就算國外技術封鎖,國產晶片也能自己迭代升級,發展會更穩。

五、總結:AI晶片的升級,不是“炫技”,而是“解決真問題”

最後咱們再總結一下:FP8精度和多芯互聯這兩個技術方向,不是晶片廠家在“炫技”,而是實實在在解決AI發展中遇到的“算力不夠、成本太高”的問題。

FP8精度讓晶片“算得快、省電費”,多芯互聯讓晶片“組隊乾活、算力翻倍”,兩者結合讓國產AI晶片實現了“效能提升、成本下降”的雙重突破。對咱們普通人來說,這意味著以後用AI會更流暢(比如聊天響應更快、推薦更精準),而且會有更多貼近生活的AI應用(比如中小企業做的AI教育、AI養老工具);對國產晶片來說,這意味著終於能在全球AI晶片市場中“站穩腳跟”,不再被國外牽著鼻子走。

當然,咱們也得客觀看待:國產AI晶片雖然進步快,但在某些細節上(比如超大規模晶片的穩定性、極端場景的適配),跟國外頂尖晶片還有一點差距。但這並不可怕,畢竟技術升級是個循序漸進的過程——就像咱們學走路,先學會站穩,再學會走,最後才能跑。現在國產AI晶片已經“站穩了”,也“會走了”,相信再給點時間,一定能跑得更快、更遠。

總的來說,AI晶片的這波技術迭代,對國產晶片是“機遇”,對AI行業是“助力”,最終受益的還是咱們每一個用AI的人。以後再聽到“FP8精度”“多芯互聯”,不用覺得陌生,知道它們是讓AI更好用、更便宜的“幕後功臣”就行啦。

目錄
設置
設置
閱讀主題
字體風格
雅黑 宋體 楷書 卡通
字體風格
適中 偏大 超大
儲存設置
恢複默認
手機
手機閱讀
掃碼獲取鏈接,使用瀏覽器打開
書架同步,隨時隨地,手機閱讀
收藏
聽書
聽書
發聲
男聲 女生 逍遙 軟萌
語速
適中 超快
音量
適中
開始播放
推薦
反饋
章節報錯
當前章節
報錯內容
提交
加入收藏 < 上一章 章節列表 下一章 > 錯誤舉報