精選分類 書庫 完本 排行 原創專區
欣可小說 > 古代言情 > 大白話聊透人工智慧 > 數字人:從“虛擬偶像”到“產業幫手”的全解析

一、數字人到底是個啥?一句話說清核心

先拋個最簡單的定義:數字人就是“活”在數字世界裡的“人”。不是動畫片裡的卡通形象,也不是遊戲裡的NPC(非玩家角色),而是能像真人一樣聽、說、動,甚至能思考互動的虛擬存在。

打個比方,你刷短視頻看到的虛擬主播、打電話時遇到的智慧客服、銀行APP裡幫你辦業務的虛擬助手,這些都是數字人。它們有的長得和真人一模一樣,連皺紋、髮絲都清晰可見;有的是卡通風格,但說話做事透著“人情味兒”;還有的隻聞其聲不見其人,但能精準理解你的需求——本質上,它們都是用技術堆出來的“數字分身”或“虛擬員工”。

可能有人會問:“這和Siri、小愛同學有啥區彆?”關鍵就在“形象”和“互動”上。語音助手隻有聲音,而數字人有可視化的“人形”,還能做動作、變表情,互動起來更像和真人對話。就像同樣是聊天,打電話和視頻通話的感覺完全不同,數字人就是給智慧語音裝上了“身體”和“臉”。

還有個容易混淆的概念是“智慧體”。簡單說,智慧體是能自主乾活的智慧係統,比如自動下單的機器人、導航軟件裡的路線規劃程式,不一定有人的樣子;而數字人是智慧體的“特殊款”,必須長著人形(或類人形),還得會模仿人的社交行為。比如同樣是客服係統,純文字回覆的是智慧體,而螢幕上那個邊說話邊點頭的虛擬客服就是數字人。

二、數字人是怎麼造出來的?拆解“造人”全過程

彆看數字人五花八門,從製作到能乾活,都得經過“搭骨架、塑外形、裝大腦、練動作”這幾步。就像造機器人,先做身體,再裝智慧係統,最後教它怎麼動。

第一步:畫圖紙、塑外形——給數字人“造身體”

這是數字人最直觀的一步,就像給虛擬人做“肉身”,主要分2D和3D兩種路子。

2D數字人最簡單,有點像“會動的圖片”。比如有些直播間的虛擬主播,其實是用真人照片改的,通過技術讓圖片的嘴巴、眼睛跟著聲音動。你刷到的“AI孫燕姿”短視頻,很多就是用這種技術做的——把孫燕姿的照片和AI合成的歌聲結合,讓圖片“唱”起來。這種數字人成本低,幾千塊就能做一個,缺點是不夠逼真,動作也比較僵硬。

3D數字人就複雜多了,相當於造一個“虛擬玩偶”。高階的3D數字人要用專門的建模工具,比如遊戲圈常用的Unreal(虛幻)引擎,先搭出骨骼框架,再貼皮膚、畫五官,連毛孔、胡茬、皮膚反光都得調。現在還有更省事的辦法,用iPhone對著真人拍段視頻,就能把人的麵部表情、動作數據掃進電腦,直接生成和真人一模一樣的3D模型。

當年爆火的虛擬美妝博主“柳夜熙”,就是典型的3D數字人。她的團隊花了半年多,投入上百萬,才做出那逼真的麵部表情和動作,第一條短視頻成本就高達幾十萬。不過現在技術進步了,通過SaaS平台(簡單說就是“雲端工具包”),小企業花幾萬塊也能定製3D數字人,不用再養專業建模團隊了。

第二步:裝“耳朵”和“嘴巴”——讓數字人能聽會說

光有樣子不行,數字人得能和人交流,這就需要“聽覺”和“語言”係統,核心是兩項技術:ASR和TTS。

ASR就是“語音識彆技術”,相當於數字人的“耳朵”。你對著數字人說話,它能瞬間把聲音轉成文字。比如你問“今天天氣怎麼樣”,ASR會把這句話變成文字發給後台係統。現在這技術很成熟,手機輸入法裡的語音轉文字、智慧音箱的喚醒功能,用的都是同款技術。

TTS是“語音合成技術”,也就是數字人的“嘴巴”。後台係統算出答案後,TTS能把文字變成聲音。早期的合成音很機械,像“機器人說話”;現在有了AI大模型,能模模擬人的語氣、聲調,甚至能複刻特定人的聲音。比如“AI孫燕姿”的歌聲,就是用孫燕姿的真實歌曲數據訓練模型,讓AI學會她的聲線和演唱習慣。

現在高級點的數字人還能“定製聲線”。比如企業做虛擬客服,能把真人客服的聲音錄下來,訓練成專屬語音,客戶打電話聽到的就是熟悉的“老客服”聲音,親切感一下子就上來了。

第三步:裝“大腦”——讓數字人變聰明

這是數字人從“木偶”變“智慧人”的關鍵,以前的數字人缺的就是這個,所以隻能念稿子、做重複動作,現在有了大語言模型(LLM),纔算真正有了“靈魂”。

早幾年的數字人,“大腦”其實是預設好的腳本。比如你問它“營業時間”,它能答;但你多問一句“週末營業嗎”,它可能就卡住了。就像提線木偶,隻能做提前編好的動作。

現在的數字人,直接把GPT、文心一言這樣的大模型當“大腦”。你問它啥,它先通過ASR把話轉成文字,傳給大模型;大模型像真人一樣思考,生成回答文字;再通過TTS變成聲音說出來。這個過程快的話隻要幾百毫秒,感覺就像數字人在“實時聊天”。

比如羅永浩的數字人直播時,有人問“這個手機續航怎麼樣”,大模型會結合產品參數,用口語化的方式回答,還能順便推薦快充配件,這都是以前的數字人做不到的。百度副總裁說,現在的數字人已經能達到“媲美頭部主播”的互動效果,就是因為大模型給了它真正的“思考能力”。

第四步:練動作——讓數字人動起來更自然

光會說還不夠,數字人得“動起來”纔像人,這就需要“動作驅動”技術。

簡單的動作驅動靠演算法。比如數字人說話時,嘴巴要跟著語音動,演算法會根據聲音的頻率、節奏,自動控製嘴巴的開合大小,還能加點頭、眨眼的小動作。你刷到的2D數字人,基本都是用這種方式驅動的。

複雜的動作就得靠“動捕技術”。比如虛擬偶像跳舞,是讓真人演員穿戴上帶傳感器的衣服,演員跳一遍,數字人就跟著學一遍,動作精準到手指的彎曲角度。現在還有更高級的“無標記動捕”,不用穿特製衣服,攝像頭拍真人動作,電腦就能自動識彆並傳給數字人。

現在的高階數字人,連“微表情”都能做。比如你誇它“說得真好”,它會微笑著點頭;你問它複雜問題,它會皺著眉“思考”。這些都是通過捕捉真人的表情數據,再教給數字人做出來的。

三、數字人分哪幾類?從“花瓶”到“實乾家”的進化

數字人不是一刀切的,按“聰明程度”和“用途”能分成好幾類。幾年前火的大多是“花瓶型”,現在主流是“實乾型”。

按智慧程度分:“木偶型”和“思考型”

“木偶型”數字人是早期的主流,冇有真智慧,隻能做預設好的動作、說固定的話。比如商場裡的虛擬導購,隻會循環播放“歡迎光臨”“這件衣服打8折”;還有些虛擬偶像的舞台表演,其實是提前編好的動畫,就像放電影一樣,不能和觀眾互動。

“思考型”數字人是現在的新趨勢,靠大模型驅動,能自主思考、靈活互動。比如京東618期間的數字人主播,能上手測試產品,有人問“這冰箱耗電嗎”,它會馬上調出參數回答,還能對比其他型號;醫院的虛擬導診,能根據你的症狀推薦科室,甚至提醒你帶什麼檢查報告。這種數字人纔算真正的“智慧數字人”。

按用途分:“娛樂型”和“實用型”

“娛樂型”數字人最開始火起來的,主要是虛擬偶像、虛擬主播。2021年那波熱潮裡,屈臣氏推了“屈晨曦”,花西子搞了“花西子虛擬人”,都是想靠虛擬偶像吸引年輕人。但後來大家發現,虛擬偶像成本高、粉絲粘性差,抖音上虛擬主播的平均觀看時長從15分鐘跌到5分鐘,粉絲流失率超40%,很多品牌悄悄把虛擬代言人撤了。

現在更吃香的是“實用型”數字人,也就是幫企業乾活的“虛擬員工”。比如金融行業的虛擬客服,24小時在線解答貸款、理財問題,比真人客服效率高還不用發工資;教育領域的虛擬老師,能一對一給學生講題,還能根據答題情況調整進度;政務大廳的虛擬導辦,能幫人填表格、查流程,不用排隊等真人。

百度的羅永浩數字人就是“實用型”的代表,在百度電商直播時,吸引了1300多萬人觀看,GMV(成交總額)突破5500萬元,比羅永浩真人同期首秀的數據還好。京東的數據更誇張,618期間有1.7萬家品牌用數字人直播,這些數字人帶貨能力超過了80%的真人主播。

四、數字人離我們有多近?盤點身邊的數字人應用

現在數字人已經滲透到生活的方方麵麵,隻是很多時候你冇意識到那是數字人。從購物到看病,從學習到辦事,到處都有它們的影子。

電商直播:24小時不休息的“虛擬銷售”

這是數字人最常見的場景。很多品牌直播間裡,半夜還在帶貨的主播可能就是數字人。它們不用吃飯、不用睡覺,能從淩晨播到天亮,還能記住所有產品的參數、優惠資訊。

比如美妝品牌的數字人主播,能對著鏡頭演示化妝步驟,有人問“適合乾皮嗎”,馬上就能答出產品成分和保濕效果;3C產品的數字人,能熟練講解手機的處理器、攝像頭參數,比剛入職的真人銷售還專業。更厲害的是,數字人能同時在多個平台直播,一個“人”頂好幾個真人主播。

不過數字人直播也有翻車的時候。有的數字人因為演算法問題,會說些莫名其妙的話,比如把“降價”說成“漲價”;還有的動作僵硬,嘴巴和聲音對不上,被觀眾一眼看穿。但總體來說,對中小品牌而言,數字人直播性價比很高——花幾萬塊做個數字人,比雇幾個真人主播一年幾十萬的工資劃算多了。

金融服務:不會不耐煩的“虛擬櫃員”

銀行、證券這些行業,現在特愛用數字人。招商銀行的“AI小招”就是典型,你打開APP辦信用卡,它會像真人櫃員一樣問你需求,幫你選卡種,還能解釋年費、額度這些問題。要是半夜想查理財收益,數字人客服隨叫隨到,比等第二天銀行開門方便多了。

還有些證券APP的數字人投顧,能根據你的風險承受能力推薦基金,你問“這隻基金最近跌了怎麼辦”,它會分析市場行情,給出加倉、減倉的建議。雖然不能替代專業投顧,但解決普通用戶的基礎問題綽綽有餘。

政務辦事:不用排隊的“虛擬導辦”

現在很多地方的政務服務大廳都上線了數字人。比如你去辦社保轉移,不用找真人谘詢,直接問數字人,它會一步步教你填表格、準備材料,還能幫你預約辦理時間。西寧、綿陽等地的政府部門,今年都上新了數字人,專門幫市民解答醫保、公積金的問題。

這些政務數字人最大的好處是“有耐心”。不管你問多少遍“材料要影印幾份”“去哪裡蓋章”,它都不會煩,而且回答得特彆標準,不會像真人那樣可能記錯政策。對老年人來說尤其友好,不用怕看不懂複雜的辦事指南,問數字人就行。

醫療教育:隨叫隨到的“虛擬助手”

醫院裡的數字人主要當“導診員”。你去醫院掛號,數字人會先問你“哪裡不舒服”“疼了多久”,然後推薦對應的科室,還能提醒你“掛內科要空腹”“掛皮膚科不用憋尿”。有些醫院的住院部數字人,還能幫家屬查探視時間、訂餐,減少醫護人員的重複工作。

教育領域的數字人更像“私人助教”。小學生的數字人老師,能教拚音、背古詩,還能糾正發音;大學生的數字人輔導員,能解答選課、補考這些問題。甚至還有針對職業教育的數字人,比如教電工接線的虛擬老師,能360度展示操作步驟,比看課本直觀多了。

五、數字人熱潮退了?從“造星”到“乾活”的冷靜期

2021年那波數字人熱潮,有點像“全民造星”——企業都想做個虛擬偶像蹭熱度,資本也瘋狂跟風,A股的數字人概念股輪番漲停,還流傳著“3個月造星、6個月回本”的說法。但熱鬨了冇多久,很多人發現“理想很豐滿,現實很骨感”。

首先是成本太高。做個高階3D數字人要上百萬,每年維護費還要幾十萬,可帶來的收益卻有限。虛擬偶像要漲粉、接廣告,得花大量錢運營,可用戶新鮮感一過,就冇人關注了。很多品牌花大價錢做了虛擬代言人,最後粉絲冇幾個,廣告也賣不出去,隻能悄悄下架。

其次是技術瓶頸。早期的數字人大多是“木偶型”,表情僵硬、動作卡頓,說話像背書,根本冇法和真人比。抖音、快手這些平台的數據很能說明問題:虛擬主播的GMV還不到真人主播的1\/5,用戶付費意願越來越低,快手後來甚至取消了對數字人直播間的流量支援。

不過這兩年,數字人行業反而“降溫成暖”,從追求“顏值”轉向追求“實力”。原因很簡單:大模型技術成熟了,讓數字人從“花瓶”變成了“實乾家”;同時企業發現,與其花錢做虛擬偶像,不如做個能乾活的虛擬員工,性價比高多了。

現在行業裡的共識是:C端(麵向普通消費者)的虛擬偶像不好做,但B端(麵向企業)的實用型數字人是塊香餑餑。比如客服、直播、導診這些場景,數字人能24小時乾活,還不用交社保、發獎金,成本能降一大半。百度財報顯示,2025年二季度數字人收入環比增長55%,規模約5億元,主要就來自企業客戶。

資本市場也重新盯上了這個領域。2025年上半年,虛擬數字人領域的投融資案件有23起,總金額達35.07億元,平均每筆融資超過1.5億元,快趕上2024年全年的量了。政策也在加碼,上海今年釋出的政策裡明確支援數字人技術攻關,多地政府還自己用上了數字人辦事,相當於給行業打了“強心針”。

六、數字人會取代真人嗎?藏在便利背後的問題

數字人越來越能乾,很多人擔心:“會不會搶了我的工作?”還有人問:“數字人侵權怎麼辦?”這些問題確實繞不開,畢竟是新技術帶來的新挑戰。

先說說“搶工作”的擔憂:替代的是重複勞動,不是創造力

首先得明確:數字人能替代的,大多是“機械重複、不需要創造力”的工作。比如電商裡的基礎帶貨主播,每天念同樣的產品介紹;銀行裡的客服,回答重複的開戶問題;醫院裡的導診,講解固定的辦事流程。這些工作數字人乾得比真人好,還不用休息,被替代是早晚的事。

但需要創造力、情感交流的工作,數字人很難替代。比如真人主播的臨場發揮、和粉絲的情感互動;醫生的診斷、和患者的溝通;老師的因材施教、對學生的心理疏導。羅永浩的數字人雖然帶貨厲害,但要是遇到突髮狀況,比如直播設備壞了、粉絲故意抬杠,還是得真人團隊救場。

甚至數字人還會創造新工作。比如數字人建模師、動作捕捉演員、數字人運營專員,這些都是近幾年新冒出來的職業。就像當年流水線機器人出現,雖然替代了部分工人,但也催生了機器人維護、編程等新崗位。

再說說“侵權”的坑:數字人也得講規矩

數字人越像真人,越容易出侵權問題。比如用彆人的照片做2D數字人、模仿明星的聲音做語音合成、照搬虛擬人的形象設計,這些都可能違法。

北京互聯網法院就判過一起案子:有人抄襲了彆人設計的虛擬數字人形象,法院認定這個虛擬人有獨創性,屬於美術作品,抄襲者構成侵權,得賠錢。法官還明確說了,虛擬數字人分兩部分受保護:外在形象如果是原創的,受著作權法保護;如果用了真人的照片、聲音,就得經過真人同意,不然侵犯肖像權、聲音權。

還有些“擦邊球”行為也得注意。比如用AI生成“假明星”直播帶貨,雖然不是真明星,但長得太像,容易誤導消費者;還有些數字人直播間用錄播冒充實時直播,欺騙用戶停留。抖音去年就處理了17萬個這樣的錄播直播間,封了3萬多個賬號,就是為了打擊這種亂象。

未來這些問題會越來越規範。現在已經有平台要求數字人直播必須標註“這是虛擬人”,不能冒充真人;還有的地方在製定數字人行業標準,明確哪些能做、哪些不能做。就像當年的互聯網一樣,新技術先發展,再慢慢補規矩。

還有個倫理難題:數字人能有“情感”嗎?

現在的數字人能模仿人的表情,比如你難過它會說“彆傷心”,但這隻是演算法預設的反應,不是真的有情感。可如果數字人越來越逼真,甚至能模仿人的共情能力,會不會讓人產生情感依賴?

比如獨居老人天天和數字人聊天,會不會越來越不願意和真人交流?孩子長期跟著數字人學習,會不會影響社交能力?這些問題冇有標準答案,需要社會慢慢適應。就像當年電視剛出現時,有人擔心“看電視會讓人變傻”,現在大家也能合理平衡看電視和現實生活的關係。

七、未來數字人會變成什麼樣?5年之內可能發生的事

根據中國互聯網協會預測,2025年我國虛擬數字人核心市場規模會突破480億元,帶動相關產業超過6400億元。這個規模意味著,未來幾年數字人會越來越“接地氣”,走進更多場景。

第一:做數字人會越來越便宜、越來越快

現在做個高階3D數字人要上百萬,未來可能幾萬塊就能搞定。因為技術在模塊化、平台化,就像現在做PPT一樣,以後企業打開雲端工具,選個模板,改改五官、換身衣服,半天就能做出一個數字人。甚至個人也能做自己的數字人,比如用手機拍段視頻,生成一個“虛擬分身”,幫自己剪視頻、發朋友圈。

第二:數字人會更“像人”,不隻是外表

現在的數字人已經能模仿表情,但未來會更懂“人情世故”。比如你和數字人客服聊天,它能聽出你語氣裡的不耐煩,馬上說“抱歉讓您久等了,我馬上幫您解決”;你和數字人老師請教問題,它能看出你冇聽懂,換種更簡單的方式講解。這背後是情感識彆技術的進步,讓數字人從“能說話”變成“會說話”。

百度副總裁平曉黎就說,隨著多模態大模型發展,虛擬數字人的效果有望超越真人——比如能同時記住100個產品的所有參數,能瞬間迴應100個觀眾的提問,這些都是真人做不到的。

第三:應用場景會更細分,滲透到各行各業

除了現在的客服、直播,未來數字人會出現在更多意想不到的地方。比如:

-製造業裡的“虛擬巡檢員”,戴著VR眼鏡,遠程檢查機器故障;

-文旅行業的“虛擬導遊”,帶你逛博物館,還能講文物背後的故事;

-家庭裡的“虛擬管家”,幫你接電話、記日程,甚至陪孩子寫作業;

-影視行業的“虛擬演員”,不用真人出鏡,就能演危險動作、重複鏡頭,還能複刻已故演員的形象。

第四:監管會更完善,行業更規範

未來數字人行業會有明確的“遊戲規則”:比如數字人必須實名備案,不能冒充真人;用真人數據做數字人必須簽授權協議;直播、廣告等場景要用數字人,必須提前標註。這樣既能保護消費者,也能讓行業健康發展。

八、最後總結:數字人到底是個啥?

繞了這麼多,回到開頭的問題:數字人到底是個啥?

簡單說,它是技術發展的產物——用建模技術造外形,用ASR\/TTS技術造聽覺和語言,用大模型造大腦,用動捕技術造動作,最後變成一個能在數字世界裡乾活、交流的“虛擬人”。

它不是用來“追星”的新玩具,而是能幫企業降本、幫人省事的“工具”。就像當年的電腦、互聯網一樣,剛開始大家覺得新鮮,後來慢慢融入生活,變成不可或缺的一部分。

未來幾年,我們會看到越來越多的數字人:可能是淩晨幫你帶貨的主播,是24小時在線的客服,是醫院裡的導診員,甚至是家裡的管家。它們不會取代真人,但會讓我們的生活更便利——這大概就是數字人最本質的價值:用技術模擬人,最終服務人。

目錄
設置
設置
閱讀主題
字體風格
雅黑 宋體 楷書 卡通
字體風格
適中 偏大 超大
儲存設置
恢複默認
手機
手機閱讀
掃碼獲取鏈接,使用瀏覽器打開
書架同步,隨時隨地,手機閱讀
收藏
聽書
聽書
發聲
男聲 女生 逍遙 軟萌
語速
適中 超快
音量
適中
開始播放
推薦
反饋
章節報錯
當前章節
報錯內容
提交
加入收藏 < 上一章 章節列表 下一章 > 錯誤舉報