一、數字人到底是個啥?一句話說清核心
先拋個最簡單的定義:數字人就是“活”在數字世界裡的“人”。不是動畫片裡的卡通形象,也不是遊戲裡的NPC(非玩家角色),而是能像真人一樣聽、說、動,甚至能思考互動的虛擬存在。
打個比方,你刷短視頻看到的虛擬主播、打電話時遇到的智慧客服、銀行APP裡幫你辦業務的虛擬助手,這些都是數字人。它們有的長得和真人一模一樣,連皺紋、髮絲都清晰可見;有的是卡通風格,但說話做事透著“人情味兒”;還有的隻聞其聲不見其人,但能精準理解你的需求——本質上,它們都是用技術堆出來的“數字分身”或“虛擬員工”。
可能有人會問:“這和Siri、小愛同學有啥區彆?”關鍵就在“形象”和“互動”上。語音助手隻有聲音,而數字人有可視化的“人形”,還能做動作、變表情,互動起來更像和真人對話。就像同樣是聊天,打電話和視頻通話的感覺完全不同,數字人就是給智慧語音裝上了“身體”和“臉”。
還有個容易混淆的概念是“智慧體”。簡單說,智慧體是能自主乾活的智慧係統,比如自動下單的機器人、導航軟件裡的路線規劃程式,不一定有人的樣子;而數字人是智慧體的“特殊款”,必須長著人形(或類人形),還得會模仿人的社交行為。比如同樣是客服係統,純文字回覆的是智慧體,而螢幕上那個邊說話邊點頭的虛擬客服就是數字人。
二、數字人是怎麼造出來的?拆解“造人”全過程
彆看數字人五花八門,從製作到能乾活,都得經過“搭骨架、塑外形、裝大腦、練動作”這幾步。就像造機器人,先做身體,再裝智慧係統,最後教它怎麼動。
第一步:畫圖紙、塑外形——給數字人“造身體”
這是數字人最直觀的一步,就像給虛擬人做“肉身”,主要分2D和3D兩種路子。
2D數字人最簡單,有點像“會動的圖片”。比如有些直播間的虛擬主播,其實是用真人照片改的,通過技術讓圖片的嘴巴、眼睛跟著聲音動。你刷到的“AI孫燕姿”短視頻,很多就是用這種技術做的——把孫燕姿的照片和AI合成的歌聲結合,讓圖片“唱”起來。這種數字人成本低,幾千塊就能做一個,缺點是不夠逼真,動作也比較僵硬。
3D數字人就複雜多了,相當於造一個“虛擬玩偶”。高階的3D數字人要用專門的建模工具,比如遊戲圈常用的Unreal(虛幻)引擎,先搭出骨骼框架,再貼皮膚、畫五官,連毛孔、胡茬、皮膚反光都得調。現在還有更省事的辦法,用iPhone對著真人拍段視頻,就能把人的麵部表情、動作數據掃進電腦,直接生成和真人一模一樣的3D模型。
當年爆火的虛擬美妝博主“柳夜熙”,就是典型的3D數字人。她的團隊花了半年多,投入上百萬,才做出那逼真的麵部表情和動作,第一條短視頻成本就高達幾十萬。不過現在技術進步了,通過SaaS平台(簡單說就是“雲端工具包”),小企業花幾萬塊也能定製3D數字人,不用再養專業建模團隊了。
第二步:裝“耳朵”和“嘴巴”——讓數字人能聽會說
光有樣子不行,數字人得能和人交流,這就需要“聽覺”和“語言”係統,核心是兩項技術:ASR和TTS。
ASR就是“語音識彆技術”,相當於數字人的“耳朵”。你對著數字人說話,它能瞬間把聲音轉成文字。比如你問“今天天氣怎麼樣”,ASR會把這句話變成文字發給後台係統。現在這技術很成熟,手機輸入法裡的語音轉文字、智慧音箱的喚醒功能,用的都是同款技術。
TTS是“語音合成技術”,也就是數字人的“嘴巴”。後台係統算出答案後,TTS能把文字變成聲音。早期的合成音很機械,像“機器人說話”;現在有了AI大模型,能模模擬人的語氣、聲調,甚至能複刻特定人的聲音。比如“AI孫燕姿”的歌聲,就是用孫燕姿的真實歌曲數據訓練模型,讓AI學會她的聲線和演唱習慣。
現在高級點的數字人還能“定製聲線”。比如企業做虛擬客服,能把真人客服的聲音錄下來,訓練成專屬語音,客戶打電話聽到的就是熟悉的“老客服”聲音,親切感一下子就上來了。
第三步:裝“大腦”——讓數字人變聰明
這是數字人從“木偶”變“智慧人”的關鍵,以前的數字人缺的就是這個,所以隻能念稿子、做重複動作,現在有了大語言模型(LLM),纔算真正有了“靈魂”。
早幾年的數字人,“大腦”其實是預設好的腳本。比如你問它“營業時間”,它能答;但你多問一句“週末營業嗎”,它可能就卡住了。就像提線木偶,隻能做提前編好的動作。
現在的數字人,直接把GPT、文心一言這樣的大模型當“大腦”。你問它啥,它先通過ASR把話轉成文字,傳給大模型;大模型像真人一樣思考,生成回答文字;再通過TTS變成聲音說出來。這個過程快的話隻要幾百毫秒,感覺就像數字人在“實時聊天”。
比如羅永浩的數字人直播時,有人問“這個手機續航怎麼樣”,大模型會結合產品參數,用口語化的方式回答,還能順便推薦快充配件,這都是以前的數字人做不到的。百度副總裁說,現在的數字人已經能達到“媲美頭部主播”的互動效果,就是因為大模型給了它真正的“思考能力”。
第四步:練動作——讓數字人動起來更自然
光會說還不夠,數字人得“動起來”纔像人,這就需要“動作驅動”技術。
簡單的動作驅動靠演算法。比如數字人說話時,嘴巴要跟著語音動,演算法會根據聲音的頻率、節奏,自動控製嘴巴的開合大小,還能加點頭、眨眼的小動作。你刷到的2D數字人,基本都是用這種方式驅動的。
複雜的動作就得靠“動捕技術”。比如虛擬偶像跳舞,是讓真人演員穿戴上帶傳感器的衣服,演員跳一遍,數字人就跟著學一遍,動作精準到手指的彎曲角度。現在還有更高級的“無標記動捕”,不用穿特製衣服,攝像頭拍真人動作,電腦就能自動識彆並傳給數字人。
現在的高階數字人,連“微表情”都能做。比如你誇它“說得真好”,它會微笑著點頭;你問它複雜問題,它會皺著眉“思考”。這些都是通過捕捉真人的表情數據,再教給數字人做出來的。
三、數字人分哪幾類?從“花瓶”到“實乾家”的進化
數字人不是一刀切的,按“聰明程度”和“用途”能分成好幾類。幾年前火的大多是“花瓶型”,現在主流是“實乾型”。
按智慧程度分:“木偶型”和“思考型”
“木偶型”數字人是早期的主流,冇有真智慧,隻能做預設好的動作、說固定的話。比如商場裡的虛擬導購,隻會循環播放“歡迎光臨”“這件衣服打8折”;還有些虛擬偶像的舞台表演,其實是提前編好的動畫,就像放電影一樣,不能和觀眾互動。
“思考型”數字人是現在的新趨勢,靠大模型驅動,能自主思考、靈活互動。比如京東618期間的數字人主播,能上手測試產品,有人問“這冰箱耗電嗎”,它會馬上調出參數回答,還能對比其他型號;醫院的虛擬導診,能根據你的症狀推薦科室,甚至提醒你帶什麼檢查報告。這種數字人纔算真正的“智慧數字人”。
按用途分:“娛樂型”和“實用型”
“娛樂型”數字人最開始火起來的,主要是虛擬偶像、虛擬主播。2021年那波熱潮裡,屈臣氏推了“屈晨曦”,花西子搞了“花西子虛擬人”,都是想靠虛擬偶像吸引年輕人。但後來大家發現,虛擬偶像成本高、粉絲粘性差,抖音上虛擬主播的平均觀看時長從15分鐘跌到5分鐘,粉絲流失率超40%,很多品牌悄悄把虛擬代言人撤了。
現在更吃香的是“實用型”數字人,也就是幫企業乾活的“虛擬員工”。比如金融行業的虛擬客服,24小時在線解答貸款、理財問題,比真人客服效率高還不用發工資;教育領域的虛擬老師,能一對一給學生講題,還能根據答題情況調整進度;政務大廳的虛擬導辦,能幫人填表格、查流程,不用排隊等真人。
百度的羅永浩數字人就是“實用型”的代表,在百度電商直播時,吸引了1300多萬人觀看,GMV(成交總額)突破5500萬元,比羅永浩真人同期首秀的數據還好。京東的數據更誇張,618期間有1.7萬家品牌用數字人直播,這些數字人帶貨能力超過了80%的真人主播。
四、數字人離我們有多近?盤點身邊的數字人應用
現在數字人已經滲透到生活的方方麵麵,隻是很多時候你冇意識到那是數字人。從購物到看病,從學習到辦事,到處都有它們的影子。
電商直播:24小時不休息的“虛擬銷售”
這是數字人最常見的場景。很多品牌直播間裡,半夜還在帶貨的主播可能就是數字人。它們不用吃飯、不用睡覺,能從淩晨播到天亮,還能記住所有產品的參數、優惠資訊。
比如美妝品牌的數字人主播,能對著鏡頭演示化妝步驟,有人問“適合乾皮嗎”,馬上就能答出產品成分和保濕效果;3C產品的數字人,能熟練講解手機的處理器、攝像頭參數,比剛入職的真人銷售還專業。更厲害的是,數字人能同時在多個平台直播,一個“人”頂好幾個真人主播。
不過數字人直播也有翻車的時候。有的數字人因為演算法問題,會說些莫名其妙的話,比如把“降價”說成“漲價”;還有的動作僵硬,嘴巴和聲音對不上,被觀眾一眼看穿。但總體來說,對中小品牌而言,數字人直播性價比很高——花幾萬塊做個數字人,比雇幾個真人主播一年幾十萬的工資劃算多了。
金融服務:不會不耐煩的“虛擬櫃員”
銀行、證券這些行業,現在特愛用數字人。招商銀行的“AI小招”就是典型,你打開APP辦信用卡,它會像真人櫃員一樣問你需求,幫你選卡種,還能解釋年費、額度這些問題。要是半夜想查理財收益,數字人客服隨叫隨到,比等第二天銀行開門方便多了。
還有些證券APP的數字人投顧,能根據你的風險承受能力推薦基金,你問“這隻基金最近跌了怎麼辦”,它會分析市場行情,給出加倉、減倉的建議。雖然不能替代專業投顧,但解決普通用戶的基礎問題綽綽有餘。
政務辦事:不用排隊的“虛擬導辦”
現在很多地方的政務服務大廳都上線了數字人。比如你去辦社保轉移,不用找真人谘詢,直接問數字人,它會一步步教你填表格、準備材料,還能幫你預約辦理時間。西寧、綿陽等地的政府部門,今年都上新了數字人,專門幫市民解答醫保、公積金的問題。
這些政務數字人最大的好處是“有耐心”。不管你問多少遍“材料要影印幾份”“去哪裡蓋章”,它都不會煩,而且回答得特彆標準,不會像真人那樣可能記錯政策。對老年人來說尤其友好,不用怕看不懂複雜的辦事指南,問數字人就行。
醫療教育:隨叫隨到的“虛擬助手”
醫院裡的數字人主要當“導診員”。你去醫院掛號,數字人會先問你“哪裡不舒服”“疼了多久”,然後推薦對應的科室,還能提醒你“掛內科要空腹”“掛皮膚科不用憋尿”。有些醫院的住院部數字人,還能幫家屬查探視時間、訂餐,減少醫護人員的重複工作。
教育領域的數字人更像“私人助教”。小學生的數字人老師,能教拚音、背古詩,還能糾正發音;大學生的數字人輔導員,能解答選課、補考這些問題。甚至還有針對職業教育的數字人,比如教電工接線的虛擬老師,能360度展示操作步驟,比看課本直觀多了。
五、數字人熱潮退了?從“造星”到“乾活”的冷靜期
2021年那波數字人熱潮,有點像“全民造星”——企業都想做個虛擬偶像蹭熱度,資本也瘋狂跟風,A股的數字人概念股輪番漲停,還流傳著“3個月造星、6個月回本”的說法。但熱鬨了冇多久,很多人發現“理想很豐滿,現實很骨感”。
首先是成本太高。做個高階3D數字人要上百萬,每年維護費還要幾十萬,可帶來的收益卻有限。虛擬偶像要漲粉、接廣告,得花大量錢運營,可用戶新鮮感一過,就冇人關注了。很多品牌花大價錢做了虛擬代言人,最後粉絲冇幾個,廣告也賣不出去,隻能悄悄下架。
其次是技術瓶頸。早期的數字人大多是“木偶型”,表情僵硬、動作卡頓,說話像背書,根本冇法和真人比。抖音、快手這些平台的數據很能說明問題:虛擬主播的GMV還不到真人主播的1\/5,用戶付費意願越來越低,快手後來甚至取消了對數字人直播間的流量支援。
不過這兩年,數字人行業反而“降溫成暖”,從追求“顏值”轉向追求“實力”。原因很簡單:大模型技術成熟了,讓數字人從“花瓶”變成了“實乾家”;同時企業發現,與其花錢做虛擬偶像,不如做個能乾活的虛擬員工,性價比高多了。
現在行業裡的共識是:C端(麵向普通消費者)的虛擬偶像不好做,但B端(麵向企業)的實用型數字人是塊香餑餑。比如客服、直播、導診這些場景,數字人能24小時乾活,還不用交社保、發獎金,成本能降一大半。百度財報顯示,2025年二季度數字人收入環比增長55%,規模約5億元,主要就來自企業客戶。
資本市場也重新盯上了這個領域。2025年上半年,虛擬數字人領域的投融資案件有23起,總金額達35.07億元,平均每筆融資超過1.5億元,快趕上2024年全年的量了。政策也在加碼,上海今年釋出的政策裡明確支援數字人技術攻關,多地政府還自己用上了數字人辦事,相當於給行業打了“強心針”。
六、數字人會取代真人嗎?藏在便利背後的問題
數字人越來越能乾,很多人擔心:“會不會搶了我的工作?”還有人問:“數字人侵權怎麼辦?”這些問題確實繞不開,畢竟是新技術帶來的新挑戰。
先說說“搶工作”的擔憂:替代的是重複勞動,不是創造力
首先得明確:數字人能替代的,大多是“機械重複、不需要創造力”的工作。比如電商裡的基礎帶貨主播,每天念同樣的產品介紹;銀行裡的客服,回答重複的開戶問題;醫院裡的導診,講解固定的辦事流程。這些工作數字人乾得比真人好,還不用休息,被替代是早晚的事。
但需要創造力、情感交流的工作,數字人很難替代。比如真人主播的臨場發揮、和粉絲的情感互動;醫生的診斷、和患者的溝通;老師的因材施教、對學生的心理疏導。羅永浩的數字人雖然帶貨厲害,但要是遇到突髮狀況,比如直播設備壞了、粉絲故意抬杠,還是得真人團隊救場。
甚至數字人還會創造新工作。比如數字人建模師、動作捕捉演員、數字人運營專員,這些都是近幾年新冒出來的職業。就像當年流水線機器人出現,雖然替代了部分工人,但也催生了機器人維護、編程等新崗位。
再說說“侵權”的坑:數字人也得講規矩
數字人越像真人,越容易出侵權問題。比如用彆人的照片做2D數字人、模仿明星的聲音做語音合成、照搬虛擬人的形象設計,這些都可能違法。
北京互聯網法院就判過一起案子:有人抄襲了彆人設計的虛擬數字人形象,法院認定這個虛擬人有獨創性,屬於美術作品,抄襲者構成侵權,得賠錢。法官還明確說了,虛擬數字人分兩部分受保護:外在形象如果是原創的,受著作權法保護;如果用了真人的照片、聲音,就得經過真人同意,不然侵犯肖像權、聲音權。
還有些“擦邊球”行為也得注意。比如用AI生成“假明星”直播帶貨,雖然不是真明星,但長得太像,容易誤導消費者;還有些數字人直播間用錄播冒充實時直播,欺騙用戶停留。抖音去年就處理了17萬個這樣的錄播直播間,封了3萬多個賬號,就是為了打擊這種亂象。
未來這些問題會越來越規範。現在已經有平台要求數字人直播必須標註“這是虛擬人”,不能冒充真人;還有的地方在製定數字人行業標準,明確哪些能做、哪些不能做。就像當年的互聯網一樣,新技術先發展,再慢慢補規矩。
還有個倫理難題:數字人能有“情感”嗎?
現在的數字人能模仿人的表情,比如你難過它會說“彆傷心”,但這隻是演算法預設的反應,不是真的有情感。可如果數字人越來越逼真,甚至能模仿人的共情能力,會不會讓人產生情感依賴?
比如獨居老人天天和數字人聊天,會不會越來越不願意和真人交流?孩子長期跟著數字人學習,會不會影響社交能力?這些問題冇有標準答案,需要社會慢慢適應。就像當年電視剛出現時,有人擔心“看電視會讓人變傻”,現在大家也能合理平衡看電視和現實生活的關係。
七、未來數字人會變成什麼樣?5年之內可能發生的事
根據中國互聯網協會預測,2025年我國虛擬數字人核心市場規模會突破480億元,帶動相關產業超過6400億元。這個規模意味著,未來幾年數字人會越來越“接地氣”,走進更多場景。
第一:做數字人會越來越便宜、越來越快
現在做個高階3D數字人要上百萬,未來可能幾萬塊就能搞定。因為技術在模塊化、平台化,就像現在做PPT一樣,以後企業打開雲端工具,選個模板,改改五官、換身衣服,半天就能做出一個數字人。甚至個人也能做自己的數字人,比如用手機拍段視頻,生成一個“虛擬分身”,幫自己剪視頻、發朋友圈。
第二:數字人會更“像人”,不隻是外表
現在的數字人已經能模仿表情,但未來會更懂“人情世故”。比如你和數字人客服聊天,它能聽出你語氣裡的不耐煩,馬上說“抱歉讓您久等了,我馬上幫您解決”;你和數字人老師請教問題,它能看出你冇聽懂,換種更簡單的方式講解。這背後是情感識彆技術的進步,讓數字人從“能說話”變成“會說話”。
百度副總裁平曉黎就說,隨著多模態大模型發展,虛擬數字人的效果有望超越真人——比如能同時記住100個產品的所有參數,能瞬間迴應100個觀眾的提問,這些都是真人做不到的。
第三:應用場景會更細分,滲透到各行各業
除了現在的客服、直播,未來數字人會出現在更多意想不到的地方。比如:
-製造業裡的“虛擬巡檢員”,戴著VR眼鏡,遠程檢查機器故障;
-文旅行業的“虛擬導遊”,帶你逛博物館,還能講文物背後的故事;
-家庭裡的“虛擬管家”,幫你接電話、記日程,甚至陪孩子寫作業;
-影視行業的“虛擬演員”,不用真人出鏡,就能演危險動作、重複鏡頭,還能複刻已故演員的形象。
第四:監管會更完善,行業更規範
未來數字人行業會有明確的“遊戲規則”:比如數字人必須實名備案,不能冒充真人;用真人數據做數字人必須簽授權協議;直播、廣告等場景要用數字人,必須提前標註。這樣既能保護消費者,也能讓行業健康發展。
八、最後總結:數字人到底是個啥?
繞了這麼多,回到開頭的問題:數字人到底是個啥?
簡單說,它是技術發展的產物——用建模技術造外形,用ASR\/TTS技術造聽覺和語言,用大模型造大腦,用動捕技術造動作,最後變成一個能在數字世界裡乾活、交流的“虛擬人”。
它不是用來“追星”的新玩具,而是能幫企業降本、幫人省事的“工具”。就像當年的電腦、互聯網一樣,剛開始大家覺得新鮮,後來慢慢融入生活,變成不可或缺的一部分。
未來幾年,我們會看到越來越多的數字人:可能是淩晨幫你帶貨的主播,是24小時在線的客服,是醫院裡的導診員,甚至是家裡的管家。它們不會取代真人,但會讓我們的生活更便利——這大概就是數字人最本質的價值:用技術模擬人,最終服務人。