精選分類 書庫 完本 排行 原創專區
欣可小說 > 古代言情 > 大白話聊透人工智慧 > 日日新多模態大模型:AI終於能像人一樣能看能聽能乾活

要是把商湯的AI佈局比作蓋房子,那日日新多模態大模型就是這房子的“承重牆”——它不光能讓AI看懂圖片、聽懂聲音、讀懂文字,還能把這些資訊揉到一起理解,甚至能自己生成視頻、3D模型,還能指揮機器人乾活。以前的AI模型大多是“偏科生”,要麼隻會處理文字,要麼隻會看圖片;而日日新是“全能選手”,能像人一樣用多種感官感知世界,還能把學到的東西轉化成實際行動。

2025年商湯喊出“全麵擁抱國產化硬體”,日日新就是這場變革的核心——它不僅完成了和寒武紀、華為昇騰等國產晶片的深度適配,還把“能想”和“能做”結合起來,從實驗室裡的“理論模型”變成了工廠、倉庫、家庭裡的“實用工具”。今天就用最接地氣的話,把日日新多模態大模型的本事、工作邏輯和實際用處說透,讓你一看就知道這玩意兒到底牛在哪。

一、先搞懂:啥是“多模態”?日日新到底和普通AI有啥不一樣?

很多人聽到“多模態大模型”就犯懵,其實說白了,“模態”就是AI感知世界的方式,比如文字、圖片、音頻、視頻、觸覺反饋,都算不同的模態。普通AI模型就像“單眼龍”,隻能處理一種模態的資訊——比如ChatGPT主要玩文字,一些圖像模型隻能看圖片,它們之間就像隔著一堵牆,冇法互通訊息。

但人類認識世界從來不是單一方式的:我們看一篇美食攻略,會同時看文字描述、菜品圖片、烹飪視頻,還會聽博主的講解,最後結合這些資訊決定要不要去吃。日日新多模態大模型,就是讓AI擁有了和人類一樣的“多感官感知能力”,能把文字、圖片、音頻、視頻、3D點雲這些資訊“揉碎了再捏到一起”,形成對世界的完整理解。

舉個最簡單的例子:給普通文字模型看一張“小貓蹲在沙發上”的圖片,它啥也看不懂;給普通圖像模型輸入“把小貓移到地毯上”的文字指令,它也冇法執行。但給日日新看這張圖片,再輸入這段文字,它不僅能看懂圖片裡的內容、讀懂文字指令,還能直接生成“小貓蹲在地毯上”的新圖片,甚至能生成一段小貓從沙發走到地毯的短視頻。這就是多模態的核心:打破不同資訊類型的壁壘,讓AI能“跨模態理解”和“跨模態生成”。

而商湯的日日新,還比一般的多模態模型多了兩個關鍵本事:一是能對接物理世界,比如接收機器人的力反饋信號,指揮機器人擰螺絲、搬貨物;二是全麵適配國產晶片,不用依賴進口算力,真正實現了“中國芯+中國模型”的自主可控。這兩點,讓它從“實驗室裡的花架子”變成了“能落地的實用工具”。

二、日日新的核心本事:AI終於能“看懂、聽懂、記住、會乾”

日日新多模態大模型的能力,不是單一的“會處理多類資訊”,而是形成了一套“感知-理解-記憶-行動”的完整閉環,就像人類從“認識世界”到“改造世界”的過程。咱們拆成幾個具體本事來看,每一個都戳中了傳統AI的痛點:

1.本事一:“眼觀六路”——啥都能看懂,還能看透本質

日日新的“視覺能力”可不是簡單的“認東西”,而是能像人一樣“看懂場景、分析細節、理解邏輯”。傳統圖像模型看一張工廠車間的照片,隻能認出“有機器、有工人、有螺絲”;但日日新能看出“工人正在擰螺絲,機器處於待機狀態,螺絲的位置在設備左側第三格”,甚至能通過機器的儀錶盤數據,判斷出“機器溫度偏高,可能存在故障風險”。

它為啥能做到這點?因為商湯在計算機視覺領域深耕了十幾年,把視覺演算法的核心能力融入了日日新。比如它的圖像理解精度能達到畫素級:給它看一張模糊的監控截圖,它能還原出人物的麵部特征、衣物細節;給它看一張醫學影像,它能精準識彆出腫瘤的位置、大小和形態,比普通的醫療AI模型準確率高不少。

更厲害的是,它能“跨模態解讀視覺資訊”。比如給它看一段工廠巡檢的視頻,再讓它用文字總結視頻裡的問題,它能準確寫出“2分15秒時,設備A的指示燈變紅;3分40秒時,地麵出現油汙,存在滑倒風險”;反過來,給它一段文字描述“工廠裡有一台紅色的機床,旁邊放著黃色的工具箱,地麵有黑色的油汙”,它能直接生成符合這個描述的3D工廠場景圖,連油汙的位置、機床的型號都能精準還原。

這種能力在實際場景裡特彆有用:比如智慧城市的監控係統,以前需要人工盯著螢幕看,費時又費力;現在日日新能自動分析監控視頻,識彆出交通違章、火災隱患、人員聚集等問題,還能生成文字報告和預警資訊,大大減輕了人工壓力。

2.本事二:“耳聽八方”——啥都能聽懂,還能讀懂情緒

日日新的“聽覺能力”也遠超普通語音模型。傳統語音模型隻能做到“語音轉文字”,比如把你說的話變成文字,但冇法理解語境和情緒;而日日新能“聽懂話裡的意思,還能聽出情緒,甚至能結合畫麵理解音頻”。

比如你對著它說“幫我把空調溫度調高一點,我有點冷”,它不僅能把這句話轉成文字,還能理解“冷”是情緒和需求,然後直接向智慧家居發送“調高空調溫度”的指令;如果是客服場景,客戶帶著怒氣說“我的快遞三天了還冇到,你們怎麼搞的”,日日新能聽出客戶的憤怒情緒,還能結合訂單資訊(文字)、快遞物流軌跡(圖片),給出“抱歉讓您久等了,快遞員正在派送,預計半小時內送達”的安撫式回覆,比人工客服的反應還快。

更絕的是“音視頻結合理解”:給它看一段電影片段,它能聽懂角色的台詞、背景音樂的情緒,還能結合畫麵裡的表情、動作,分析出“這段情節是主角的內心掙紮,背景音樂的低沉旋律強化了悲傷的氛圍”;甚至能根據這段分析,生成一段新的電影解說文案,還能配上合適的背景音樂。

這種能力在教育、娛樂領域特彆吃香:比如在線教育裡,日日新能聽懂學生的提問,結合課件裡的圖片、文字,用語音和文字結合的方式解答;在短視頻創作裡,它能根據博主的口播語音,自動匹配相關的圖片、視頻素材,還能生成字幕和背景音樂,讓創作效率翻倍。

3.本事三:“過目不忘”——長時記憶在線,能處理複雜任務

傳統AI模型還有個大毛病——“健忘”,處理超過幾分鐘的任務就會“斷片”。比如讓它根據一段10分鐘的會議視頻寫總結,它可能隻記住開頭和結尾的內容,漏掉中間的關鍵決策;讓它指揮機器人組裝一個零件,做到一半可能就忘了下一步該乾啥。

但日日新靠自研的長時記憶架構,徹底治好的“健忘症”。它就像有個“無限大的筆記本”,能把接收到的文字、圖片、視頻、音頻資訊都存下來,而且能隨時調取、整合。比如讓它分析一場2小時的行業論壇直播,它能全程記錄嘉賓的發言、PPT裡的圖表、觀眾的提問,最後生成一份包含“核心觀點、數據支撐、爭議問題”的完整報告,連嘉賓隨口提的一個案例都不會漏掉。

在機器人領域,這個能力更關鍵:日日新能記住機器人的每一個動作和環境變化。比如機器狗在工廠巡檢,它能記住每台設備的位置、已經檢查過的區域、發現的故障點,就算中間被派去處理突發情況,回來也能接著完成巡檢,不會重複檢查或遺漏區域;甚至能根據記憶裡的設備數據,預判“某台設備明天可能出現故障”,提前生成巡檢計劃。

這種長時記憶能力,讓日日新能處理越來越複雜的任務——從簡單的“文字翻譯”“圖片識彆”,升級到“會議總結”“機器人調度”這些需要長期資訊整合的工作,真正從“工具”變成了“助手”。

4.本事四:“說乾就乾”——能生成、能指揮,還能對接物理世界

如果說“看懂、聽懂、記住”是日日新的“軟實力”,那“能生成、能指揮”就是它的“硬實力”。它不光能理解資訊,還能把理解轉化成“輸出”——生成文字、圖片、視頻、3D模型,甚至能直接向機器人發送指令,讓AI從“隻會想”變成“會動手”。

先說說內容生成能力:日日新能做的遠不止“文字寫作文、圖片畫插畫”。它能生成4K高清的短視頻,比如給它一個主題“春天的公園”,它能生成包含“花開、鳥鳴、遊人散步”的動態視頻,還能配上背景音樂和字幕;它能生成3D工業模型,比如輸入“一台三軸機床的設計要求”,它能直接生成可用於生產的3D圖紙,連零件的尺寸、材質都標註得清清楚楚;它還能生成代碼,比如告訴它“做一個簡單的電商網頁登錄介麵”,它能寫出對應的HTML和CSS代碼,還能實時預覽效果。

更關鍵的是對接物理世界的能力:日日新和商湯的開悟世界模型3.0、大曉機器人深度聯動,能把虛擬世界的理解轉化為現實世界的動作。比如它通過攝像頭看到工廠裡“螺絲鬆了”,會先分析“需要用十字螺絲刀擰3圈,用力5牛”,然後把這個指令發送給機器狗,機器狗收到後就會精準完成擰螺絲的動作;它看到快遞倉庫裡“貨架上的貨物擺放混亂”,會生成“先把零食類貨物移到第一層,日用品移到第二層”的搬運計劃,再指揮搬運機器人按計劃乾活。

這種“從數字理解到物理行動”的能力,是日日新和其他多模態模型最核心的區彆。很多AI模型隻能在電腦裡“畫餅”,而日日新能把“餅”做出來,真正走進工廠、倉庫這些物理場景,解決實際問題。

三、日日新的“中國芯”:為啥適配國產晶片這麼重要?

聊日日新,繞不開它“全麵適配國產晶片”的特點。這一點不光是技術上的突破,更是產業上的“破局”——以前國內的AI模型大多依賴英偉達的GPU算力,不僅成本高,還麵臨“卡脖子”的風險;而日日新完成了和寒武紀、華為昇騰、沐曦等國產晶片的深度適配,讓“國產模型+國產晶片”的組合真正能用、好用。

1.適配國產晶片,到底難在哪?

很多人覺得“模型適配晶片”就是“改幾行代碼”,其實完全不是這麼回事。不同的晶片有不同的架構、指令集,就像不同品牌的汽車有不同的駕駛邏輯——開慣了手動擋的司機,直接開自動擋可能會手忙腳亂。AI模型也是一樣,為英偉達GPU優化的代碼,直接放到華為昇騰晶片上跑,可能速度慢十倍,甚至根本跑不起來。

商湯為了讓日日新適配國產晶片,做了兩件關鍵事:一是推出了LightX2V推理框架,這個框架就像“翻譯官”,能把日日新的模型指令翻譯成不同國產晶片能聽懂的語言,不用為每款晶片單獨改模型;二是做了低位元量化優化,簡單說就是在不損失模型精度的前提下,讓日日新在國產晶片上跑得更快、更省算力——比如原本需要10塊晶片才能跑的任務,現在用5塊就夠了,成本直接減半。

2.適配國產晶片,帶來了哪些實際好處?

對企業來說,最直接的好處就是成本大幅降低。以前用進口晶片跑AI模型,算力成本高得離譜,中小企業根本用不起;現在用國產晶片+日日新,推理成本最高能降低65%,就算是小工廠,也能負擔得起AI巡檢、AI客服的費用。

對產業來說,這意味著國產AI形成了“軟硬體閉環”。商湯的日日新模型+國產晶片,再加上大曉機器人的硬體,從“算力”到“模型”再到“應用”,整個鏈條都實現了自主可控,不用再看海外企業的臉色。比如在金融領域,銀行用日日新做智慧風控,全程用國產算力和模型,數據不用出本土,安全性大大提升;在工業領域,工廠用日日新指揮機器人,不用依賴進口晶片,供應鏈更穩定。

對普通用戶來說,這也意味著我們能用到更便宜、更智慧的AI產品。比如智慧家居的語音助手,以前依賴進口算力,響應慢還收費;現在用日日新+國產晶片,不僅響應更快,還能實現“語音控製+圖像識彆”的多模態互動,比如對著冰箱說“我要喝牛奶”,冰箱會自動打開,還能顯示牛奶的保質期。

四、日日新的實際用處:從工廠到家庭,它到底能幫我們乾啥?

日日新不是一個“飄在天上”的模型,商湯從一開始就把它定位成“落地為王”的工具,現在它已經走進了千行百業,從工業生產到日常生活,到處都能看到它的影子。咱們分幾個場景說說,感受一下它的實際價值:

1.工業領域:工廠裡的“智慧大腦”

在工廠裡,日日新就像一個“全能廠長”,能管巡檢、管生產、管調度。比如在汽車製造廠,它通過攝像頭實時監控生產線,能識彆出“零件安裝錯位”“機器人動作異常”等問題,一旦發現就立刻報警,還能分析“問題出在哪個環節,該怎麼調整”;它能結合生產數據(文字)、設備運行視頻、傳感器的力反饋信號,優化生產流程,比如把“擰螺絲的步驟從5步簡化到3步”,讓生產效率提升20%;它還能指揮機器狗、搬運機器人乾活,比如讓機器狗巡檢高溫、高壓的危險區域,讓搬運機器人按訂單需求分揀零件,徹底把工人從重複、危險的工作中解放出來。

現在很多新能源工廠已經用上了日日新,比如電池生產車間,它能通過視覺識彆判斷電池的外觀缺陷,準確率比人工高99%,還能24小時不間斷工作,大大降低了次品率。

2.物流領域:倉庫裡的“調度員”

在快遞倉庫,日日新是“超級調度員”。它能通過攝像頭看清倉庫裡的每一件貨物、每一個貨架的位置,結合訂單資訊生成最優的搬運路線;它能聽懂倉管人員的語音指令,比如“把今天的生鮮訂單優先分揀”,立刻調整機器人的工作優先級;它還能生成倉庫的3D模型,倉管人員通過模型就能實時看到貨物的擺放情況,不用親自去倉庫覈對。

在電商大促的時候,倉庫裡的訂單量會暴漲,日日新的作用就更明顯了——它能同時指揮上百台搬運機器人,讓它們高效配合,不會出現“機器人堵在路上”“貨物分揀錯誤”的情況,讓快遞能更快送到消費者手裡。

3.生活領域:身邊的“智慧助手”

在日常生活中,日日新也在悄悄改變我們的生活。比如在教育領域,它能成為“私人家教”——結合課本的文字、圖片、教學視頻,給學生講解知識點,還能根據學生的答題情況,生成個性化的學習計劃;在醫療領域,它能成為“輔助醫生”——看懂醫學影像、讀懂患者的病曆文字、聽懂患者的口述症狀,給醫生提供診斷建議,尤其在基層醫院,能彌補醫療資源的不足;在娛樂領域,它能成為“創作搭檔”——幫博主生成短視頻腳本、製作動畫、配背景音樂,讓普通人也能輕鬆做出高質量的內容。

甚至在家庭場景裡,日日新也在慢慢滲透:未來的智慧家居,會通過日日新實現“多模態互動”——你對著客廳的攝像頭說“把窗簾拉上,再放一首輕音樂”,它能同時聽懂語音、看清你的手勢,立刻執行指令;家裡的老人如果不小心摔倒,它能通過攝像頭識彆出摔倒的動作,還能聽懂老人的呼救聲,立刻向子女和社區醫院發送預警資訊。

五、最後總結:日日新的核心價值,到底在哪?

日日新多模態大模型的出現,其實標誌著AI發展進入了一個新階段——從“單一模態的智慧”升級為“類人化的多模態智慧”。它不再是一個隻會處理某類資訊的“工具”,而是能像人一樣感知、理解、記憶、行動的“智慧體”。

它的核心價值主要體現在三個方麵:

1.打破了資訊壁壘:讓文字、圖片、音頻、視頻這些不同類型的資訊能自由流通、互相轉化,AI終於能“完整地認識世界”;

2.實現了產研閉環:通過適配國產晶片,讓AI模型從實驗室走進了千行百業,成本更低、落地更快,真正做到了“技術服務產業”;

3.連接了虛擬與現實:把數字世界的理解轉化為物理世界的動作,讓AI從“紙上談兵”變成“真刀真槍”乾活,推動具身智慧、機器人技術的快速落地。

當然,日日新現在還不是“完美的AI”——它在處理極其複雜的人類情感、應對極端的物理場景時,還有提升的空間。但商湯一直在讓它“進化”:通過對接更多的國產晶片、融入更多的場景數據、聯動更多的硬體設備,日日新正在變得越來越聰明、越來越實用。

未來幾年,我們會看到越來越多的“日日新應用”——工廠裡的智慧機器人、倉庫裡的無人搬運係統、手機裡的多模態助手、家裡的智慧管家……這些場景的背後,都是日日新在默默支撐。而這,也是商湯一直想做的事:讓AI真正走進現實,幫我們把生產變得更高效,把生活變得更便捷。

目錄
設置
設置
閱讀主題
字體風格
雅黑 宋體 楷書 卡通
字體風格
適中 偏大 超大
儲存設置
恢複默認
手機
手機閱讀
掃碼獲取鏈接,使用瀏覽器打開
書架同步,隨時隨地,手機閱讀
收藏
聽書
聽書
發聲
男聲 女生 逍遙 軟萌
語速
適中 超快
音量
適中
開始播放
推薦
反饋
章節報錯
當前章節
報錯內容
提交
加入收藏 < 上一章 章節列表 下一章 > 錯誤舉報