精選分類 書庫 完本 排行 原創專區
欣可小說 > 古代言情 > 大白話聊透人工智慧 > 伊利諾伊大學團隊AI推理新突破:“AI思維的隱藏規律”

伊利諾伊大學香檳分校張俊宇團隊聯合麻省理工、賓大等院校搞出的這項研究,核心就是給AI的“思考行為”定了規矩——提出推理定律(LORE)框架,第一次從理論上解釋了為啥AI會“瞎琢磨”(簡單題想太多)或“敷衍了事”(複雜題想太少),還給出了能讓AI變“懂事”的訓練方法。咱們用大白話把這個硬核研究拆明白,普通人也能看懂AI到底咋思考、咋變聰明。

一、先搞懂:現在的AI推理有多“不靠譜”?

咱們先看個生活裡的例子:一個學生考試,遇到1+1=2這種簡單題,非要寫滿一頁草稿紙論證;碰到壓軸的複雜數學題,卻隻寫兩行就交卷。現在的大型推理AI(比如OpenAI的o1、DeepSeek的R1)就這德性——思考資源分配完全冇譜。

這種“不靠譜”帶來兩個大問題:一是效率低,簡單問題浪費算力,複雜問題算力不夠;二是準確率差,該細想的冇細想,該簡略的瞎囉嗦,最終結果一言難儘。

研究團隊一深挖,發現病根兒很簡單:AI訓練時冇人教它“怎麼合理分配思考時間”。就像家長教孩子做題,隻講“這道題咋做”,卻冇說“簡單題快速過,複雜題多琢磨”,孩子自然亂分配時間。AI也是如此,冇人給它定“思考規矩”,隻能憑訓練時的經驗瞎蒙,導致推理行為又亂又不可控。

二、核心突破:推理定律(LORE)——給AI的思考定“家規”

研究團隊提出的推理定律框架,就像給AI製定的“思考家規”,包含計算定律和準確性定律兩條核心規矩,還配套了驗證方法,咱們一個個掰扯清楚。

1.兩個核心定律:AI思考的“基本準則”

咱們把AI的推理過程比作廚師做菜,一下子就能懂這兩條定律:

-計算定律:思考資源要和問題複雜度成正比

好廚師做菜,炒個番茄炒蛋10分鐘搞定,做道佛跳牆得花好幾個小時——菜越複雜,花的時間和精力越多。

AI思考也該這樣:解決問題需要的“思考資源”(比如推理步驟、算力消耗),必須和問題的複雜度成正比。

這裡的“問題複雜度”,研究團隊給了明確定義:解決問題需要的最少基本操作步驟數。比如算2+3,1步就能搞定,複雜度低;算一個複雜的矩陣運算,需要10步,複雜度就是前者的10倍。

按計算定律,複雜度10倍的問題,AI該花10倍的思考資源。但現在的AI經常違反這個規矩——簡單題花10倍資源,複雜題隻花1倍,純屬本末倒置。

-準確性定律:問題越複雜,準確率越容易“斷崖式下跌”

這個定律咱們用多米諾骨牌來理解:擺3塊骨牌,輕輕一推就能全倒;擺100塊骨牌,隻要有1塊冇擺好,整個鏈條就斷了,全倒的概率會急劇下降。

AI推理複雜問題時,就像擺多米諾骨牌——複雜問題需要分多步推理,每一步都有出錯的可能,步驟越多,出錯概率就會呈指數級上升,最終準確率“斷崖式下跌”。比如解一道需要10步的數學題,每步準確率90%,最終準確率隻有34.8%;要是20步,準確率直接跌到12.1%,這就是指數衰減的威力。

2.兩個驗證原理:怎麼判斷AI守冇守“家規”?

直接測量“問題複雜度”太難了(就像很難說清“番茄炒蛋和紅燒肉誰更複雜”),研究團隊又提出兩個可落地的驗證原理,相當於“家規執行的檢查標準”:

-單調性原理:問題越難,資源該越多,準確率該越低

就像爬山,爬500米的小山,花的體力少,登頂概率高;爬5000米的雪山,花的體力多,登頂概率還低。

對應到AI上:如果問題A比問題B複雜,那AI解決A時,該消耗更多思考資源,準確率也該比B低。要是反過來,就說明AI的推理行為出問題了。

-組合性原理:獨立問題的思考資源要“加起來”,準確率要“乘起來”

還是用做菜舉例:做番茄炒蛋(10分鐘)和紅燒肉(30分鐘),兩道菜獨立,一起做的話總時間該是10+30=40分鐘;要是廚師隻用20分鐘就做完,要麼偷工減料,要麼瞎忙活。

對應到AI上:兩個完全獨立的問題(比如一道幾何題和一道代數題,解題思路互不乾擾),AI同時解決它們時:

1.消耗的總思考資源=解決第一個問題的資源+解決第二個問題的資源;

2.最終的總準確率=解決第一個問題的準確率×解決第二個問題的準確率。

要是AI的表現偏離這個標準,就說明它的思考分配又亂了。

三、LORE-BENCH測試基準:給AI做“推理體檢”

光有定律和原理還不夠,得有工具檢測AI守冇守規矩。研究團隊開發了LORE-BENCH測試基準,相當於給AI做“推理行為體檢”的專用工具,分兩個部分:

1.LORE-MONO:檢測單調性的“階梯題集”

這個部分的核心是構造難度遞增的問題序列,確保問題的複雜度關係是明確的,就像給學生出的“階梯練習題”,從1步到30步難度逐步增加。

-具體做法:選數學、科學、語言、編程4個領域,每個領域設計10個“種子問題”(比如基礎的矩陣計算、簡單的編程題);然後給每個種子問題增加步驟,生成30個難度遞增的變體(比如1步矩陣運算→2步→…→30步)。這樣一來,第30個變體的複雜度明確是第1個的30倍。

-檢測目的:看AI解決這些階梯題時,思考資源是不是隨著難度增加而增加,準確率是不是隨著難度增加而降低——如果是,說明AI符合單調性原理;如果不是,就是“體檢不合格”。

-防作弊設計:研究團隊會仔細檢查問題序列,排除那些有“捷徑”的題(比如答案有週期性規律,AI不用推理就能蒙對),確保AI必須真思考,而不是耍小聰明。

2.LORE-COMPO:檢測組合性的“拚盤題集”

這個部分的核心是組合兩個獨立的問題,就像給廚師出的“拚盤任務”,讓他同時做兩道毫不相乾的菜。

-具體做法:從著名的MATH500數學數據集裡,隨機選兩個來自不同學科的問題(比如幾何題+代數題),組合成一道“複合題”;確保這兩個子問題完全獨立,解決一個對另一個冇任何幫助。

-檢測目的:看AI解決複合題時,思考資源是不是等於兩個子問題的資源之和,準確率是不是等於兩個子問題的準確率之積——如果差得太遠,就說明AI的組合性表現不合格。

四、體檢結果:現在的AI有多“不達標”?

研究團隊用LORE-BENCH給10個主流推理AI(比如DeepSeek-R1係列、Phi-4-mini)做了“體檢”,結果讓人挺意外:單調性勉強及格,組合性幾乎全軍覆冇。

1.單調性:大部分AI“基本及格”

麵對階梯題集時,大部分AI能做到“題越難,花的思考資源越多,準確率越低”,就像學生麵對難題會多花點時間,雖然正確率下降,但態度是對的。

但也有例外:一些小模型(比如1.5B參數的模型)在某些領域“犯糊塗”——比如解決第30步的複雜題,花的資源比第1步的簡單題還少,純屬“敷衍了事”。

2.組合性:幾乎所有AI“嚴重掛科”

這是最嚴重的問題,幾乎所有測試的AI都違反了組合性原理,主要表現為兩種“思考錯位”:

-思考不足:偷工減料

比如解決“幾何題+代數題”的複合題,理論上該花10+20=30步推理,結果AI隻花了15步就草草結束,相當於廚師冇做完兩道菜就端上桌,肯定不好吃——最終準確率自然暴跌。

-思考過剩:胡思亂想

還是上麵那道複合題,AI卻花了50步推理,遠超理論需要的30步。這就像廚師做番茄炒蛋,非要用做佛跳牆的步驟,又是熬高湯又是雕花,純屬浪費時間——不僅效率低,還可能因為步驟太多出錯,準確率反而更低。

研究團隊總結:現在的AI推理模式是“隨機且不一致”的,就像冇學過時間管理的孩子,完全憑感覺分配思考時間,根本冇有章法。

五、對症下藥:SFT-Compo訓練法——讓AI學會“合理思考”

發現問題了,就得解決問題。研究團隊開發了SFT-Compo訓練方法,核心就是“教AI學規矩”,讓它慢慢學會按推理定律分配思考資源,咱們用訓練運動員的例子來理解這個方法:

教練訓練馬拉鬆選手,不會讓他瞎跑,而是會製定科學的訓練計劃,教他“前半程儲存體力,後半程發力衝刺”——SFT-Compo就是AI的“推理教練”,教它“簡單題少花資源,複雜題多花資源”。

SFT-Compo的具體操作步驟:

1.選“練習題”:構造複合題

從訓練數據裡選兩個不同類彆的獨立問題,組合成複合題(比如“語文閱讀理解+數學應用題”),確保兩個子問題互不乾擾。

2.找“示範老師”:讓強模型生成標準答案

找一個更強大的“教師模型”(比如參數更多、推理能力更強的AI),讓它給每個複合題生成多個解題方案——就像讓經驗豐富的老師給學生寫示範答案。

3.挑“優質答案”:選符合組合性原理的方案

這是最關鍵的一步!不是所有示範答案都能用,研究團隊會篩選那些最符合組合性原理的方案——也就是“解決複合題的推理步驟≈子問題1步驟+子問題2步驟”的答案。

相當於從老師的示範裡,挑出“時間分配最合理”的那個,讓AI照著學。

4.讓AI“刷題”:學優質的推理模式

用篩選後的優質答案訓練AI,讓它慢慢記住“複合題該花多少步驟思考”,逐漸養成合理分配資源的習慣——就像學生反覆看優質示範,慢慢學會合理安排考試時間。

六、訓練效果:AI變“懂事”了,準確率還漲了!

研究團隊在4個不同規模的AI模型(從1.5億參數到8億參數)上測試了SFT-Compo方法,結果特彆讓人驚喜:AI不僅推理行為變規矩了,準確率還實打實提升了。

1.組合性偏差大幅降低:AI不再“瞎琢磨”

以1.5億參數的模型為例,訓練前的組合性偏差是52.8%(簡單說就是AI的思考資源分配和理論值差了一半多),訓練後直接降到31.4%——意味著AI的思考越來越“守規矩”,不再出現“簡單題瞎忙活、複雜題敷衍了事”的情況。

就像一個學生學會了考試時間管理,不再在選擇題上浪費半小時,而是把時間留給壓軸題。

2.準確率顯著提升:從“瞎蒙”到“真會做”

推理行為的改善,直接轉化成了準確率的提升。比如在AIME2024數學競賽題上,一些模型的準確率提升了超過7個百分點——這個提升可不是靠“死記硬背”,而是靠“更合理的思考”,是真正的能力進步。

3.意外驚喜:協同效應——單調性也變好了

SFT-Compo本來是為了改善組合性設計的,但研究團隊發現,它順帶還改善了AI的單調性表現——AI解決階梯題時,資源分配和準確率變化更符合規律了。

這就像學生學會了合理分配時間,不僅壓軸題做得好,簡單題也做得又快又準,屬於“意外收穫”。

4.對照實驗:證明是“方法有用”,不是“瞎貓碰上死耗子”

為了確保提升不是偶然,研究團隊做了對照實驗:用同樣的訓練數據,但不篩選符合組合性原理的答案——結果模型的準確率幾乎冇提升。

這就證明:是推理定律指導的訓練策略起了作用,而不是簡單的“多刷題”。

七、這個研究到底有啥用?(理論+實際意義)

1.理論意義:給AI推理搭了“科學框架”

以前咱們研究AI推理,就像“冇有食譜的烹飪”——全靠經驗和試錯,不知道為啥AI這麼思考,也不知道咋改進。

現在推理定律框架來了,就像物理學裡的牛頓定律——第一次給AI的推理行為提供了可驗證的科學規律,讓咱們能“看懂AI的思考”,而不是把它當成“黑盒子”。

2.實際意義:讓AI更高效、更靠譜,還省錢

-對開發者:不再“盲目堆算力”

以前想提升AI推理能力,開發者隻能“堆參數、加算力”,不僅成本高,還不一定有用。現在有了推理定律,開發者可以針對性設計訓練策略,讓AI用更少的算力,達到更好的效果——相當於“花小錢辦大事”。

-對普通人:AI助手變“貼心”了

以後咱們用AI寫報告、解數學題、做方案時,AI不會再“簡單題寫一堆廢話,複雜題隻寫兩行”——它會根據問題難度合理分配思考時間,給出的答案更準確、更高效。比如你問AI“怎麼寫一篇500字的讀後感”,它不會給你寫2000字的冗餘內容;你問它“怎麼解一道複雜的微積分題”,它也不會敷衍你。

-對關鍵領域:讓AI更安全、更可控

在醫療、金融、工業這些關鍵領域,AI的推理行為可控太重要了。比如用AI診斷疾病,要是AI“敷衍了事”,可能會漏診;要是“瞎琢磨”,可能會誤診。推理定律能讓AI的診斷過程更合理、更透明,提升醫療AI的可信度。

八、研究的侷限性與未來方向

研究團隊也坦誠,這項工作還有不少短板,未來還有很多可探索的方向:

1.測試基準的問題多樣性不夠:目前LORE-MONO隻有40個種子問題,覆蓋的領域和題型還不夠多——就像體檢隻查了幾個項目,不夠全麵。未來需要擴大題集規模,加入更多類型的問題(比如常識推理、創意寫作)。

2.“問題獨立性”的定義不夠精準:現在判斷兩個問題是否獨立,主要看學科類彆,現實中有些問題看似獨立,實則有隱藏聯絡——未來需要更精細的方法來定義“獨立性”。

3.冇測試最頂尖的閉源模型:由於計算資源限製,研究隻測試了開源模型,像GPT-4、Claude這些閉源大模型的推理行為還不清楚——未來需要把這些模型納入測試,驗證推理定律的普適性。

4.對準確率組合性的優化還不夠:目前SFT-Compo主要優化的是“思考資源分配”,對“準確率的指數衰減”還冇有很好的解決辦法——未來需要研究新方法,讓AI在複雜問題上的準確率不再“斷崖式下跌”。

九、核心總結

張俊宇團隊的這項研究,乾了一件“從0到1”的大事——第一次給AI的推理行為定了科學規律。推理定律框架就像AI的“思考家規”,SFT-Compo方法就像“教家規的老師”,兩者結合,讓AI從“瞎琢磨”變成“會思考”。

未來隨著這個研究的推進,AI會變得越來越“懂事”——不僅能更高效地解決問題,還能讓我們更清楚地知道“它為啥這麼思考”。這不僅能提升AI的效能,還能讓AI在更多關鍵領域安全落地,真正造福人類。

目錄
設置
設置
閱讀主題
字體風格
雅黑 宋體 楷書 卡通
字體風格
適中 偏大 超大
儲存設置
恢複默認
手機
手機閱讀
掃碼獲取鏈接,使用瀏覽器打開
書架同步,隨時隨地,手機閱讀
收藏
聽書
聽書
發聲
男聲 女生 逍遙 軟萌
語速
適中 超快
音量
適中
開始播放
推薦
反饋
章節報錯
當前章節
報錯內容
提交
加入收藏 < 上一章 章節列表 下一章 > 錯誤舉報