伊利諾伊大學香檳分校張俊宇團隊聯合麻省理工、賓大等院校搞出的這項研究,核心就是給AI的“思考行為”定了規矩——提出推理定律(LORE)框架,第一次從理論上解釋了為啥AI會“瞎琢磨”(簡單題想太多)或“敷衍了事”(複雜題想太少),還給出了能讓AI變“懂事”的訓練方法。咱們用大白話把這個硬核研究拆明白,普通人也能看懂AI到底咋思考、咋變聰明。
一、先搞懂:現在的AI推理有多“不靠譜”?
咱們先看個生活裡的例子:一個學生考試,遇到1+1=2這種簡單題,非要寫滿一頁草稿紙論證;碰到壓軸的複雜數學題,卻隻寫兩行就交卷。現在的大型推理AI(比如OpenAI的o1、DeepSeek的R1)就這德性——思考資源分配完全冇譜。
這種“不靠譜”帶來兩個大問題:一是效率低,簡單問題浪費算力,複雜問題算力不夠;二是準確率差,該細想的冇細想,該簡略的瞎囉嗦,最終結果一言難儘。
研究團隊一深挖,發現病根兒很簡單:AI訓練時冇人教它“怎麼合理分配思考時間”。就像家長教孩子做題,隻講“這道題咋做”,卻冇說“簡單題快速過,複雜題多琢磨”,孩子自然亂分配時間。AI也是如此,冇人給它定“思考規矩”,隻能憑訓練時的經驗瞎蒙,導致推理行為又亂又不可控。
二、核心突破:推理定律(LORE)——給AI的思考定“家規”
研究團隊提出的推理定律框架,就像給AI製定的“思考家規”,包含計算定律和準確性定律兩條核心規矩,還配套了驗證方法,咱們一個個掰扯清楚。
1.兩個核心定律:AI思考的“基本準則”
咱們把AI的推理過程比作廚師做菜,一下子就能懂這兩條定律:
-計算定律:思考資源要和問題複雜度成正比
好廚師做菜,炒個番茄炒蛋10分鐘搞定,做道佛跳牆得花好幾個小時——菜越複雜,花的時間和精力越多。
AI思考也該這樣:解決問題需要的“思考資源”(比如推理步驟、算力消耗),必須和問題的複雜度成正比。
這裡的“問題複雜度”,研究團隊給了明確定義:解決問題需要的最少基本操作步驟數。比如算2+3,1步就能搞定,複雜度低;算一個複雜的矩陣運算,需要10步,複雜度就是前者的10倍。
按計算定律,複雜度10倍的問題,AI該花10倍的思考資源。但現在的AI經常違反這個規矩——簡單題花10倍資源,複雜題隻花1倍,純屬本末倒置。
-準確性定律:問題越複雜,準確率越容易“斷崖式下跌”
這個定律咱們用多米諾骨牌來理解:擺3塊骨牌,輕輕一推就能全倒;擺100塊骨牌,隻要有1塊冇擺好,整個鏈條就斷了,全倒的概率會急劇下降。
AI推理複雜問題時,就像擺多米諾骨牌——複雜問題需要分多步推理,每一步都有出錯的可能,步驟越多,出錯概率就會呈指數級上升,最終準確率“斷崖式下跌”。比如解一道需要10步的數學題,每步準確率90%,最終準確率隻有34.8%;要是20步,準確率直接跌到12.1%,這就是指數衰減的威力。
2.兩個驗證原理:怎麼判斷AI守冇守“家規”?
直接測量“問題複雜度”太難了(就像很難說清“番茄炒蛋和紅燒肉誰更複雜”),研究團隊又提出兩個可落地的驗證原理,相當於“家規執行的檢查標準”:
-單調性原理:問題越難,資源該越多,準確率該越低
就像爬山,爬500米的小山,花的體力少,登頂概率高;爬5000米的雪山,花的體力多,登頂概率還低。
對應到AI上:如果問題A比問題B複雜,那AI解決A時,該消耗更多思考資源,準確率也該比B低。要是反過來,就說明AI的推理行為出問題了。
-組合性原理:獨立問題的思考資源要“加起來”,準確率要“乘起來”
還是用做菜舉例:做番茄炒蛋(10分鐘)和紅燒肉(30分鐘),兩道菜獨立,一起做的話總時間該是10+30=40分鐘;要是廚師隻用20分鐘就做完,要麼偷工減料,要麼瞎忙活。
對應到AI上:兩個完全獨立的問題(比如一道幾何題和一道代數題,解題思路互不乾擾),AI同時解決它們時:
1.消耗的總思考資源=解決第一個問題的資源+解決第二個問題的資源;
2.最終的總準確率=解決第一個問題的準確率×解決第二個問題的準確率。
要是AI的表現偏離這個標準,就說明它的思考分配又亂了。
三、LORE-BENCH測試基準:給AI做“推理體檢”
光有定律和原理還不夠,得有工具檢測AI守冇守規矩。研究團隊開發了LORE-BENCH測試基準,相當於給AI做“推理行為體檢”的專用工具,分兩個部分:
1.LORE-MONO:檢測單調性的“階梯題集”
這個部分的核心是構造難度遞增的問題序列,確保問題的複雜度關係是明確的,就像給學生出的“階梯練習題”,從1步到30步難度逐步增加。
-具體做法:選數學、科學、語言、編程4個領域,每個領域設計10個“種子問題”(比如基礎的矩陣計算、簡單的編程題);然後給每個種子問題增加步驟,生成30個難度遞增的變體(比如1步矩陣運算→2步→…→30步)。這樣一來,第30個變體的複雜度明確是第1個的30倍。
-檢測目的:看AI解決這些階梯題時,思考資源是不是隨著難度增加而增加,準確率是不是隨著難度增加而降低——如果是,說明AI符合單調性原理;如果不是,就是“體檢不合格”。
-防作弊設計:研究團隊會仔細檢查問題序列,排除那些有“捷徑”的題(比如答案有週期性規律,AI不用推理就能蒙對),確保AI必須真思考,而不是耍小聰明。
2.LORE-COMPO:檢測組合性的“拚盤題集”
這個部分的核心是組合兩個獨立的問題,就像給廚師出的“拚盤任務”,讓他同時做兩道毫不相乾的菜。
-具體做法:從著名的MATH500數學數據集裡,隨機選兩個來自不同學科的問題(比如幾何題+代數題),組合成一道“複合題”;確保這兩個子問題完全獨立,解決一個對另一個冇任何幫助。
-檢測目的:看AI解決複合題時,思考資源是不是等於兩個子問題的資源之和,準確率是不是等於兩個子問題的準確率之積——如果差得太遠,就說明AI的組合性表現不合格。
四、體檢結果:現在的AI有多“不達標”?
研究團隊用LORE-BENCH給10個主流推理AI(比如DeepSeek-R1係列、Phi-4-mini)做了“體檢”,結果讓人挺意外:單調性勉強及格,組合性幾乎全軍覆冇。
1.單調性:大部分AI“基本及格”
麵對階梯題集時,大部分AI能做到“題越難,花的思考資源越多,準確率越低”,就像學生麵對難題會多花點時間,雖然正確率下降,但態度是對的。
但也有例外:一些小模型(比如1.5B參數的模型)在某些領域“犯糊塗”——比如解決第30步的複雜題,花的資源比第1步的簡單題還少,純屬“敷衍了事”。
2.組合性:幾乎所有AI“嚴重掛科”
這是最嚴重的問題,幾乎所有測試的AI都違反了組合性原理,主要表現為兩種“思考錯位”:
-思考不足:偷工減料
比如解決“幾何題+代數題”的複合題,理論上該花10+20=30步推理,結果AI隻花了15步就草草結束,相當於廚師冇做完兩道菜就端上桌,肯定不好吃——最終準確率自然暴跌。
-思考過剩:胡思亂想
還是上麵那道複合題,AI卻花了50步推理,遠超理論需要的30步。這就像廚師做番茄炒蛋,非要用做佛跳牆的步驟,又是熬高湯又是雕花,純屬浪費時間——不僅效率低,還可能因為步驟太多出錯,準確率反而更低。
研究團隊總結:現在的AI推理模式是“隨機且不一致”的,就像冇學過時間管理的孩子,完全憑感覺分配思考時間,根本冇有章法。
五、對症下藥:SFT-Compo訓練法——讓AI學會“合理思考”
發現問題了,就得解決問題。研究團隊開發了SFT-Compo訓練方法,核心就是“教AI學規矩”,讓它慢慢學會按推理定律分配思考資源,咱們用訓練運動員的例子來理解這個方法:
教練訓練馬拉鬆選手,不會讓他瞎跑,而是會製定科學的訓練計劃,教他“前半程儲存體力,後半程發力衝刺”——SFT-Compo就是AI的“推理教練”,教它“簡單題少花資源,複雜題多花資源”。
SFT-Compo的具體操作步驟:
1.選“練習題”:構造複合題
從訓練數據裡選兩個不同類彆的獨立問題,組合成複合題(比如“語文閱讀理解+數學應用題”),確保兩個子問題互不乾擾。
2.找“示範老師”:讓強模型生成標準答案
找一個更強大的“教師模型”(比如參數更多、推理能力更強的AI),讓它給每個複合題生成多個解題方案——就像讓經驗豐富的老師給學生寫示範答案。
3.挑“優質答案”:選符合組合性原理的方案
這是最關鍵的一步!不是所有示範答案都能用,研究團隊會篩選那些最符合組合性原理的方案——也就是“解決複合題的推理步驟≈子問題1步驟+子問題2步驟”的答案。
相當於從老師的示範裡,挑出“時間分配最合理”的那個,讓AI照著學。
4.讓AI“刷題”:學優質的推理模式
用篩選後的優質答案訓練AI,讓它慢慢記住“複合題該花多少步驟思考”,逐漸養成合理分配資源的習慣——就像學生反覆看優質示範,慢慢學會合理安排考試時間。
六、訓練效果:AI變“懂事”了,準確率還漲了!
研究團隊在4個不同規模的AI模型(從1.5億參數到8億參數)上測試了SFT-Compo方法,結果特彆讓人驚喜:AI不僅推理行為變規矩了,準確率還實打實提升了。
1.組合性偏差大幅降低:AI不再“瞎琢磨”
以1.5億參數的模型為例,訓練前的組合性偏差是52.8%(簡單說就是AI的思考資源分配和理論值差了一半多),訓練後直接降到31.4%——意味著AI的思考越來越“守規矩”,不再出現“簡單題瞎忙活、複雜題敷衍了事”的情況。
就像一個學生學會了考試時間管理,不再在選擇題上浪費半小時,而是把時間留給壓軸題。
2.準確率顯著提升:從“瞎蒙”到“真會做”
推理行為的改善,直接轉化成了準確率的提升。比如在AIME2024數學競賽題上,一些模型的準確率提升了超過7個百分點——這個提升可不是靠“死記硬背”,而是靠“更合理的思考”,是真正的能力進步。
3.意外驚喜:協同效應——單調性也變好了
SFT-Compo本來是為了改善組合性設計的,但研究團隊發現,它順帶還改善了AI的單調性表現——AI解決階梯題時,資源分配和準確率變化更符合規律了。
這就像學生學會了合理分配時間,不僅壓軸題做得好,簡單題也做得又快又準,屬於“意外收穫”。
4.對照實驗:證明是“方法有用”,不是“瞎貓碰上死耗子”
為了確保提升不是偶然,研究團隊做了對照實驗:用同樣的訓練數據,但不篩選符合組合性原理的答案——結果模型的準確率幾乎冇提升。
這就證明:是推理定律指導的訓練策略起了作用,而不是簡單的“多刷題”。
七、這個研究到底有啥用?(理論+實際意義)
1.理論意義:給AI推理搭了“科學框架”
以前咱們研究AI推理,就像“冇有食譜的烹飪”——全靠經驗和試錯,不知道為啥AI這麼思考,也不知道咋改進。
現在推理定律框架來了,就像物理學裡的牛頓定律——第一次給AI的推理行為提供了可驗證的科學規律,讓咱們能“看懂AI的思考”,而不是把它當成“黑盒子”。
2.實際意義:讓AI更高效、更靠譜,還省錢
-對開發者:不再“盲目堆算力”
以前想提升AI推理能力,開發者隻能“堆參數、加算力”,不僅成本高,還不一定有用。現在有了推理定律,開發者可以針對性設計訓練策略,讓AI用更少的算力,達到更好的效果——相當於“花小錢辦大事”。
-對普通人:AI助手變“貼心”了
以後咱們用AI寫報告、解數學題、做方案時,AI不會再“簡單題寫一堆廢話,複雜題隻寫兩行”——它會根據問題難度合理分配思考時間,給出的答案更準確、更高效。比如你問AI“怎麼寫一篇500字的讀後感”,它不會給你寫2000字的冗餘內容;你問它“怎麼解一道複雜的微積分題”,它也不會敷衍你。
-對關鍵領域:讓AI更安全、更可控
在醫療、金融、工業這些關鍵領域,AI的推理行為可控太重要了。比如用AI診斷疾病,要是AI“敷衍了事”,可能會漏診;要是“瞎琢磨”,可能會誤診。推理定律能讓AI的診斷過程更合理、更透明,提升醫療AI的可信度。
八、研究的侷限性與未來方向
研究團隊也坦誠,這項工作還有不少短板,未來還有很多可探索的方向:
1.測試基準的問題多樣性不夠:目前LORE-MONO隻有40個種子問題,覆蓋的領域和題型還不夠多——就像體檢隻查了幾個項目,不夠全麵。未來需要擴大題集規模,加入更多類型的問題(比如常識推理、創意寫作)。
2.“問題獨立性”的定義不夠精準:現在判斷兩個問題是否獨立,主要看學科類彆,現實中有些問題看似獨立,實則有隱藏聯絡——未來需要更精細的方法來定義“獨立性”。
3.冇測試最頂尖的閉源模型:由於計算資源限製,研究隻測試了開源模型,像GPT-4、Claude這些閉源大模型的推理行為還不清楚——未來需要把這些模型納入測試,驗證推理定律的普適性。
4.對準確率組合性的優化還不夠:目前SFT-Compo主要優化的是“思考資源分配”,對“準確率的指數衰減”還冇有很好的解決辦法——未來需要研究新方法,讓AI在複雜問題上的準確率不再“斷崖式下跌”。
九、核心總結
張俊宇團隊的這項研究,乾了一件“從0到1”的大事——第一次給AI的推理行為定了科學規律。推理定律框架就像AI的“思考家規”,SFT-Compo方法就像“教家規的老師”,兩者結合,讓AI從“瞎琢磨”變成“會思考”。
未來隨著這個研究的推進,AI會變得越來越“懂事”——不僅能更高效地解決問題,還能讓我們更清楚地知道“它為啥這麼思考”。這不僅能提升AI的效能,還能讓AI在更多關鍵領域安全落地,真正造福人類。