精選分類 書庫 完本 排行 原創專區
欣可小說 > 純愛耽美 > 職場小聰明 > 第961章 AI裡的白盒黑盒和正則化

職場小聰明 第961章 AI裡的白盒黑盒和正則化

作者:翟曉鷹 分類:純愛耽美 更新時間:2026-03-16 18:49:13

白盒模型和黑盒模型,就是人工智慧的兩種演算法,白盒顧名思義,可以用人的理解,就是決策樹,葉子大於5放左邊,葉子小於五放右邊,然後繼續往下一層,就是無限的分類,可以理解,而黑盒模型就不一樣了,是機器學習,多層神經網絡,每個層的一定數量神經元全連接,數據反覆自己的調參,加權重,也就是什麼數據重要,什麼不重要,但都要,隻是分量不一樣,然後還會根據結果是否準確率高再刪除一些數據,再進行反向調參,正向叫線性編程,反向就是迴歸,反正就是倒騰幾百萬次,數據變來變去,人無法理解,最後出來一個模型,就可以跟現有數據高度吻合

這是一個白盒模型,決策樹,可以一層層的分類,容易理解。

正則化(Regularization):原理、方法與應用

在機器學習和深度學習中,過擬合(Overfitting)是模型訓練的核心挑戰之一——模型在訓練數據上表現極佳,但在未見過的測試數據上泛化能力差。正則化正是解決這一問題的關鍵技術,其核心思想是通過在損失函數中引入“懲罰項”,限製模型參數的複雜度,迫使模型學習更簡單、更具泛化性的特征,而非死記硬背訓練數據中的噪聲。

一、正則化的核心目標與本質

1.核心目標

平衡“模型擬合能力”與“泛化能力”:避免模型因過度追求訓練誤差最小化,而忽略對新數據的適應性。

控製模型複雜度:複雜度過高的模型(如高次多項式、深層神經網絡)易學習訓練數據中的噪聲,正則化通過約束參數規模降低複雜度。

2.本質理解

正則化的本質是**“奧卡姆剃刀原理”在機器學習中的體現**——在多個能擬合數據的模型中,選擇“最簡單”(參數更簡潔、特征更通用)的模型,其泛化能力通常更強。例如:用多項式擬合數據時,一次函數(y=ax+b)比五次函數(y=ax?+bx?+...+e)更簡單,若兩者在訓練數據上誤差接近,一次函數對新數據的預測更穩定。

二、經典正則化方法(針對傳統機器學習)

傳統機器學習(如線性迴歸、邏輯迴歸、支援向量機)中,正則化主要通過對模型參數的“範數懲罰”實現,常見有L1、L2正則化,以及兩者結合的ElasticNet。

1.L2正則化(嶺迴歸,RidgeRegression)

原理

L2正則化通過在損失函數中加入參數的平方和懲罰項,限製參數的“整體規模”(避免參數值過大)。以線性迴歸為例:

原始損失函數(均方誤差MSE加入L2正則後的損失函數:其中:(正則化強度):控製懲罰力度,時退化為原始模型,越大懲罰越強(參數越接近0):模型的權重參數(不含偏置項,因偏置項僅影響整體偏移,不直接導致過擬合):為了求導後抵消係數,簡化計算(非必需,僅影響的數值尺度)。

核心特點

參數“收縮”(Shrinkage)

:L2懲罰會讓所有參數向0靠近,但不會將參數直接置為0(參數值整體變小,但保留所有特征)。

抗噪聲能力強

:參數值減小後,模型對輸入數據的微小波動(噪聲)更不敏感,泛化性提升。

適用場景

:特征之間存在相關性、不希望刪除任何特征的場景(如醫學特征,每個指標都可能有意義)。

2.L1正則化(套索迴歸,LassoRegression)

原理

L1正則化通過在損失函數中加入參數的絕對值和懲罰項,實現“參數稀疏化”(即強製部分參數變為0,相當於刪除冗餘特征)。以線性迴歸為例,加入L1正則後的損失函數:核心特點

參數稀疏化

:L1的絕對值懲罰會導致部分參數被“壓縮”到0,從而自動完成“特征選擇”(刪除對模型貢獻極小的特征)。例:用Lasso處理“房價預測”數據時,若“小區綠化率”的參數被置為0,說明該特征對房價影響可忽略,模型訓練時無需考慮。

計算挑戰:絕對值函數在處不可導,傳統梯度下降無法直接使用,需用“次梯度下降”“座標下降”等特殊優化方法。

適用場景

:特征維度高、存在大量冗餘特征的場景(如文字分類中的詞袋模型,特征數可能達數萬,需篩選核心詞彙)。

3.L1與L2的對比:為什麼L1能稀疏化?

L1和L2的核心差異源於懲罰項的“幾何形狀”,可通過“約束域”直觀理解:假設模型僅含兩個參數和,正則化等價於在“參數空間”中加入一個約束域,損失函數的最優解需落在“約束域與損失函數等高線的切點”上:

L2的約束域是圓形:切點通常不在座標軸上,因此參數不會為0;

L1的約束域是正方形:正方形的頂點在座標軸上(如,切點更易落在頂點,導致某一參數為0。

對比維度

L1正則化(Lasso)

L2正則化(Ridge)

懲罰項形式(絕對值和)(平方和)參數效果部分參數置為0(稀疏化\/特征選擇)

所有參數縮小,不置為0

抗多重共線性

弱(可能刪除相關特征中的一個)

強(通過縮小參數緩解相關性影響)

優化難度

高(不可導,需特殊方法)

低(可導,支援梯度下降)

適用場景

高維、冗餘特征數據

特征均有意義、需保留所有特征

4.ElasticNet(彈性網絡):L1與L2的結合

為兼顧L1的“特征選擇”和L2的“抗共線性”,ElasticNet同時引入L1和L2懲罰項,損失函數為:其中控製L1強度,控製L2強度。適用場景:特征維度極高且存在多重共線性的場景(如基因數據,特征數遠大於樣本數,且基因間存在相關性)。

三、深度學習中的正則化方法

深度學習模型(如CNN、Transformer)參數規模龐大(動輒千萬級),過擬合風險更高,除了上述L1\/L2,還需針對性的正則化技術。

1.權重衰減(WeightDecay)

本質

:深度學習中L2正則化的常用實現方式,通過在優化器中直接對參數進行“按比例衰減”(如SGD、Adam優化器均支援weight_decay參數)。

原理

:每次參數更新時,先將參數乘以一個小於1的係數(如0.99),再進行梯度下降,等價於在損失函數中加入L2懲罰項。

注意

:權重衰減僅作用於權重參數,不作用於偏置項和BatchNorm的參數(因這些參數對模型複雜度影響小)。

2.Dropout(隨機失活)

原理

(以全連接層為例):訓練時,隨機“關閉”(置為0)一部分神經元(比例由參數p控製,通常取0.2~0.5),迫使模型不依賴某一特定神經元,學習更魯棒的特征;測試時,不關閉任何神經元,而是將所有神經元的輸出乘以

就是(或對權重進行縮放),保證輸出分佈一致。

示例

:一個含100個神經元的全連接層,p=0.5時,每次訓練迭代會隨機選擇50個神經元置為0,僅用剩餘50個神經元計算;測試時,100個神經元全部啟用,輸出乘以0.5。

核心作用

:避免“神經元共適應”(即多個神經元依賴彼此的錯誤特征),模擬“整合學習”(每次訓練都是一個不同的小模型,測試時融合所有小模型的預測)。

3.BatchNormalization(批量歸一化,BN)

原理

:對每一層的輸入數據進行“標準化”(使數據均值為0、方差為1),並引入可學習的縮放參數和偏移參數,增強模型靈活性。

正則化效果

:訓練時,BN使用“批次內數據的均值和方差”,測試時使用“訓練過程中移動平均的均值和方差”,這種差異會給模型帶來微小的噪聲,間接抑製過擬合。

附加價值

:加速模型收斂(避免梯度消失\/爆炸),允許使用更高的學習率,是深度學習的“標配”技術之一(雖非專門為正則化設計,但正則化效果顯著)。

4.早停(EarlyStopping)

原理

:訓練過程中,持續監控模型在驗證集上的效能(如準確率、損失);當驗證集效能不再提升(甚至下降)時,立即停止訓練,避免模型繼續學習訓練數據中的噪聲。

本質

:通過限製訓練迭代次數,防止模型“過度訓練”,相當於在“模型複雜度隨訓練次數增長”的過程中,選擇“泛化能力最強”的中間狀態。

操作步驟

將數據分為訓練集、驗證集、測試集;

每次迭代後,計算驗證集損失;

若驗證集損失連續k次(如10次)未下降,停止訓練,儲存此時的模型參數。

5.數據增強(DataAugmentation)

原理

:通過對訓練數據進行“隨機變換”(不改變標簽),人工擴大訓練集規模,讓模型接觸更多樣化的樣本,減少對原始數據噪聲的依賴。

常見手段

(以圖像數據為例):

幾何變換:隨機裁剪、翻轉、旋轉、縮放;

畫素變換:隨機調整亮度、對比度、飽和度、新增高斯噪聲;

高級變換:MixUp(將兩張圖像按比例混合)、CutMix(將一張圖像的部分區域替換為另一張圖像)。

核心優勢

:不增加模型複雜度,僅通過數據層麵的優化提升泛化能力,是計算機視覺、NLP(如文字同義詞替換)中最常用的正則化方法之一。

6.其他深度學習正則化技術

LabelSmoothing(標簽平滑)

:將硬標簽(如分類任務的[0,1,0])替換為軟標簽(如[0.1,0.8,0.1]),避免模型對“正確標簽”過度自信,緩解過擬合。

MixUp\/CutMix

:通過樣本混合,讓模型學習更通用的特征(如MixUp將“貓”和“狗”的圖像混合,標簽按比例分配,迫使模型關注“毛髮”“耳朵”等通用特征而非噪聲)。

知識蒸餾(KnowledgeDistillation)

:用“複雜教師模型”的輸出指導“簡單學生模型”訓練,學生模型在繼承教師模型泛化能力的同時,保持低複雜度。

四、正則化的關鍵實踐要點

正則化強度的選擇是正則化的核心超參數,需通過交叉驗證(Cross-Validation)確定:

嘗試多個值(如0.001,0.01,0.1,1,10);

對每個,用K折交叉驗證(如5折)訓練模型,計算驗證集平均效能;

選擇使驗證集效能最優的

過大易導致“欠擬合”,即模型過於簡單,無法擬合數據規律)。

數據預處理的影響L1\/L2正則化對特征尺度敏感(如“收入”(萬元級)和“年齡”(十位數)的參數規模差異大,懲罰時會偏向縮小“收入”參數),因此需先對特征進行標準化(Standardization)或歸一化(Normalization),使所有特征處於同一尺度。

不同模型的正則化選擇

傳統線性模型:優先嚐試L2(Ridge),若特征冗餘多則用L1(Lasso)或ElasticNet;

深度學習模型:基礎組合為“權重衰減+Dropout+數據增強”,BN通常作為標配,複雜任務可加入LabelSmoothing或MixUp;

小樣本任務:數據增強和早停的效果更顯著(因數據量少,模型易過擬合)。

五、總結

正則化是機器學習的“防過擬合利器”,其核心是“通過約束模型複雜度,提升泛化能力”。不同場景下需選擇合適的正則化方法:

傳統模型:L1(特征選擇)、L2(抗共線性)、ElasticNet(兼顧兩者);

深度學習:權重衰減、Dropout、數據增強、早停等組合使用;

關鍵超參數

需通過交叉驗證優化,避免欠擬合或過擬合。

掌握正則化技術,是從“訓練出高準確率模型”到“訓練出穩定泛化模型”的關鍵一步。

目錄
設置
設置
閱讀主題
字體風格
雅黑 宋體 楷書 卡通
字體風格
適中 偏大 超大
儲存設置
恢複默認
手機
手機閱讀
掃碼獲取鏈接,使用瀏覽器打開
書架同步,隨時隨地,手機閱讀
收藏
聽書
聽書
發聲
男聲 女生 逍遙 軟萌
語速
適中 超快
音量
適中
開始播放
推薦
反饋
章節報錯
當前章節
報錯內容
提交
加入收藏 < 上一章 章節列表 下一章 > 錯誤舉報