咱们做机器学习、统计建模的,谁没跟“过拟合”斗过智?模型在训练数据上跟开了挂似的,准确率飙到99%,一拿到新数据就原形毕露——这本质上就是模型“学太狠”,把数据里的噪声、偶然波动都当成了铁律死记硬背,结果成了“纸上谈兵”的花架子。正则化这玩意儿,说白了就是给模型上“紧箍咒”,但这紧箍咒不是瞎念的,L1、L2、核范数这哥仨,看似都是加个惩罚项,背后的几何逻辑和实际效果差着十万八千里。今天我就抛开那些晦涩的数学推导,用大白话+几何直觉,把这事儿给你扒得明明白白,让你不光知道“用什么”,更懂“为什么这么用”。
先铺垫个核心认知:咱们做模型训练,本质上是在解一个优化问题。简单说,就是找一组参数θ,让损失函数J(θ)最小——这个损失函数就像一个山谷,谷底就是模型最贴合训练数据的地方。但光找谷底不行啊,谷底可能在“悬崖边上”(参数值极大),模型复杂得不行,一换数据就掉下去了。正则化的作用,就是在山谷周围圈一个“围栏”,规定你只能在围栏里找谷底。这个围栏,就是正则化项R(θ)≤λ(λ是正则化强度,相当于围栏的大小)。所以整个优化问题就变成了:min J(θ),s.t. R(θ)≤λ。从几何上看,最优解就是“损失函数的等高线”和“正则化项的约束域”的第一个交点——这个点既保证了模型能贴合数据(离谷底不远),又保证了模型不复杂(在围栏里)。
此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 会·生活 » 正则化的几何密码:L1、L2与核范数的直观解读