正则化的几何密码：L1、L2与核范数的直观解读--怡心湖

正则化就像给模型戴上"紧箍咒"：L1像菱形围栏能自动砍掉无用特征，L2像圆形围栏让所有特征雨露均沾，核范数则专门对付矩阵低秩问题——理解它们背后的几何直觉，才能真正掌握防止过拟合的利器。

咱们做机器学习、统计建模的，谁没跟“过拟合”斗过智？模型在训练数据上跟开了挂似的，准确率飙到99%，一拿到新数据就原形毕露——这本质上就是模型“学太狠”，把数据里的噪声、偶然波动都当成了铁律死记硬背，结果成了“纸上谈兵”的花架子。正则化这玩意儿，说白了就是给模型上“紧箍咒”，但这紧箍咒不是瞎念的，L1、L2、核范数这哥仨，看似都是加个惩罚项，背后的几何逻辑和实际效果差着十万八千里。今天我就抛开那些晦涩的数学推导，用大白话+几何直觉，把这事儿给你扒得明明白白，让你不光知道“用什么”，更懂“为什么这么用”。

先铺垫个核心认知：咱们做模型训练，本质上是在解一个优化问题。简单说，就是找一组参数θ，让损失函数J(θ)最小——这个损失函数就像一个山谷，谷底就是模型最贴合训练数据的地方。但光找谷底不行啊，谷底可能在“悬崖边上”（参数值极大），模型复杂得不行，一换数据就掉下去了。正则化的作用，就是在山谷周围圈一个“围栏”，规定你只能在围栏里找谷底。这个围栏，就是正则化项R(θ)≤λ（λ是正则化强度，相当于围栏的大小）。所以整个优化问题就变成了：min J(θ)，s.t. R(θ)≤λ。从几何上看，最优解就是“损失函数的等高线”和“正则化项的约束域”的第一个交点——这个点既保证了模型能贴合数据（离谷底不远），又保证了模型不复杂（在围栏里）。

继续阅读：正则直观几何

此文由怡心湖编辑，若您觉得有益，欢迎分享转发！：首页 > 会·生活 » 正则化的几何密码：L1、L2与核范数的直观解读

相关推荐