“L1和L2正则化”直观理解(之一),从拉格朗日乘数法角度进行理解

  Рет қаралды 8,547

王木头学科学

王木头学科学

Күн бұрын

Пікірлер: 23
@JAzzNoTE82
@JAzzNoTE82 2 жыл бұрын
講得太好了,如果要靠自己參透出這幾個不同角度的正則化意義,大概要繞很多路才參透,太感謝了
@yanyanxu2329
@yanyanxu2329 2 жыл бұрын
真的是讲得太好了,收获很大,太感谢了。
@haolee630
@haolee630 6 ай бұрын
您讲的非常好,我认为Lasso形式和拉格朗日函数等价性KKT条件来建立的比如min ||y - Xβ||^2 s.t. ||β||_1 ≤ K的拉格朗日函数: L(β,λ) = ||y - Xβ||^2 + λ(||β||_1 - K),由于KKT条件的松弛互补条件 ,在最优解处,如果λ>0,那么||β||_1 = K,约束条件是活跃的。此时,最小化L(β,λ)等价于: min ||y - Xβ||^2 + λ||β||_1,当λ =0时 约束没有效用。您这样讲拉格朗日函数和lasso形式直接建立联系我觉得有点不太妥当。
@Jimmy-wy6fr
@Jimmy-wy6fr 2 жыл бұрын
讲得太好了,不火天理难容
@mengchenlo4972
@mengchenlo4972 5 ай бұрын
非常感謝
@jamesmina7258
@jamesmina7258 6 ай бұрын
木头哥太牛了。
@liyangliu8381
@liyangliu8381 Жыл бұрын
This is excellent! Thank you, Wang Mutou!
@mosdeo2000
@mosdeo2000 2 ай бұрын
「能靠搜索引擎解決的,堅決不去看教材」。有時候快,有時候是彎路,很難說好或不好。
@Sea-m-08
@Sea-m-08 2 жыл бұрын
讲的太好了,高手才会看的频道
@YANGLU860
@YANGLU860 2 жыл бұрын
可以 讲得非常清楚
@lar4853
@lar4853 3 жыл бұрын
有料 謝謝!
@michelyupeng
@michelyupeng 10 ай бұрын
讲的很好
@xinwang6125
@xinwang6125 3 жыл бұрын
真的讲的太好了,非常清楚。 但是我还是有个两个疑问 Question1:为什么我们偏好值小的w?或者说到底为什么要约束w在一个较小的区域内呢? 视频中确实讲到了,但是我还是没全说服,可以再展开说说么?或者什么资料,连接有讲这个? Question2:视频中讲的是说:如果w的值比较大的话,会带来比较大的噪音,在测试集中会带来比较大的偏差。如果这个结论是正确的话,为什么呢?为什么大的w会带来大的噪音和偏差?这个似乎难以理解。如果是线性的,那w增大,必然wx也会增大。可是一般还有非显性的激活函数,并不会导致w越大,噪音和偏差越大。这一点没理解。希望可以再帮我解释下。 Thank you for your amazing work.
@wkaing
@wkaing 3 жыл бұрын
其实不是小的W会带来更大的噪声,而是它会把原来比较小的噪声放大了。首先输入的训练集数据里的噪声是恒定的,如果神经网络里面输入的是一个大的W,那么经过神经网络之后,因为W太大就相当于这个噪声的方差就被放大得更多了。
@anonymous1943
@anonymous1943 3 жыл бұрын
Large weights tend to cause sharp transitions in the node functions and thus large changes in output for small changes in the inputs. -Page 269 Neural Smithing: Supervised Learning in Feedforward Artificial Neural Networks, 1999.
@閔123
@閔123 4 ай бұрын
@@wkaing 您好,我好像也有一樣的問題還是不太清楚,請問您說W大會把原本比較小的噪聲放大,可是原本的值不是也會被放大嗎,那噪聲對於真正要提取的值影響力不是也差不多嗎?
@ztc106
@ztc106 3 жыл бұрын
這一系列的視頻真了不起,應該獲頒開放式課程最佳教學獎。不禁想問up主,您是看了哪本書之後,做出視頻內容的? 我也想去買您看的書來看。算是做個預習。一邊看書,一邊看您的視頻,相信收穫更大。
@wkaing
@wkaing 3 жыл бұрын
其实并不是拿着一本书看完之后做出来视频的,而是心中有一个问题,一边搜索一边终结,然后做出来的
@julianjunyuanfeng3584
@julianjunyuanfeng3584 8 ай бұрын
😊​@@wkaing
@RuEramth
@RuEramth 8 ай бұрын
其实正则化并不能从拉格朗日乘数法这个角度去做可视化理解 因为新增的约束条件是不确定的 因此你也就没法画出一个具体的可行解的范围 即便你确定了那是一个确定的范围 在你的视频中 你的确说明了那个范围是确定的(即C的值由lambda决定) 但更进一步的 你无法解释为什么得是那个C 关于最后一个问题 似乎作者对于正则化的理解还是有点不足 正则化应该是在保证原损失函数的极小值不受太大影响的前提下再去尽可能减小范数 而这个权重 是人为确定的 如果你把正则项的权重给的很大 那么是会导致损失函数的极值点发生巨大偏移的 只是一般情况下不会给正则项很大的权重罢了 所以你才会觉得这种情况不会出现
@xinwang6125
@xinwang6125 3 жыл бұрын
如果从几何图形的角度来理解红色的L(w, r) function 和 绿色的L(w, r) function的话,似乎这两者并不等价。 1:假设针对green L找到了一组最优的w参数 2:此时green L的几何图像中的最优的那条等高线记为high-1。 3:因为最优的w找到了,所以red L function的几何图像也确定了,从而在red L function的那个等高线记为high-2。 4:red L function = green L function + r*C 5:从而必然可以知道high-2 > high-1 意思就是最优的w对应的两个function的等高线不一样。进一步说,red L function很可能有另外一个更优的w使得high-1=high-2 所以我觉得通过green L function的最优w,并不一定是red function的最优w
@anonymous1943
@anonymous1943 3 жыл бұрын
人家问的就是 公认最优 问大家如何理解为什么最优…
@nanwang2255
@nanwang2255 2 жыл бұрын
我觉得两者的w可以一样,但是超参数可以不一样,
Hoodie gets wicked makeover! 😲
00:47
Justin Flom
Рет қаралды 134 МЛН
Players vs Pitch 🤯
00:26
LE FOOT EN VIDÉO
Рет қаралды 134 МЛН
泰勒展开续集--拉格朗日余项如何推导?有何含义?
19:46
妈咪说MommyTalk
Рет қаралды 52 М.
7. 程序员的性格为什么那么轴,那都是有原因的
29:47
王木头学科学
Рет қаралды 6 М.
Lagrange 乘數
13:25
CUSTCourses
Рет қаралды 17 М.