【機器學習2021】類神經網路訓練不起來怎麼辦 (一): 局部最小值 (local minima) 與鞍點 (saddle point)

  Рет қаралды 131,875

Hung-yi Lee

Hung-yi Lee

Күн бұрын

Пікірлер: 67
@bu1414
@bu1414 3 жыл бұрын
討論Optimization的時候如何把Gradient descent做好 (LF、L()=Loss Function) (Θ=未知數集合) 0:30 為什麼Optimization會失敗? 當我們發現model訓練不起來,一開始loss就很高→猜測gradient卡在0 什麼情況下gradient是0? 1. local minima,局部最小值 2. saddle point,鞍點 使gradient為0的情況統稱為critical point,臨界點 知道在臨界點的情況是哪種,便可以決定接下來要做的處理 4:17 怎麼知道是local minima還是saddle point? **WARNING OF MATH** **看影片,看影片,看影片** 要先知道LF的形狀,怎麼知道呢? L(Θ)很複雜無法完整知道,但給定一組參數Θ',Θ'的LF有辦法被寫出來,可用一串式子表示 5:16 Tayler Series Approximation,泰勒級數...??? 用無限項連加式(級數)來表示一個函數,這些相加的項由函數在某一點的導數求得。 共有三項 第一項:L(Θ'),當Θ跟Θ'相近時,L(Θ)與L(Θ')也相近 第二項:(Θ-Θ')的轉置矩陣乘上gradient的向量g,此g用來彌補Θ與Θ'的差距 g=▽L(Θ') gi=Θi對L的微分 第三項:(Θ-Θ')的轉置矩陣乘上H,再乘以(Θ-Θ'),用以補足第二項未足夠的Θ與Θ'的差距 H,Hessian是一個矩陣,為L的二次微分 7:58 大重點:L(Θ)在Θ'附近可寫成一個,跟gradient、Hessian有關的一個式子,而gradient與一次微分有關,Hessian與二次微分有關 8:23 Hessian 今天走到一個critical point,意味著gradient為0→第二項(綠色)為0,因此用第三項(紅色)來判斷error surface,藉此知道critical point是哪種情況 9:16 怎麼根據Hessian來判斷呢? 代號v表示Θ-Θ' 設v為任何值 1.v的轉置矩陣*H*v > 0 → L(Θ)>L(Θ') ,因v必>0所以(Θ-Θ')>0 →代表L(Θ') 是最低點 →Local minima 2.v的轉置矩陣*H*v < 0 → L(Θ)
@alex7035
@alex7035 3 жыл бұрын
感谢把课程分享在KZbin, 让我们有自学的机会。老师这个课讲着得很好 比几年前版本思路更清晰。基本在前几节课把解体的思路框架说明白了。 然后后续课针对每个问题讲解
@yunzhang2553
@yunzhang2553 3 жыл бұрын
昨天面试data scientist,宏毅老师这个系列是yyds(永远的神)!太宝藏了,帮助我回答了很多刁钻问题。准备再看十遍
@simonliao5020
@simonliao5020 3 жыл бұрын
教授現在的教學模式比之前更好,更容易理解了,看來教授的課程內容也是經過優化了呢。
@trunke1085
@trunke1085 3 жыл бұрын
教授跟機器一樣都有再學習 : )
@sky22485816
@sky22485816 3 жыл бұрын
我每年都有追老师的新番,我是觉得各有各的优缺,像我觉得BPP放在补充有点可惜呢。
@susususu-y4e
@susususu-y4e 2 жыл бұрын
所以有人說 其實人就是一個大的模型 每個人就是其中的一個node
@已經大學生了拉
@已經大學生了拉 2 жыл бұрын
@@sky22485816 請問BPP是啥
@penghuang3373
@penghuang3373 2 жыл бұрын
@@已經大學生了拉 Backpropagation吧,反向传播算法我也觉得挺重要的,前面给了二维码让大家自主选择是否学习
@Matlab675
@Matlab675 3 ай бұрын
真的是神,最后举例解释太绝了
@李凯-f1d
@李凯-f1d 3 жыл бұрын
讲的特别好,把这两个容易模糊的概念讲清楚了
@dragontailys
@dragontailys Жыл бұрын
君士坦丁堡沦陷是1453, instead of 1543. 除此之外,这个比喻和视频极好!!!!
@lkdhy-rc7ep
@lkdhy-rc7ep 9 ай бұрын
赞同这个类比极好,impressive!
@lkdhy-rc7ep
@lkdhy-rc7ep 9 ай бұрын
当然视频也好hh
@Johnson_meta
@Johnson_meta Жыл бұрын
是1453年君士坦丁堡陷落,陆上丝绸之路被掐断,为了发现新航道,1492年发现新大陆
@張家齊-y3h
@張家齊-y3h 3 жыл бұрын
26:04 君士坦丁堡是1453年淪陷的
@imray_5678
@imray_5678 8 ай бұрын
能在老师的课上听到三体真的很激动,感觉很魔幻😂
@bohanchen7678
@bohanchen7678 3 жыл бұрын
君士坦丁堡被攻陷好像是1453年,无关大雅拉,老师讲的很好
@黃彥鈞-i8k
@黃彥鈞-i8k 2 жыл бұрын
同問 XD
@tgfghu6366
@tgfghu6366 2 жыл бұрын
精罗落泪
@spaceball2231
@spaceball2231 2 жыл бұрын
讲得太棒了 支持李教授♥
@chenwilly295
@chenwilly295 10 ай бұрын
老師不好意思 君士坦丁堡是1453淪陷的
@LaoZhao11
@LaoZhao11 3 жыл бұрын
總是在遇到問題時,才會發覺自己學得不夠多 這也算是 critical point嗎?
@kkchi5873
@kkchi5873 4 ай бұрын
那个 16:00 的图没有看懂,有没有讲解一下,为什么那个是saddle point, 另外的是local minima, 这图怎么看,是看颜色还是线条的密度
@aryliu5164
@aryliu5164 3 ай бұрын
这个三体的例子举得真的妙呀!
@林人傑-t7i
@林人傑-t7i 6 ай бұрын
30:40的圖是不是有點問題,有一些點的Training Loss好像已經小於0了
@natarajanbalasubramanian8484
@natarajanbalasubramanian8484 3 жыл бұрын
Can you please upload an English version too?
@李威緒-i7q
@李威緒-i7q 3 жыл бұрын
We need one week to translate this video to English.
@natarajanbalasubramanian8484
@natarajanbalasubramanian8484 3 жыл бұрын
@@李威緒-i7q Definitely. Thank you for the awesome content
@chenwilliam5176
@chenwilliam5176 Жыл бұрын
反向傳播過程中,用最小梯度法找不到 Loss function absolutely minimum 😅
@xiaosuqi8798
@xiaosuqi8798 2 жыл бұрын
教授你太厉害了😭我为什么没有早点订阅你的channel
@nsjjsk2788
@nsjjsk2788 3 жыл бұрын
讲得太好!看完好像看三体!
@xiaoranchen5363
@xiaoranchen5363 3 жыл бұрын
老师,我想起你之前说的大乐透假设,现在可以理解了大的model不容易卡在local minima,但是为什么大的model也不太会容易卡在saddle point呢?
@cliffcanyon342
@cliffcanyon342 3 жыл бұрын
請問這部影片最後有結束嗎?還是當天就是這樣了呢?
@HungyiLeeNTU
@HungyiLeeNTU 3 жыл бұрын
後面還有,可以按照撥放清單的順序觀看: kzbin.info/www/bejne/j5aTYmuoeLuphdE
@bobobobobozhao
@bobobobobozhao 2 жыл бұрын
critical point 爲何在鞍點不會再更新?
@閔123
@閔123 2 жыл бұрын
gradient=0不會再更新
@水坎火离
@水坎火离 8 ай бұрын
15:58的图,我没有看明白,有人能回答一下吗?
@hellosunny
@hellosunny 3 жыл бұрын
利害,把困難的內容說簡單
@maxdinckelban3206
@maxdinckelban3206 3 жыл бұрын
君士坦丁堡沦陷是在1453年哦
@hsuchechun9113
@hsuchechun9113 Жыл бұрын
有個小小的問題 如果已經能夠知道Loss對參數的微分,那為什麼不直接令成0,求得參數,再帶回Loss,直接找最小值就好了呢?
@陈奎任
@陈奎任 Жыл бұрын
you only know the gradient of one point. find gradient by point, but not find point by gradient.
@hsuchechun9113
@hsuchechun9113 Жыл бұрын
@@陈奎任 我想你沒有回答到我的問題 如果我不能直接微分等於0的話,那代表有兩個情況 1)微分方程不能直接求出來,但透過某種方式可以求出loss方程在某點的切線斜率 2)我可以求微分方程,但這個方程太複雜,導致我不能求解 那如果是1)的話,又是透過什麼方法求斜率的呢?
@閔123
@閔123 7 ай бұрын
請問 Loss對參數的微分是0應該也不一定是最小值吧?
@TianBian-t8l
@TianBian-t8l 6 ай бұрын
现有的神经网络方法之所以采用梯度下降的方法更新参数,而不直接计算梯度等于0的参数,原因有以下几点: 1. 非凸优化问题:神经网络的损失函数通常是非凸的,这意味着损失函数可能有多个局部最小值和鞍点。直接求解梯度等于0的参数可能会导致我们找到一个局部最小值,而不是全局最小值。梯度下降方法通过迭代更新参数,可以在一定程度上避免陷入局部最小值。 2. 计算复杂度:对于大型神经网络,参数数量可能非常庞大,直接计算梯度等于0的参数需要解决一个复杂的非线性方程组,这在计算上是非常困难的。而梯度下降方法每次只需计算损失函数的梯度,计算复杂度相对较低。 3. 在线学习和随机梯度下降:在许多实际应用中,数据是逐渐产生的,而不是一开始就全部可用。采用梯度下降方法可以实现在线学习,即在新数据到来时逐步更新模型参数。此外,随机梯度下降(SGD)方法每次只使用一部分数据计算梯度,这样可以加速训练过程,并且具有一定的正则化效果,有助于避免过拟合。 4. 可以结合其他优化技术:梯度下降方法可以很容易地与其他优化技术(如动量、自适应学习率等)结合使用,进一步提高参数优化的效果。 综上所述,梯度下降方法在神经网络参数优化中具有较好的适用性和灵活性,因此被广泛采用。 --GPT4
@penghuang3373
@penghuang3373 2 жыл бұрын
感觉线性代数都还给老师了😭
@zhanjiechen800
@zhanjiechen800 3 жыл бұрын
请问2021的作业从哪里能看到。
@yangwang9688
@yangwang9688 3 жыл бұрын
Super super great slide!
@祺盘
@祺盘 3 жыл бұрын
我们可以拥有助教的资料吗
@angelhsia
@angelhsia 2 жыл бұрын
所以狄奧倫娜為什麼失敗了????
@lingweimeng2461
@lingweimeng2461 2 жыл бұрын
因为参数突然被freeze了
@glhuang7944
@glhuang7944 3 жыл бұрын
感谢老师!
@fool7491
@fool7491 2 жыл бұрын
@26:23 1453??
@jorjiang1
@jorjiang1 3 жыл бұрын
这是*真实*的故事,出自三体
@Doehio
@Doehio 2 жыл бұрын
8:25这个公式是类似于泰勒展开的概念吧
@hansenzhang1034
@hansenzhang1034 2 жыл бұрын
yes,就是高维泰勒公式展开形式
@spes9850401
@spes9850401 3 жыл бұрын
26:46 笑死XDDD
@qingqinliu1646
@qingqinliu1646 3 жыл бұрын
精羅落淚😭
@ruanjiayang
@ruanjiayang 3 жыл бұрын
实践中有人去求CNN的Hessian矩阵和特征值吗,嘻嘻
@yls2498
@yls2498 3 жыл бұрын
25:00 說了
@shadowchaser19816
@shadowchaser19816 3 жыл бұрын
👍👍👍👍👍👍👍👍👍👍
@姚小麦
@姚小麦 3 жыл бұрын
南京信息工程大学打开
@taoo4612
@taoo4612 2 жыл бұрын
成都信息工程大学打卡
@erix_kkuma쿠마
@erix_kkuma쿠마 3 жыл бұрын
第一
So Cute 🥰 who is better?
00:15
dednahype
Рет қаралды 19 МЛН
人是不能做到吗?#火影忍者 #家人  #佐助
00:20
火影忍者一家
Рет қаралды 20 МЛН
Chain Game Strong ⛓️
00:21
Anwar Jibawi
Рет қаралды 41 МЛН
【機器學習2021】機器學習任務攻略
51:23
Hung-yi Lee
Рет қаралды 186 М.
DPO V.S. RLHF 模型微调
44:14
Alice in AI-land
Рет қаралды 3 М.
【機器學習2021】自注意力機制 (Self-attention) (上)
28:18
Transformer论文逐段精读
1:27:05
跟李沐学AI
Рет қаралды 429 М.
So Cute 🥰 who is better?
00:15
dednahype
Рет қаралды 19 МЛН