KZ
bin
Негізгі бет
Қазірдің өзінде танымал
Тікелей эфир
Ұнаған бейнелер
Қайтадан қараңыз
Жазылымдар
Кіру
Тіркелу
Ең жақсы KZbin
Фильм және анимация
Автокөліктер мен көлік құралдары
Музыка
Үй жануарлары мен аңдар
Спорт
Ойындар
Комедия
Ойын-сауық
Тәжірибелік нұсқаулар және стиль
Ғылым және технология
【機器學習2021】類神經網路訓練不起來怎麼辦 (二): 批次 (batch) 與動量 (momentum)
30:59
【機器學習2021】類神經網路訓練不起來怎麼辦 (五): 批次標準化 (Batch Normalization) 簡介
30:56
So Cute 🥰 who is better?
00:15
人是不能做到吗?#火影忍者 #家人 #佐助
00:20
Chain Game Strong ⛓️
00:21
😺🍫 خدعة الشوكولاتة المذهلة لقطتي! شاهد كيف تعلمني قطتي القيام بها! 😂🎉
00:30
【機器學習2021】類神經網路訓練不起來怎麼辦 (一): 局部最小值 (local minima) 與鞍點 (saddle point)
Рет қаралды 131,875
Facebook
Twitter
Жүктеу
1
Жазылу 249 М.
Hung-yi Lee
Күн бұрын
Пікірлер: 67
@bu1414
3 жыл бұрын
討論Optimization的時候如何把Gradient descent做好 (LF、L()=Loss Function) (Θ=未知數集合) 0:30 為什麼Optimization會失敗? 當我們發現model訓練不起來,一開始loss就很高→猜測gradient卡在0 什麼情況下gradient是0? 1. local minima,局部最小值 2. saddle point,鞍點 使gradient為0的情況統稱為critical point,臨界點 知道在臨界點的情況是哪種,便可以決定接下來要做的處理 4:17 怎麼知道是local minima還是saddle point? **WARNING OF MATH** **看影片,看影片,看影片** 要先知道LF的形狀,怎麼知道呢? L(Θ)很複雜無法完整知道,但給定一組參數Θ',Θ'的LF有辦法被寫出來,可用一串式子表示 5:16 Tayler Series Approximation,泰勒級數...??? 用無限項連加式(級數)來表示一個函數,這些相加的項由函數在某一點的導數求得。 共有三項 第一項:L(Θ'),當Θ跟Θ'相近時,L(Θ)與L(Θ')也相近 第二項:(Θ-Θ')的轉置矩陣乘上gradient的向量g,此g用來彌補Θ與Θ'的差距 g=▽L(Θ') gi=Θi對L的微分 第三項:(Θ-Θ')的轉置矩陣乘上H,再乘以(Θ-Θ'),用以補足第二項未足夠的Θ與Θ'的差距 H,Hessian是一個矩陣,為L的二次微分 7:58 大重點:L(Θ)在Θ'附近可寫成一個,跟gradient、Hessian有關的一個式子,而gradient與一次微分有關,Hessian與二次微分有關 8:23 Hessian 今天走到一個critical point,意味著gradient為0→第二項(綠色)為0,因此用第三項(紅色)來判斷error surface,藉此知道critical point是哪種情況 9:16 怎麼根據Hessian來判斷呢? 代號v表示Θ-Θ' 設v為任何值 1.v的轉置矩陣*H*v > 0 → L(Θ)>L(Θ') ,因v必>0所以(Θ-Θ')>0 →代表L(Θ') 是最低點 →Local minima 2.v的轉置矩陣*H*v < 0 → L(Θ)
@alex7035
3 жыл бұрын
感谢把课程分享在KZbin, 让我们有自学的机会。老师这个课讲着得很好 比几年前版本思路更清晰。基本在前几节课把解体的思路框架说明白了。 然后后续课针对每个问题讲解
@yunzhang2553
3 жыл бұрын
昨天面试data scientist,宏毅老师这个系列是yyds(永远的神)!太宝藏了,帮助我回答了很多刁钻问题。准备再看十遍
@simonliao5020
3 жыл бұрын
教授現在的教學模式比之前更好,更容易理解了,看來教授的課程內容也是經過優化了呢。
@trunke1085
3 жыл бұрын
教授跟機器一樣都有再學習 : )
@sky22485816
3 жыл бұрын
我每年都有追老师的新番,我是觉得各有各的优缺,像我觉得BPP放在补充有点可惜呢。
@susususu-y4e
2 жыл бұрын
所以有人說 其實人就是一個大的模型 每個人就是其中的一個node
@已經大學生了拉
2 жыл бұрын
@@sky22485816 請問BPP是啥
@penghuang3373
2 жыл бұрын
@@已經大學生了拉 Backpropagation吧,反向传播算法我也觉得挺重要的,前面给了二维码让大家自主选择是否学习
@Matlab675
3 ай бұрын
真的是神,最后举例解释太绝了
@李凯-f1d
3 жыл бұрын
讲的特别好,把这两个容易模糊的概念讲清楚了
@dragontailys
Жыл бұрын
君士坦丁堡沦陷是1453, instead of 1543. 除此之外,这个比喻和视频极好!!!!
@lkdhy-rc7ep
9 ай бұрын
赞同这个类比极好,impressive!
@lkdhy-rc7ep
9 ай бұрын
当然视频也好hh
@Johnson_meta
Жыл бұрын
是1453年君士坦丁堡陷落,陆上丝绸之路被掐断,为了发现新航道,1492年发现新大陆
@張家齊-y3h
3 жыл бұрын
26:04 君士坦丁堡是1453年淪陷的
@imray_5678
8 ай бұрын
能在老师的课上听到三体真的很激动,感觉很魔幻😂
@bohanchen7678
3 жыл бұрын
君士坦丁堡被攻陷好像是1453年,无关大雅拉,老师讲的很好
@黃彥鈞-i8k
2 жыл бұрын
同問 XD
@tgfghu6366
2 жыл бұрын
精罗落泪
@spaceball2231
2 жыл бұрын
讲得太棒了 支持李教授♥
@chenwilly295
10 ай бұрын
老師不好意思 君士坦丁堡是1453淪陷的
@LaoZhao11
3 жыл бұрын
總是在遇到問題時,才會發覺自己學得不夠多 這也算是 critical point嗎?
@kkchi5873
4 ай бұрын
那个 16:00 的图没有看懂,有没有讲解一下,为什么那个是saddle point, 另外的是local minima, 这图怎么看,是看颜色还是线条的密度
@aryliu5164
3 ай бұрын
这个三体的例子举得真的妙呀!
@林人傑-t7i
6 ай бұрын
30:40的圖是不是有點問題,有一些點的Training Loss好像已經小於0了
@natarajanbalasubramanian8484
3 жыл бұрын
Can you please upload an English version too?
@李威緒-i7q
3 жыл бұрын
We need one week to translate this video to English.
@natarajanbalasubramanian8484
3 жыл бұрын
@@李威緒-i7q Definitely. Thank you for the awesome content
@chenwilliam5176
Жыл бұрын
反向傳播過程中,用最小梯度法找不到 Loss function absolutely minimum 😅
@xiaosuqi8798
2 жыл бұрын
教授你太厉害了😭我为什么没有早点订阅你的channel
@nsjjsk2788
3 жыл бұрын
讲得太好!看完好像看三体!
@xiaoranchen5363
3 жыл бұрын
老师,我想起你之前说的大乐透假设,现在可以理解了大的model不容易卡在local minima,但是为什么大的model也不太会容易卡在saddle point呢?
@cliffcanyon342
3 жыл бұрын
請問這部影片最後有結束嗎?還是當天就是這樣了呢?
@HungyiLeeNTU
3 жыл бұрын
後面還有,可以按照撥放清單的順序觀看: kzbin.info/www/bejne/j5aTYmuoeLuphdE
@bobobobobozhao
2 жыл бұрын
critical point 爲何在鞍點不會再更新?
@閔123
2 жыл бұрын
gradient=0不會再更新
@水坎火离
8 ай бұрын
15:58的图,我没有看明白,有人能回答一下吗?
@hellosunny
3 жыл бұрын
利害,把困難的內容說簡單
@maxdinckelban3206
3 жыл бұрын
君士坦丁堡沦陷是在1453年哦
@hsuchechun9113
Жыл бұрын
有個小小的問題 如果已經能夠知道Loss對參數的微分,那為什麼不直接令成0,求得參數,再帶回Loss,直接找最小值就好了呢?
@陈奎任
Жыл бұрын
you only know the gradient of one point. find gradient by point, but not find point by gradient.
@hsuchechun9113
Жыл бұрын
@@陈奎任 我想你沒有回答到我的問題 如果我不能直接微分等於0的話,那代表有兩個情況 1)微分方程不能直接求出來,但透過某種方式可以求出loss方程在某點的切線斜率 2)我可以求微分方程,但這個方程太複雜,導致我不能求解 那如果是1)的話,又是透過什麼方法求斜率的呢?
@閔123
7 ай бұрын
請問 Loss對參數的微分是0應該也不一定是最小值吧?
@TianBian-t8l
6 ай бұрын
现有的神经网络方法之所以采用梯度下降的方法更新参数,而不直接计算梯度等于0的参数,原因有以下几点: 1. 非凸优化问题:神经网络的损失函数通常是非凸的,这意味着损失函数可能有多个局部最小值和鞍点。直接求解梯度等于0的参数可能会导致我们找到一个局部最小值,而不是全局最小值。梯度下降方法通过迭代更新参数,可以在一定程度上避免陷入局部最小值。 2. 计算复杂度:对于大型神经网络,参数数量可能非常庞大,直接计算梯度等于0的参数需要解决一个复杂的非线性方程组,这在计算上是非常困难的。而梯度下降方法每次只需计算损失函数的梯度,计算复杂度相对较低。 3. 在线学习和随机梯度下降:在许多实际应用中,数据是逐渐产生的,而不是一开始就全部可用。采用梯度下降方法可以实现在线学习,即在新数据到来时逐步更新模型参数。此外,随机梯度下降(SGD)方法每次只使用一部分数据计算梯度,这样可以加速训练过程,并且具有一定的正则化效果,有助于避免过拟合。 4. 可以结合其他优化技术:梯度下降方法可以很容易地与其他优化技术(如动量、自适应学习率等)结合使用,进一步提高参数优化的效果。 综上所述,梯度下降方法在神经网络参数优化中具有较好的适用性和灵活性,因此被广泛采用。 --GPT4
@penghuang3373
2 жыл бұрын
感觉线性代数都还给老师了😭
@zhanjiechen800
3 жыл бұрын
请问2021的作业从哪里能看到。
@yangwang9688
3 жыл бұрын
Super super great slide!
@祺盘
3 жыл бұрын
我们可以拥有助教的资料吗
@angelhsia
2 жыл бұрын
所以狄奧倫娜為什麼失敗了????
@lingweimeng2461
2 жыл бұрын
因为参数突然被freeze了
@glhuang7944
3 жыл бұрын
感谢老师!
@fool7491
2 жыл бұрын
@26:23 1453??
@jorjiang1
3 жыл бұрын
这是*真实*的故事,出自三体
@Doehio
2 жыл бұрын
8:25这个公式是类似于泰勒展开的概念吧
@hansenzhang1034
2 жыл бұрын
yes,就是高维泰勒公式展开形式
@spes9850401
3 жыл бұрын
26:46 笑死XDDD
@qingqinliu1646
3 жыл бұрын
精羅落淚😭
@ruanjiayang
3 жыл бұрын
实践中有人去求CNN的Hessian矩阵和特征值吗,嘻嘻
@yls2498
3 жыл бұрын
25:00 說了
@shadowchaser19816
3 жыл бұрын
👍👍👍👍👍👍👍👍👍👍
@姚小麦
3 жыл бұрын
南京信息工程大学打开
@taoo4612
2 жыл бұрын
成都信息工程大学打卡
@erix_kkuma쿠마
3 жыл бұрын
第一
30:59
【機器學習2021】類神經網路訓練不起來怎麼辦 (二): 批次 (batch) 與動量 (momentum)
Hung-yi Lee
Рет қаралды 104 М.
30:56
【機器學習2021】類神經網路訓練不起來怎麼辦 (五): 批次標準化 (Batch Normalization) 簡介
Hung-yi Lee
Рет қаралды 93 М.
00:15
So Cute 🥰 who is better?
dednahype
Рет қаралды 19 МЛН
00:20
人是不能做到吗?#火影忍者 #家人 #佐助
火影忍者一家
Рет қаралды 20 МЛН
00:21
Chain Game Strong ⛓️
Anwar Jibawi
Рет қаралды 41 МЛН
00:30
😺🍫 خدعة الشوكولاتة المذهلة لقطتي! شاهد كيف تعلمني قطتي القيام بها! 😂🎉
PuffPaw Arabic
Рет қаралды 17 МЛН
51:23
【機器學習2021】機器學習任務攻略
Hung-yi Lee
Рет қаралды 186 М.
19:27
【機器學習2021】類神經網路訓練不起來怎麼辦 (四):損失函數 (Loss) 也可能有影響
Hung-yi Lee
Рет қаралды 89 М.
44:14
DPO V.S. RLHF 模型微调
Alice in AI-land
Рет қаралды 3 М.
55:39
【機器學習2021】卷積神經網路 (Convolutional Neural Networks, CNN)
Hung-yi Lee
Рет қаралды 286 М.
37:42
【機器學習2021】類神經網路訓練不起來怎麼辦 (三):自動調整學習速率 (Learning Rate)
Hung-yi Lee
Рет қаралды 92 М.
49:47
【機器學習2021】生成式對抗網路 (Generative Adversarial Network, GAN) (三) - 生成器效能評估與條件式生成
Hung-yi Lee
Рет қаралды 50 М.
46:20
【機器學習2021】元學習 Meta Learning (一) - 元學習跟機器學習一樣也是三個步驟
Hung-yi Lee
Рет қаралды 53 М.
28:18
【機器學習2021】自注意力機制 (Self-attention) (上)
Hung-yi Lee
Рет қаралды 242 М.
58:35
【機器學習2021】預測本頻道觀看人數 (下) - 深度學習基本概念簡介
Hung-yi Lee
Рет қаралды 230 М.
1:27:05
Transformer论文逐段精读
跟李沐学AI
Рет қаралды 429 М.
00:15
So Cute 🥰 who is better?
dednahype
Рет қаралды 19 МЛН