“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”,打包理解对梯度下降法的优化

  Рет қаралды 10,353

王木头学科学

王木头学科学

Күн бұрын

Пікірлер: 19
@wangljangjun
@wangljangjun Жыл бұрын
听君十分钟,胜读一本书啊。讲得非常棒。中间说得学习率调整因子,直觉上感觉也很合理。按照这种设置,可以将各特征维度映射调整成变化率大致一样的新特征。
@yeee7059
@yeee7059 6 ай бұрын
優質好片,感謝。關於平方再開方的目的:取正整數。統計學標準差有用這個技巧。用在這裡是希望只取長度不取方向性,方向性由當前的梯度決定。
@leowang11
@leowang11 3 жыл бұрын
淺簡易懂的數學解釋得很清楚 希望可以出一期講解 BERT 的影片
@ethany45
@ethany45 Ай бұрын
adagrad的部分:在单个参数的更新过程中,η下面的调整分母其实就是个动态scaler,用平方再开方的方式来去掉方向,仅用数值表示过去梯度的一个总体规模
@swing4335
@swing4335 2 жыл бұрын
听完了,很棒,涵盖了基本的优化方法
@zichenwang8068
@zichenwang8068 2 жыл бұрын
来自bilibili该视频下 Hot_bird 的评论:我觉得不应该解释成先平方再开方,应该解释成梯度的内积开方,学习到的梯度是真实梯度除以梯度内积的开方。adagrad本质是解决各方向导数数值量级的不一致而将梯度数值归一化
@cabbagecat9612
@cabbagecat9612 Жыл бұрын
讲得太好了,狂点like十下! 对于25:00左右为什么是先平方再开方的问题,我觉得adagrad的目的并不是像作者说的那样,根据历史上斜率的变化而适应学习率。这样平方再开方的话确实说不通。毕竟sqrt(x^2) = sqrt((-x)^2)。 但是如果从解决维度间数量级差异的角度来看的话就说得通了(就是每个维度各自normalize by RMS嘛)。 另外我觉得作者24:32开始展示的那段式子写法可能引起误会。W.W那里应该不是点乘,而是element-wise product。这样得出的学习率应该是一个向量(而不是标量或矩阵)。同样地,学习率乘斜率那里也应该是element-wise product。达成的效果就是斜率的每个维度各自除一个对应本维度的RMS。 没深入学过adagrad只是看了几个教程。说得不对的地方欢迎指正!
@siyuanxiang1636
@siyuanxiang1636 2 жыл бұрын
讲的非常好👍感谢
@林家誠-o1g
@林家誠-o1g 2 жыл бұрын
對我幫助很大 感謝你的教學
@ztc106
@ztc106 3 жыл бұрын
非常了不起。這一系列的影片,其實可以寫成書「直觀理解深度學習 Deep Learning: An Intuitive Approach」,肯定大賣!
@yuhao8430
@yuhao8430 11 ай бұрын
讲的太好了!!!
@華-f8k
@華-f8k 2 жыл бұрын
感謝你拯救了看不懂原文書的我!
@buzailunhui
@buzailunhui Жыл бұрын
大神,太厉害了
@woodywan4010
@woodywan4010 2 жыл бұрын
講得太好了!
@gaidou1941
@gaidou1941 2 жыл бұрын
高维的物体的体积是无穷小, 所以宇宙刚开始是一个高维的点, 后来维度减少,体积膨胀, 才是现在的样子
@genlinlin887
@genlinlin887 2 жыл бұрын
哇!讲得很好!!!!
@anonymous1943
@anonymous1943 3 жыл бұрын
你那个和方根是早期提出的,后来因高纬度矩阵运算大,不实际,用diag替代了
@chiaominchang
@chiaominchang 7 ай бұрын
超棒的
@linHsinHsiang
@linHsinHsiang Жыл бұрын
動量法 adam
Don't underestimate anyone
00:47
奇軒Tricking
Рет қаралды 21 МЛН
Can You Find Hulk's True Love? Real vs Fake Girlfriend Challenge | Roblox 3D
00:24
Миллионер | 3 - серия
36:09
Million Show
Рет қаралды 2,1 МЛН
2027,人類終結 | 老高與小茉 Mr & Mrs Gao
30:03
老高與小茉 Mr & Mrs Gao
Рет қаралды 679 М.
任务109: 梯度下降法
23:33
William
Рет қаралды 2,7 М.
什么是卷积神经网络?卷积到底卷了啥?
15:56
妈咪说MommyTalk
Рет қаралды 78 М.
25. Stochastic Gradient Descent
53:03
MIT OpenCourseWare
Рет қаралды 86 М.