KZ
bin
Негізгі бет
Қазірдің өзінде танымал
Тікелей эфир
Ұнаған бейнелер
Қайтадан қараңыз
Жазылымдар
Кіру
Тіркелу
Ең жақсы KZbin
Фильм және анимация
Автокөліктер мен көлік құралдары
Музыка
Үй жануарлары мен аңдар
Спорт
Ойындар
Комедия
Ойын-сауық
Тәжірибелік нұсқаулар және стиль
Ғылым және технология
“拉格朗日对偶问题”如何直观理解?“KKT条件” “Slater条件” “凸优化”打包理解
49:00
什么是“感知机”,它的缺陷为什么让“神经网络”陷入低潮
25:48
Теперь ты понял, кто Я такой | 5 серия | Сериал "ПрАкурор"
22:48
Don't underestimate anyone
00:47
Can You Find Hulk's True Love? Real vs Fake Girlfriend Challenge | Roblox 3D
00:24
Миллионер | 3 - серия
36:09
“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”,打包理解对梯度下降法的优化
Рет қаралды 10,353
Facebook
Twitter
Жүктеу
1
Жазылу 32 М.
王木头学科学
Күн бұрын
Пікірлер: 19
@wangljangjun
Жыл бұрын
听君十分钟,胜读一本书啊。讲得非常棒。中间说得学习率调整因子,直觉上感觉也很合理。按照这种设置,可以将各特征维度映射调整成变化率大致一样的新特征。
@yeee7059
6 ай бұрын
優質好片,感謝。關於平方再開方的目的:取正整數。統計學標準差有用這個技巧。用在這裡是希望只取長度不取方向性,方向性由當前的梯度決定。
@leowang11
3 жыл бұрын
淺簡易懂的數學解釋得很清楚 希望可以出一期講解 BERT 的影片
@ethany45
Ай бұрын
adagrad的部分:在单个参数的更新过程中,η下面的调整分母其实就是个动态scaler,用平方再开方的方式来去掉方向,仅用数值表示过去梯度的一个总体规模
@swing4335
2 жыл бұрын
听完了,很棒,涵盖了基本的优化方法
@zichenwang8068
2 жыл бұрын
来自bilibili该视频下 Hot_bird 的评论:我觉得不应该解释成先平方再开方,应该解释成梯度的内积开方,学习到的梯度是真实梯度除以梯度内积的开方。adagrad本质是解决各方向导数数值量级的不一致而将梯度数值归一化
@cabbagecat9612
Жыл бұрын
讲得太好了,狂点like十下! 对于25:00左右为什么是先平方再开方的问题,我觉得adagrad的目的并不是像作者说的那样,根据历史上斜率的变化而适应学习率。这样平方再开方的话确实说不通。毕竟sqrt(x^2) = sqrt((-x)^2)。 但是如果从解决维度间数量级差异的角度来看的话就说得通了(就是每个维度各自normalize by RMS嘛)。 另外我觉得作者24:32开始展示的那段式子写法可能引起误会。W.W那里应该不是点乘,而是element-wise product。这样得出的学习率应该是一个向量(而不是标量或矩阵)。同样地,学习率乘斜率那里也应该是element-wise product。达成的效果就是斜率的每个维度各自除一个对应本维度的RMS。 没深入学过adagrad只是看了几个教程。说得不对的地方欢迎指正!
@siyuanxiang1636
2 жыл бұрын
讲的非常好👍感谢
@林家誠-o1g
2 жыл бұрын
對我幫助很大 感謝你的教學
@ztc106
3 жыл бұрын
非常了不起。這一系列的影片,其實可以寫成書「直觀理解深度學習 Deep Learning: An Intuitive Approach」,肯定大賣!
@yuhao8430
11 ай бұрын
讲的太好了!!!
@華-f8k
2 жыл бұрын
感謝你拯救了看不懂原文書的我!
@buzailunhui
Жыл бұрын
大神,太厉害了
@woodywan4010
2 жыл бұрын
講得太好了!
@gaidou1941
2 жыл бұрын
高维的物体的体积是无穷小, 所以宇宙刚开始是一个高维的点, 后来维度减少,体积膨胀, 才是现在的样子
@genlinlin887
2 жыл бұрын
哇!讲得很好!!!!
@anonymous1943
3 жыл бұрын
你那个和方根是早期提出的,后来因高纬度矩阵运算大,不实际,用diag替代了
@chiaominchang
7 ай бұрын
超棒的
@linHsinHsiang
Жыл бұрын
動量法 adam
49:00
“拉格朗日对偶问题”如何直观理解?“KKT条件” “Slater条件” “凸优化”打包理解
王木头学科学
Рет қаралды 14 М.
25:48
什么是“感知机”,它的缺陷为什么让“神经网络”陷入低潮
王木头学科学
Рет қаралды 20 М.
22:48
Теперь ты понял, кто Я такой | 5 серия | Сериал "ПрАкурор"
Я ОТ САКЕ
Рет қаралды 556 М.
00:47
Don't underestimate anyone
奇軒Tricking
Рет қаралды 21 МЛН
00:24
Can You Find Hulk's True Love? Real vs Fake Girlfriend Challenge | Roblox 3D
Minec Music Short
Рет қаралды 11 МЛН
36:09
Миллионер | 3 - серия
Million Show
Рет қаралды 2,1 МЛН
30:03
2027,人類終結 | 老高與小茉 Mr & Mrs Gao
老高與小茉 Mr & Mrs Gao
Рет қаралды 679 М.
23:33
任务109: 梯度下降法
William
Рет қаралды 2,7 М.
15:56
什么是卷积神经网络?卷积到底卷了啥?
妈咪说MommyTalk
Рет қаралды 78 М.
53:03
25. Stochastic Gradient Descent
MIT OpenCourseWare
Рет қаралды 86 М.
47:23
直观解释:为什么噪声不是过拟合的原因?又什么只要没有过拟合就一定有噪声?
王木头学科学
Рет қаралды 4,8 М.
23:20
Who's Adam and What's He Optimizing? | Deep Dive into Optimizers for Machine Learning!
Sourish Kundu
Рет қаралды 57 М.
49:48
如何理解“梯度下降法”?什么是“反向传播”?通过一个视频,一步一步全部搞明白
王木头学科学
Рет қаралды 28 М.
25:50
“神经网络”是什么?如何直观理解它的能力极限?它是如何无限逼近真理的?
王木头学科学
Рет қаралды 30 М.
35:55
贝叶斯解释“L1和L2正则化”,本质上是最大后验估计。如何深入理解贝叶斯公式?
王木头学科学
Рет қаралды 7 М.
30:17
“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”
王木头学科学
Рет қаралды 24 М.
22:48
Теперь ты понял, кто Я такой | 5 серия | Сериал "ПрАкурор"
Я ОТ САКЕ
Рет қаралды 556 М.