字幕錯誤回報: 15:54 N to N -> end-to-end 21:09 21:11 class file -> classifier
@user-xr2fg9uh5x5 ай бұрын
感謝老師無私分享
@dashunwang62677 ай бұрын
27:47关于batch normalization 的讨论,是不是应该是计算不同sample 同一个feature 同一个dimension的mean/var instead of 不同feature ? 谢谢李老师!
@twvideo-hp4rbАй бұрын
講的很清楚,謝謝分享。
@derek1424 ай бұрын
感谢李老师的分享~
@songsong23342 жыл бұрын
感谢老师
@fanhaohaochen7614 Жыл бұрын
讲的真的很好
@user-fe6uh2px4l2 жыл бұрын
感谢老师!!课程棒极了
@leonring507 Жыл бұрын
感谢老师~
@sssapphireee Жыл бұрын
感觉老师讲课好可爱哈哈
@YLLee-zx3jm Жыл бұрын
听到停不下来😊
@ruanjiayang3 жыл бұрын
硬train一发,哈哈,就是end to end
@gordonwong2220 Жыл бұрын
谢谢李老师
@kevintsai49693 жыл бұрын
老師這麼晚還不睡 要注意身體欸
@wonglaihim48646 ай бұрын
這是statquest 以外說得最好的影片TT
@jiangjinyin2628 Жыл бұрын
默默点赞
@user-ce2br9cc3e10 ай бұрын
Good! easy understanding
@likeapple19294 ай бұрын
The paper about PowerNorm states that: We find that there are clear differences in the batch statistics of NLP data versus CV data. In particular, we observe that batch statistics for NLP data have a very large variance throughout training. Is this still TRUE for ViT? I see most implementation of ViT using layernorm?