【機器學習2021】機器學習任務攻略

  Рет қаралды 186,507

Hung-yi Lee

Hung-yi Lee

Күн бұрын

slides: speech.ee.ntu....

Пікірлер: 59
@bu1414
@bu1414 3 жыл бұрын
2:37 Framwork of ML 訓練資料拿來訓練Model 3階段 1.寫出有未知數的Function,未知數為seta 2.定義一個loss function 3.optimization,讓loss最小,得seta* 用seta*來做test data 4:40 想要做的更好? 看看訓練資料的loss 發現loss太大→兩種可能 5:41 Model Bias model太簡單→大海撈針但針不在海裡 解決:設一個更大的model,增加model的彈性,例如增加公式的未知數、參考的資料等 8:17 Optimization Issue 此門課只會使用Gradient Descent,而找不到→大海撈針,撈不到 10:16 Model Bias v.s. Optimization Issue 56層 v.s. 20層 的測試資料,20層的loss
@katocattw
@katocattw 3 жыл бұрын
感謝大大幫忙畫重點~
@ryan980053
@ryan980053 Жыл бұрын
thanks
@ankh1284
@ankh1284 Жыл бұрын
@@ryan980053 tks
@陳翰儒-d5m
@陳翰儒-d5m 3 жыл бұрын
教授真的教得太好了,非常感謝您公開這些優質課程內容
@Ahwu_AIClass
@Ahwu_AIClass 7 күн бұрын
🎯 Key points for quick navigation: 00:20 *📚 作業介紹與數據格式* - 討論多個作業的格式,均以訓練資料與測試資料為基礎,其中訓練資料包含 \(x\) 和 \(\hat{y}\),測試資料僅有 \(x\), - 詳述作業二(語音辨識)、作業三(影像辨識)、作業四(語者辨識)、作業五(機器翻譯)的基本任務與應用背景。 02:21 *🔍 訓練模型的基本步驟* - 說明訓練模型的三個步驟:設計含未知數 \(\theta\) 的函數 \(f_\theta(x)\)、定義損失函數 \(loss\)、解優化問題以找到 \(\theta^*\), - 將最佳參數 \(\theta^*\) 應用於測試資料,並將結果上傳至 Kaggle。 04:01 *🛠️ 提升作業表現的策略* - 建議檢查訓練資料的 \(loss\),確保模型對訓練資料的學習有效, - 分析 \(loss\) 過大原因,包括模型偏差(bias)或優化過程問題。 07:14 *🚀 增強模型彈性與優化能力* - 討論如何通過增加 features 或使用深度學習方法來提高模型的彈性, - 說明優化問題可能因 local minima 導致低效的解法,提出模型改進的可能方向。 09:57 *🧠 模型大小與效能的判斷* - 探討模型是否因過小導致學習能力受限,或因優化方法不佳未能找到低 \(loss\) 的解, - 舉例比較不同深度的網絡,分析其在訓練與測試資料上的表現差異。 13:08 *🔧 優化問題與模型層數關聯* - 當模型層數增加時,若訓練資料上的loss未降低,可能是優化問題,而非過擬合或模型偏差。 - 建議先使用簡單模型(如線性模型或支援向量機)測試,確認優化效果,避免深層模型未達理想效能。 15:19 *🧩 loss異常原因分析* - 若測試資料loss大但訓練資料loss小,可能是過擬合。需先檢查訓練資料loss,判斷是模型不足還是優化問題。 - 舉例解釋劣質模型在訓練資料上能達到0 loss但無法泛化的情況。 20:05 *🎢 高自由度模型的過擬合風險* - 高彈性模型在訓練資料上表現良好,但測試資料上表現不佳,原因在於模型自由度過大,導致非預期的曲線擬合。 - 測試資料與訓練資料取樣自同一分佈,但非一模一樣,模型可能生成不合理結果。 21:08 *🛠️ 解決過擬合的兩大方法* - 增加訓練資料,限制模型自由度;例如資料增強(data augmentation)模擬更多資料。 - 資料增強應根據問題特性設計,例如影像翻轉,但避免不合理操作(如上下顛倒)。 23:44 *🪜 減少模型彈性以提升表現* - 透過限制模型(如二次曲線)降低其自由度,防止過擬合。 - 根據數據特性與經驗判斷,選擇適當的模型約束範圍,提升泛化能力。 25:14 *🛠️ 模型限制的重要性與方法* - 探討限制模型的方法,減少參數或使用共享參數。 - 比較Fully-Connected Network(彈性較大)與CNN(限制較多但適合影像)。 - 引出後續課程將深入的Regularization與Dropout。 27:19 *🎛️ 適度限制模型與過度限制的影響* - 限制過大會導致Model Bias,影響模型性能。 - 使用Early Stopping、Regularization、Dropout等技巧進行限制。 - 模型彈性與複雜度的衡量將於未來課程探討。 30:00 *🔄 模型選擇與過擬合風險* - 模型複雜度增加,Training Loss降低,但Testing Loss可能暴增。 - 如何選擇平衡複雜度與性能的模型。 - 依賴Kaggle測試結果選模型的局限性。 32:07 *📊 公共與私有測試集的重要性* - 公共測試集分數可能導致模型錯誤評估。 - 公私分測設計避免隨機模型表現異常好的情況。 - 說明使用私有測試集的必要性,防止模型作弊。 37:23 *🧠 Benchmark數據集的局限性與現實差異* - 雖然機器在benchmark測試數據集上常能超越人類,但這不等於在日常生活中也能如此表現。 - 公共測試數據集與私有測試數據集的結果可能有顯著差異,過度依賴公共測試集可能誤導模型性能評估。 - 商業宣傳中過度誇大基準測試結果,需理性看待。 39:59 *🔧 模型選擇策略與Kaggle限制* - 公共測試集的分數可能影響模型選擇,但應避免過度調整以致模型過擬合。 - Kaggle引入每日上傳次數限制,避免隨機測試耗費時間。 - 最佳策略是根據Validation Set結果選擇模型,並以public Testing Set作為輔助參考。 44:20 *🔄 N-fold交叉驗證與分割方法* - 隨機分割Training Set與Validation Set可能產生不穩定結果,N-fold交叉驗證有效解決此問題。 - N-fold交叉驗證通過多次分割並平均結果選擇最優模型。 - 選定最佳模型後,再用整個Training Set訓練並測試。 46:27 *📊 觀看人數預測模型測試與挑戰* - 使用三層網路模型進行觀看人數預測,結果顯示模型的準確率不高,與實際數據有明顯差距。 - 嘗試不同層數的網路(如一層、二層、四層),結果均不理想。 - 預測結果不準確部分因受到模型設計與數據特性影響。 49:34 *📊 資料分佈不一致對訓練的影響* - 訓練資料與測試資料分佈不一致會影響模型效能,即使增加訓練資料也無法改善。 - 提到實作中的範例:如果用2020年的資料訓練模型,無法準確預測2021年的資料,因為兩者分佈不同。 - 助教針對此問題修改了訓練與測試資料的分割方式,以解決分佈差異問題。 Made with HARPA AI
@yunzhang2553
@yunzhang2553 3 жыл бұрын
真的太幸运,能看上到宏毅老师的课!我可太爱宏毅老师了!
@olivia-qu6bj
@olivia-qu6bj 2 жыл бұрын
从来没有这么清楚明白过!!感谢!分享!
@巫佳真-x8y
@巫佳真-x8y Жыл бұрын
真的太精彩了,謝謝老師分享
@nanakaka7
@nanakaka7 2 жыл бұрын
46:11 想請教老師跟大家 n-fold cv 的問題 我選好model 1的參數組合是最佳的 然後再把全部的training set用此參數組合去訓練 那我要怎麼知道什麼時候train到最好了呢?(要train到多少iteration?) 也是照model 1的iteration去停止嗎,但資料量不一樣 這樣定好像也怪怪的 希望可以幫忙解惑 感謝~~
@qiqig2585
@qiqig2585 Жыл бұрын
45:12 想請教一下教授和大家,這裡slide上的mse是指model 1,2,3 分別在三個validation set上的mse嗎?
@frankchen6160
@frankchen6160 3 жыл бұрын
2:13 一袋米要扛幾樓 一袋米要扛二樓
@andrewll
@andrewll 3 жыл бұрын
請問作業也能開放讓我們這些外面來學習的同學做嗎? 謝謝
@theoden001m
@theoden001m 2 жыл бұрын
2:34諸葛村夫原來老師也有看冷淡熊
@boykuro2298
@boykuro2298 3 жыл бұрын
4:37 開局就送魔關羽 XDDDDDD (笑倒地
@yichaozhang9295
@yichaozhang9295 3 жыл бұрын
您好,请问作业的练习资料有链接可以分享吗?
@舒新胜
@舒新胜 Жыл бұрын
overfitting原因之一:模型弹性太大。解决方法之一:增加训练资料
@proust.317
@proust.317 3 жыл бұрын
非常感谢!老师讲的太好了
@d4c98
@d4c98 2 жыл бұрын
请问在哪里看这门课的作业呀
@舒新胜
@舒新胜 Жыл бұрын
增加灵活性可以解决model bias。比如增加神经元数目、特征数量。深度。
@yangod2908
@yangod2908 2 жыл бұрын
凌晨我在油管上台大。
@Zhou-yy
@Zhou-yy 11 ай бұрын
教授太厲害了 我朋友黃家賢看了這個影片 大學發了5篇論文
@zixianzhao5832
@zixianzhao5832 6 ай бұрын
厉害了兄弟,我也想当你的朋友
@huangmel8975
@huangmel8975 Жыл бұрын
02:13 幫補字幕->洗一些"諸葛村夫"
@asdsliet
@asdsliet 3 жыл бұрын
教授您好,有個問題想請教一下 在optimization issue的部分您講到,如果較深的network比較淺的network表現差那是optimization issue,但在overfitting的部分,您說可以使用較少參數的模型來改善overfitting 所以意思是說,模型的層數只受限於optimization的能力,但每一層的neuron數過多可能會造成overfitting嗎?
@bradyhuang5606
@bradyhuang5606 3 жыл бұрын
應該是說,再深的 model 都可以比淺的 model 表現的好,至少是持平,只要optimize 的好。但如果 optimize 無法解決問題,可以先把 neuron 變少,讓他更容易收斂。如果每個model 都可以 optimized,那就不用擔心 overfitting 的問題了。
@telegin_w
@telegin_w 3 жыл бұрын
哈哈哈哈哈哈老师老二次元了
@frankchen6160
@frankchen6160 3 жыл бұрын
26:53 Less feature 是指降低模型的參數量嗎?
@babyflu3289
@babyflu3289 Жыл бұрын
feature应该是输入的数据量吧(个人理解),减少输入的数据。比如预测观看人数的时候,不用前56天,改用前28天之类的
@舒新胜
@舒新胜 Жыл бұрын
解决方法:给模型一些限制,减少神经元数目,更少的参数,更少的特征,正则化,Dropout,Early Stopping
@星空月梦无痕
@星空月梦无痕 3 ай бұрын
请问李老师可有作业的相关资料,想试着自己做做,提升能力😀
@BonnieJump
@BonnieJump 3 жыл бұрын
謝謝教授讓我抽到魔關羽XD
@ashefalijan
@ashefalijan 3 жыл бұрын
loser的霸主還是個loser 老師的比喻真是簡而有力
@小图-k5b
@小图-k5b Жыл бұрын
啊我还在想鲁蛇是什么,原来是loser啊哈哈哈哈
@杨恺-u9h
@杨恺-u9h 10 ай бұрын
感谢教授分享!
@akin657
@akin657 3 жыл бұрын
只看validation error的話也有可能會發生validation set overfitting,把validation error 和 validation test error 一致性一起考量是否更好?
@linfengdu7636
@linfengdu7636 2 жыл бұрын
test set在训练过程中应该始终不可见,理论上不应该根据test set的任何信息进行调参,就只用你觉得最好的model在test set上跑一次作为最终结果 (personal view)
@xinliu_4242
@xinliu_4242 2 жыл бұрын
老师说的n折交叉验证,是否可以解决validation set overfitting的情况呢?
@tingyulai8065
@tingyulai8065 8 ай бұрын
抱歉 我真的找不到老師的HW 請問有大大可以提供一下HW位置嗎? 我去老師的網站翻也找不到Q
@安安-j8c
@安安-j8c 9 ай бұрын
請問有作業連結嗎?
@宁朱-k9k
@宁朱-k9k 3 жыл бұрын
请问在哪里能看直播呐~
@舒新胜
@舒新胜 Жыл бұрын
解决方法2:给模型一些限制,减少神经元数目,更少的参数
@林治夏
@林治夏 Ай бұрын
作业在哪里能找到啊
@mlli3595
@mlli3595 3 жыл бұрын
请问李老师,有没有助教的作业视频?
@TheChener
@TheChener 3 жыл бұрын
从经验看 应该会有 多关注课程主页吧
@舒觉
@舒觉 11 ай бұрын
一袋米要扛几楼,一袋米要抗七楼
@海童-k4r
@海童-k4r 3 жыл бұрын
请问老师,在哪可以看到作业呀online
@GoodEnough030
@GoodEnough030 3 жыл бұрын
上面有不是?
@xinhaizou9240
@xinhaizou9240 3 жыл бұрын
@@GoodEnough030 上面那个不是slides吗 有的话 能不能求分享一下
@miku3920
@miku3920 3 жыл бұрын
聲音有點小
@pengmick2046
@pengmick2046 3 жыл бұрын
為什麼用較少的feature可以處理overfitting的問題呢?
@minhaoling3056
@minhaoling3056 2 жыл бұрын
可以这样想,用更多的feature 可以制作出更为复杂的函数,那么他会过度学习training data, 甚至一些没必要的杂讯也学了起来,这样在testing data 万一没这些杂讯就会提高错误率。从数学的角度想的话你用很多feature 制作出来的function 知只适合那个training dataset
@Matlab675
@Matlab675 4 ай бұрын
唯一真神
@yellowguagua
@yellowguagua 3 ай бұрын
4:49
@舒新胜
@舒新胜 Жыл бұрын
解决方法2:给模型一些限制
@jiadeng6152
@jiadeng6152 3 жыл бұрын
brilliant!
@futuredragonnn
@futuredragonnn Ай бұрын
@ryk-f1w
@ryk-f1w 5 ай бұрын
喜欢
@江彥廷-o8r
@江彥廷-o8r 2 жыл бұрын
謝謝教授雖然我看不懂 : (
Леон киллер и Оля Полякова 😹
00:42
Канал Смеха
Рет қаралды 4,7 МЛН
Cat mode and a glass of water #family #humor #fun
00:22
Kotiki_Z
Рет қаралды 42 МЛН
Мясо вегана? 🧐 @Whatthefshow
01:01
История одного вокалиста
Рет қаралды 7 МЛН
P2 AIGC 扩散学习教学视频
1:24:53
damoxing001
Рет қаралды 15
【機器學習2021】自注意力機制 (Self-attention) (上)
28:18
Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)
1:44:31
2024 機器學習 01 簡介
2:29:16
Chih-Yuan Yang (楊智淵)
Рет қаралды 1,1 М.
Visualizing transformers and attention | Talk for TNG Big Tech Day '24
57:45
Леон киллер и Оля Полякова 😹
00:42
Канал Смеха
Рет қаралды 4,7 МЛН