真的讲的太好了,非常清楚。 但是我还是有个两个疑问 Question1:为什么我们偏好值小的w?或者说到底为什么要约束w在一个较小的区域内呢? 视频中确实讲到了,但是我还是没全说服,可以再展开说说么?或者什么资料,连接有讲这个? Question2:视频中讲的是说:如果w的值比较大的话,会带来比较大的噪音,在测试集中会带来比较大的偏差。如果这个结论是正确的话,为什么呢?为什么大的w会带来大的噪音和偏差?这个似乎难以理解。如果是线性的,那w增大,必然wx也会增大。可是一般还有非显性的激活函数,并不会导致w越大,噪音和偏差越大。这一点没理解。希望可以再帮我解释下。 Thank you for your amazing work.
Large weights tend to cause sharp transitions in the node functions and thus large changes in output for small changes in the inputs. -Page 269 Neural Smithing: Supervised Learning in Feedforward Artificial Neural Networks, 1999.
如果从几何图形的角度来理解红色的L(w, r) function 和 绿色的L(w, r) function的话,似乎这两者并不等价。 1:假设针对green L找到了一组最优的w参数 2:此时green L的几何图像中的最优的那条等高线记为high-1。 3:因为最优的w找到了,所以red L function的几何图像也确定了,从而在red L function的那个等高线记为high-2。 4:red L function = green L function + r*C 5:从而必然可以知道high-2 > high-1 意思就是最优的w对应的两个function的等高线不一样。进一步说,red L function很可能有另外一个更优的w使得high-1=high-2 所以我觉得通过green L function的最优w,并不一定是red function的最优w