***ของขวัญปีใหม่ 2020 ชุดที่ 2*** สรุป regularization จากพื้นฐานถึงขั้นสูง จบใน clip เดียว

  Рет қаралды 1,311

Piyanop Nuchanat

Piyanop Nuchanat

Күн бұрын

Пікірлер: 9
@piyanopnuchanat
@piyanopnuchanat 5 жыл бұрын
ตอบคำถาที่น่าสนใจ "batchnormalization ควรปิด gamma ถ้า layer ต่อไปเป็น linear เช่น relu มั้ยครับ ผมดูคู่มือ keras.io/layers/normalization/ เค้าบอกให้ปิดอ่ะครับ" ของคุณ mawin 01ใต้ vdo นะครับ กด show more ได้เลยครับ
@mawin0158
@mawin0158 5 жыл бұрын
batchnormalization ควรปิด gamma ถ้า layer ต่อไปเป็น linear เช่น relu มั้ยครับ
@piyanopnuchanat
@piyanopnuchanat 5 жыл бұрын
Gamma กับ beta ควรเปิดเสมอครับ กลไก gradient descent จะเปนตัวปรับเองว่าจะใช้ค่าที่เหมาะสมเท่าไรครับ
@piyanopnuchanat
@piyanopnuchanat 5 жыл бұрын
ลองดู ท้ายๆ clip มีการกล่าวถึงการทำ gradient descent ของ gamma beta อยู่ครับ
@mawin0158
@mawin0158 5 жыл бұрын
@@piyanopnuchanat @Piyanop Nuchanat ผมดูคู่มือ keras.io/layers/normalization/ เค้าบอกให้ปิดอ่ะครับ
@piyanopnuchanat
@piyanopnuchanat 5 жыл бұрын
อันนี้ป่าวครับ When the next layer is linear (also e.g. nn.relu), this can be disabled since the scaling will be done by the next layer.
@piyanopnuchanat
@piyanopnuchanat 5 жыл бұрын
วิธีใช้ batch normalization จะเป็นประมาณนี้ครับ model.add(layers.Conv2D(64, (3, 3), use_bias=False)) model.add(layers.BatchNormalization()) model.add(layers.Activation("relu")) สังเกตุว่า จะไม่ใช้ bias เนื่องจากสามารถใช้ค่า Beta จาก batch norm แทนได้ครับ ส่วน gamma เนื่องจาก function ตัวต่อไปเป็น relu เป็น function เส้นตรง คือ max (0,x) ได้ว่า max (0, x คูณ gamma) = gamma คูณ max (0,x) นั้นคือการขยายขนาดของ output ของ layer ดูใน layer ต่อไป สมมุตว่า z = weigh x output จาก layer ก่อนหน้า, weigh จะสามารถปรับตัวโดย gradient descent เพื่อจะรับ output ที่คูณด้วย gamma หรือไม่คูณด้วย gamma ก็ได้ gamma จึงไม่มีประโยชน์ ใน relu ครับจะมี หรือไม่มีก็ได้ สำคัญที่สุดคือถ้า activation function เป็นตัวอื่นที่ไม่เป็นส้นตรงเข่น sigmoid tanh ต้องมีการ คูณ gamma เสมอ เนื่องจาก function เหล่านั้นสามารถ saturate ได้เช่น sigmoid output ค่า 1, -1 เมื่อ input มีค่ามากหรือน้อยตามลำดับ เพื่อความเรียบง่าย ผมจะไม่ปิดนะครับปล่อยให้ gradient desecent ทำงานไป แต่ถ้าจะปิด ต้องปิด gamma ในactivation function ที่เป็นเส้นตรงเท่านั้น เช่น relu, lealy relu หรือ identity เท่านั้นครับ อธิบายตามความเข้าใจ น่าจะตอบคำถามนะครับ ปล ได้หัวข้อทำ clip อีกอันครับ ทดสอบ batch norm 555 กำลังตันอยู่
@diy9045
@diy9045 5 жыл бұрын
ขอบคุณจากใจครับที่แบ่่งปันเรื่องราวดีๆให้กับคนไทย
@arisgacha296
@arisgacha296 5 жыл бұрын
ขอบคุณครับ สำหรับของขวัญวันปีใหม่ ที่ไม่มีใครสามารถขโมยไปได้ครับ. ด้วยจิตคาราวะ
MIT Introduction to Deep Learning | 6.S191
1:09:58
Alexander Amini
Рет қаралды 783 М.
1% vs 100% #beatbox #tiktok
01:10
BeatboxJCOP
Рет қаралды 67 МЛН
人是不能做到吗?#火影忍者 #家人  #佐助
00:20
火影忍者一家
Рет қаралды 20 МЛН
The Best Band 😅 #toshleh #viralshort
00:11
Toshleh
Рет қаралды 22 МЛН
Regularization in a Neural Network | Dealing with overfitting
11:40
1% vs 100% #beatbox #tiktok
01:10
BeatboxJCOP
Рет қаралды 67 МЛН