***ของขวัญปีใหม่ 2020 ชุดที่ 2*** สรุป regularization จากพื้นฐานถึงขั้นสูง จบใน clip เดียว

ของขวัญปีใหม่ 2020 ชุดที่ 2 สรุป regularization จากพื้นฐานถึงขั้นสูง จบใน clip เดียว

Рет қаралды 1,311

Күн бұрын

Пікірлер: 9

@piyanopnuchanat 5 жыл бұрын

ตอบคำถาที่น่าสนใจ "batchnormalization ควรปิด gamma ถ้า layer ต่อไปเป็น linear เช่น relu มั้ยครับ ผมดูคู่มือ keras.io/layers/normalization/ เค้าบอกให้ปิดอ่ะครับ" ของคุณ mawin 01ใต้ vdo นะครับ กด show more ได้เลยครับ

@mawin0158 5 жыл бұрын

batchnormalization ควรปิด gamma ถ้า layer ต่อไปเป็น linear เช่น relu มั้ยครับ

@piyanopnuchanat 5 жыл бұрын

Gamma กับ beta ควรเปิดเสมอครับ กลไก gradient descent จะเปนตัวปรับเองว่าจะใช้ค่าที่เหมาะสมเท่าไรครับ

@piyanopnuchanat 5 жыл бұрын

ลองดู ท้ายๆ clip มีการกล่าวถึงการทำ gradient descent ของ gamma beta อยู่ครับ

@mawin0158 5 жыл бұрын

@@piyanopnuchanat @Piyanop Nuchanat ผมดูคู่มือ keras.io/layers/normalization/ เค้าบอกให้ปิดอ่ะครับ

@piyanopnuchanat 5 жыл бұрын

อันนี้ป่าวครับ When the next layer is linear (also e.g. nn.relu), this can be disabled since the scaling will be done by the next layer.

@piyanopnuchanat 5 жыл бұрын

วิธีใช้ batch normalization จะเป็นประมาณนี้ครับ model.add(layers.Conv2D(64, (3, 3), use_bias=False)) model.add(layers.BatchNormalization()) model.add(layers.Activation("relu")) สังเกตุว่า จะไม่ใช้ bias เนื่องจากสามารถใช้ค่า Beta จาก batch norm แทนได้ครับ ส่วน gamma เนื่องจาก function ตัวต่อไปเป็น relu เป็น function เส้นตรง คือ max (0,x) ได้ว่า max (0, x คูณ gamma) = gamma คูณ max (0,x) นั้นคือการขยายขนาดของ output ของ layer ดูใน layer ต่อไป สมมุตว่า z = weigh x output จาก layer ก่อนหน้า, weigh จะสามารถปรับตัวโดย gradient descent เพื่อจะรับ output ที่คูณด้วย gamma หรือไม่คูณด้วย gamma ก็ได้ gamma จึงไม่มีประโยชน์ ใน relu ครับจะมี หรือไม่มีก็ได้ สำคัญที่สุดคือถ้า activation function เป็นตัวอื่นที่ไม่เป็นส้นตรงเข่น sigmoid tanh ต้องมีการ คูณ gamma เสมอ เนื่องจาก function เหล่านั้นสามารถ saturate ได้เช่น sigmoid output ค่า 1, -1 เมื่อ input มีค่ามากหรือน้อยตามลำดับ เพื่อความเรียบง่าย ผมจะไม่ปิดนะครับปล่อยให้ gradient desecent ทำงานไป แต่ถ้าจะปิด ต้องปิด gamma ในactivation function ที่เป็นเส้นตรงเท่านั้น เช่น relu, lealy relu หรือ identity เท่านั้นครับ อธิบายตามความเข้าใจ น่าจะตอบคำถามนะครับ ปล ได้หัวข้อทำ clip อีกอันครับ ทดสอบ batch norm 555 กำลังตันอยู่