#12. L1-регуляризатор. Отличия между L1- и L2-регуляризаторами

#12. L1-регуляризатор. Отличия между L1- и L2-регуляризаторами | Машинное обучение

Рет қаралды 9,293

Күн бұрын

Практический курс по ML на Stepik: stepik.org/cou...
Выделение признаков с помощью L1-регуляризатора. Отличие в работе между L1 и L2-регуляризаторами. Примеры работы.
Инфо-сайт: proproprogs.ru/ml
Телеграм-канал: t.me/machine_l...
machine_learning_12_L1.py: github.com/sel...

Пікірлер: 26

@vasiliygorelov8037 2 жыл бұрын

качественная информация. Спасибо! Мужик с кунг-фу пандой >> ШАД.

@geoman666 9 ай бұрын

мегасогласен

@ibragim_on Жыл бұрын

Шикарно!

@ibragim_on Жыл бұрын

Браво🎉🎉🎉

@g.s1849 9 ай бұрын

Правильно ли я понимаю, что говоря о том , что у нас получается более сложная форма поверхности оптимизируемой функции в пространстве признаков, с новой точкой минимума , находящейся на пересечении кривых уровня этих двух составляющих, мы говорим это с геометрической точки зрения например в 3ехмерном пространстве если посмотреть с верху, но фактически они могут и не пересечься ведь L = L_orig + lyambda * R(omega) => ∇L_orig(omega*) = - lyambda * ∇R(omega*), но это не обязательно означает, что они пересекаются . С этим вроде все понятно, как и то почему некоторые коэффициенты обнуляются, но почему обнуляются именно те, которые линейно зависимые с чем это связано, почему вероятность того, что именно они обнуляться, а не другие, выше?

@g.s1849 9 ай бұрын

Кажется, я понял. Дело в том, что при линейной зависимости наш ромб можно сказать вытягивается в длину или ширину, что ведет к тому, что вероятность "встречи" угла с меньшим углом выше. Следовательно, в принципе можно также объяснить, почему, например, в нашем случае, если мы изначально расширим пространство признаков таким образом: \[ x_i = [w_i, h_i, 10w_i, 10h_i, 5h_i + 5w_i] \] наш алгоритм с большей вероятностью выберет именно \(10w_i\) и \(10h_i\), а другие признаки в точке минимума обнулит.

@ИванЕвдокимов-л6ь Жыл бұрын

Наконец-то понял про значение картинок с ромбом и окружности регуляризаторов в конце ролика) Все понятно кроме 2ух формул на 3:45-3:59. Непонятно, что за квадратные скобки у выражения a(x)!=y и почему там знак '!=' вместо знака '='? Насколько я понимаю, формула L(w, x, y) записывается по аналогии с сигмоидальной функцией 1/[1+exp(-w^T*xi)], но тут зачем-то ещё добавляется yi под экспоненту, убирается знак минус и в числителе дроби добавляется двойка.

@trollface4783 11 ай бұрын

эти скобки - нотация Азерсона, было в лекция до этого ролика.

@СергейЮров-б6е 2 жыл бұрын

Сергей, вы как будто куда-то пропали. У вас все хорошо? Без обновлений вашего канала как-то не здорово…

@selfedu_rus 2 жыл бұрын

Спасибо, все нормально. Немного отдыхал после курса на Stepik по ООП + текущая работа. Скоро будут новые видео ))

@PhyzmatClass 6 ай бұрын

Мне вот такое добавление регуляризаторов напоминает нахождение условного экстремума методом неопределенных множителей. Есть здесь связь?

@romanbykov5922 2 жыл бұрын

Сергей, спасибо. Но поясните, пож-та: Это видео уже было в курсе (пару месяцев назад), потом оно вышло вчера. И вот выходит сегодня. Это какое-то обновление?

@selfedu_rus 2 жыл бұрын

да, незначительная ошибка была, поправил, в целом, все одно и то же!

@PhyzmatClass 6 ай бұрын

3:44 почему в функционале качества неравенство??

@pinggg98 Жыл бұрын

10:40 А есть ли вероятность того, что L2 обнулит признак? Выглядит так, будто если омега со шляпкой лежит на ординате, то тогда L2 тоже может сработать так, как это делает L1, разве нет?

@selfedu_rus Жыл бұрын

может, но с меньшей вероятностью

@pinggg98 Жыл бұрын

@@selfedu_rus благодарю за ответ!

@mapmejiad4425 2 жыл бұрын

Почему на 13:29 первая величина больше второй, ведь вычитаемое 2*Δ*1 больше, чем 2*Δ*ε (при 0 < ε < 1)? Или может я чего-то не доглядел :/

@selfedu_rus 2 жыл бұрын

да, все верно у вас, я оговорился, наоборот, первое меньше второго, весь остальной вывод верен

@Name-ko3qb 2 жыл бұрын

Так хочется познать ИИ, но мозги не дотягивают до математики, обидно

@ChelSammi9837 Жыл бұрын

у меня тоже сложно с математикой, но тут немного понимаю ее. но начнете практику и все получится .

@СарматПересветов 7 ай бұрын

да, забавно, но у меня программа выдает что без L1-регуляризотара, алгоритм обучается нормально, причем Q получается даже меньше (лучше), нежели с использованием L1-регуляризотара. Вот как то так

@dmitrybaltin6612 Жыл бұрын

Спасибо большое за лекцию. Очень интересно и понятно. Однако, есть вопрос. Скажите, почему вы добавляете слагаемое в производную функции потерь, но не добавляете его в функцию потерь? Казалось бы должно быть что-то типа L1 = 1.0 def loss(w, x, y): M = np.dot(w, x) * y return 2 / (1 + np.exp(M)) + np.abs(w).sum() * L1

@selfedu_rus Жыл бұрын

В функции она тоже должна быть, просто для расчета показателя качества я решил регуляризатор не учитывать. А в производной присутствует, чтобы градиентный алгоритм учитывал этот регуляризатор.

@dmitrybaltin6612 Жыл бұрын

@@selfedu_rus Понятно. Спасибо за ответ. Кстати, пользуясь случаем. А не могли бы вы сделать видео, или даже несколько, о том, как устроена Stable Diffusion. Контента много разного в сети, но как правило, все очень по-дилетантски и косноязычно. Хотелось бы увидеть действительно качественный материал

@selfedu_rus Жыл бұрын

@@dmitrybaltin6612 да, интересная вещь, надо самому еще почитать ))