Что такое градиентный бустинг? | Григорий Будорагин | karpov.courses

  Рет қаралды 13,499

karpov.courses

karpov.courses

Күн бұрын

Учитесь ML с нами:
Симулятор ML: bit.ly/3Lhk0wi
Курс Start ML: bit.ly/3ZA8vEL
Курс Hard ML: bit.ly/3J48EsV
Градиентный бустинг - ключевой алгоритм машинного обучения для табличных данных. Его используют в поиске, подборе цен и в противодействия мошенничеству.
Сегодня вместе с аналитиком-разработчиком Яндекса, Григорием Будорагиным, мы разберёмся, как алгоритм обучается на данных и прогнозирует числовые величины на примере цен домов.

Пікірлер: 41
@NiksFok
@NiksFok Жыл бұрын
Я не очень понял почему 230 футов меньше 200.
@TheMrGrench
@TheMrGrench Жыл бұрын
Действительно)
@bdrgn
@bdrgn Жыл бұрын
я извиняюсь, на слайде 'да' и 'нет' перепутаны местами на первом разделении
@АндрейВоробьев-ь7ц
@АндрейВоробьев-ь7ц Жыл бұрын
@@bdrgn думаю дело не в словах а в знаке условия
@spyphyfarnsworth6050
@spyphyfarnsworth6050 Жыл бұрын
про ГРАДИЕНТНЫЙ бустинг вообще ни слова
@angryworm80
@angryworm80 Жыл бұрын
Эммм… 1-е: насколько я помню дерево регрессии на обучении все таки формально не MSE на расщеплении считает, а дисперсию 🫤✌🏻 … и соответственно старается минимизировать суммарную дисперсию расщепления. Хотя с точки зрения формул все одинаково. 2-е. На N+1 шаге прогнозируется НЕ величина ошибки на N шаге, а значение градиента функции ошибки при имеющемся значении на N шаге. Ибо именно градиентом потом делается Sn+1 = Sn - @ * grad
@no-user-found
@no-user-found 8 күн бұрын
переживал, что моего понимания математики не достаточно для вкатывания в ML, тут разработчик яндекса MSE от дисперсии не отличает... шопроисходит вообще?
@user-zj2yx1xy8b
@user-zj2yx1xy8b Жыл бұрын
Рисовка класс, формат понравился, в идеале делать ролики такого же формата, но с более глубоким погружением в ML (ну это так, хотелка), спасибо авторам!
@bdrgn
@bdrgn Жыл бұрын
Спасибо! А где глубины не хватило в этой теме?
@user-zj2yx1xy8b
@user-zj2yx1xy8b Жыл бұрын
@@bdrgn объяснение показалось верхнеуровневым, что для такой длительности видео даже хорошо, но если бы лекции были подлиннее и «поглубже» с формулами и тд, было бы просто прекрасно! Обычно такая тема как бустинг и деревья объясняется час+
@bdrgn
@bdrgn Жыл бұрын
@@user-zj2yx1xy8b сегодня вышло моё длинное видео про градиентный бустинг. там без формул, но зато сразу с кодом. kzbin.info/www/bejne/gGaZqaOdlsmasLs
@hopelesssuprem1867
@hopelesssuprem1867 Жыл бұрын
У меня вопрос: преподаватели на курсах умеют реализовывать с нуля такие алгоритмы без sklearn? Я это к чему...перед бустингом надо было бы рассказать про ансамбли и случайные леса, и роль бутстрапа в этом, потом про дерево классификации и регрессии CART, про бинарное дерево, работающее через рекурсию, потом про то, что в случае классификации наилучший вопрос берется по gini index, а в регрессии по mse, а потом это все забилдить с нуля. Только тогда у студентов будет полное понимание бустингов. Советую всем проделать эти шаги с нуля и полностью всё изучить т.к. бустинг - это серебряная пуля в мире ML. Но за видос спасибо, задумка харошая, жаль что раскрыта не до конца.
@bdrgn
@bdrgn Жыл бұрын
Вы прямо в яблочко попали про имплементацию алгоритмов без sklearn! Тут как раз вышло моё видео, где пишу с нуля градиентный бустинг на Python: kzbin.info/www/bejne/gGaZqaOdlsmasLs
@hopelesssuprem1867
@hopelesssuprem1867 Жыл бұрын
@@bdrgnого, вот это вы круто сделали, сейчас буду смотреть ибо я такие штуки очень люблю). На мой взгяд, реализация алгоритмов с нуля - это самое важное в обучении ml. Респект👍
@musl1618
@musl1618 2 ай бұрын
Круто!!!! Очень даже понятно👍👍👍
@Irades
@Irades 3 ай бұрын
Спасибо, хорошее объяснение
@kuban23_96
@kuban23_96 Жыл бұрын
«Алгоритм обучает прогнозировать ошибку предыдущего дерева», а как? Тема в видео не раскрыта!!!
@user-db2th5em3v
@user-db2th5em3v Жыл бұрын
У меня вопрос теоретического плана: я ем капусту, сосед ест мясо, в среднем, мы едим голубцы. Почему алгоритмы машинного обучения используют среднее значение, а не медиану?
@bdrgn
@bdrgn Жыл бұрын
Если распределение нормальное, то среднее и медиана попадают в одну точку. В остальных случаях ошибка ниже при прогнозировании с помощью среднего, потому что оно лучше отображает тенденцию распределения.
@user-db2th5em3v
@user-db2th5em3v Жыл бұрын
А нормализация распределения разве не работает только (в большинстве реальных случаев) при большом числе наблюдений? Насколько уместно ожидание нормальности от распределения в реальной жизни?
@pupuneux
@pupuneux Жыл бұрын
Так и от капусты с мясом медианой будут голубцы 🙃
@cryptoworkdonkey
@cryptoworkdonkey Жыл бұрын
@@user-db2th5em3v условно если применил log/Бокса-Кокса к цене, а на выходе делаешь exp от log цены - держи в уме Jensen inequality и выпуклость.
@cryptoworkdonkey
@cryptoworkdonkey Жыл бұрын
@@pupuneux , будут "деревенские" голубцы а не "купеческие".
@no-user-found
@no-user-found 8 күн бұрын
Эмм, а с каких пор MSE использует разницу между средним значением и значением таргетов? Дерево выбирает предикаты уменьшая дисперсию, а не MSE. Зашёл посмотреть про градиентный бустинг, а тут такое...
@user-uq4ul9yh6y
@user-uq4ul9yh6y 5 ай бұрын
Формула MSE не правильная. Сказано, что это предсказание - среднее, но на самом деле это предсказание - истинное
@unknownhero6187
@unknownhero6187 Жыл бұрын
От чего происходит название градиентный бустинг и как оно связанно с деревьями?
@bdrgn
@bdrgn Жыл бұрын
Градиентный бустинг может использовать в качастве слабого алгоритма не только деревья, но и другие алгоритмы. Деревья просто самый популярный из них, поэтому именно они используются в видео. Как правило сегодня когда говорят бустинг подразумевают ансамбли деревьев. Бустинг называется градиентным, потому что при обучении каждого нового алгоритма используется ошибка предыдущих. Каждый новый обученный алгоритм это «шаг» градиентного спуска в направлении снижения ошибки.
@thedotareview9748
@thedotareview9748 Жыл бұрын
Можешь для иллюстрации загуглить 'линейный градиент', там будем картинка с постепенным изменением цвета/цветов. Таким же образом меняются деревья при помощи градиентного бустинга, постепенно от одного состояния к другому
@matthewgiovannini2360
@matthewgiovannini2360 9 ай бұрын
У меня вопрос... Почему он вместо MSE считает дисперсию? Он точно знает что такое MSE?
@alekseistepanov6426
@alekseistepanov6426 7 ай бұрын
Из цены нужно вычитать не среднее, а предсказанную моделью цену
@valeriym.9478
@valeriym.9478 Жыл бұрын
Цена дома в 230 кв.футов должна быть $200k
@ruslanchernyak1135
@ruslanchernyak1135 Жыл бұрын
откуда берутся 220 и 80 я не понимаю
@waitwhat9669
@waitwhat9669 Жыл бұрын
И все же я не понял, как он выбрал задать первый вопрос к площади дома, а не количестве спален, допустим
@karpovcourses
@karpovcourses Жыл бұрын
Модель проверила оба варианта, и выяснила, что если выбрать площадь дома для первого вопроса, получится снизить ошибку в данных наибольшим образом.
@ilyaisko
@ilyaisko Жыл бұрын
Кажется еще MSE должен быть в 10^6 раз больше
@АндрейДостоевский-к5в
@АндрейДостоевский-к5в 3 ай бұрын
Ни слова про сам градиентный бустинг. Опять воспитывают жертв онлайн курсов, которые не понимают, как работает алгоритм и как им управлять. Сколько уже собеседовал подобных жертв - всегда одно и то же: в голове только шаблонные фразы без понимания, что за ними стоит. Чуть-чуть глубже начнешь копать и понимаешь, что в голове то каша...
@user-en8fd9ut5q
@user-en8fd9ut5q Жыл бұрын
Наконец то понятно и доходчиво. Спасибо!
@user-kq4hq6dl6w
@user-kq4hq6dl6w Жыл бұрын
Не совсем понятно про бустинг. Про деревья ещё более менее понял, но я не ради этого сюда зашёл на видео. Тема градиентного бустинга не раскрыта полностью. Был такой физик Фейнманн, его называли великим объяснятелем: он мог объяснить суть Вселенной даже ребёнку. Вам нужно стремиться к нему же: расскажите про бустинг на бананах и яблоках - слава придёт к вам семимильными шагами! Пока что ставлю диз. Тема не раскрыта.
@dangerenok
@dangerenok Жыл бұрын
Что то я не понял. В итоге придем к дереву которое должно давать среднее значение цены. И зачем такое дерево? Я наверно что то не понял
Angry Sigma Dog 🤣🤣 Aayush #momson #memes #funny #comedy
00:16
ASquare Crew
Рет қаралды 49 МЛН
Alat yang Membersihkan Kaki dalam Hitungan Detik 🦶🫧
00:24
Poly Holy Yow Indonesia
Рет қаралды 11 МЛН
An Unknown Ending💪
00:49
ISSEI / いっせい
Рет қаралды 14 МЛН
Зачем нужны даталейки (Data Lake)
35:59
AWS на русском
Рет қаралды 4,5 М.
Разбор реальной data science задачи
38:51
Alexander Ershov
Рет қаралды 195 М.
Градиентный бустинг с нуля на Python / Data Science
15:24
Анастасия Никулина
Рет қаралды 8 М.
Angry Sigma Dog 🤣🤣 Aayush #momson #memes #funny #comedy
00:16
ASquare Crew
Рет қаралды 49 МЛН