Лекция 5. Случайный лес. Открытый курс OpenDataScience по машинному обучению mlcourse.ai

  Рет қаралды 20,159

Yury Kashnitsky

Yury Kashnitsky

5 жыл бұрын

For lectures in English, check out this playlist bit.ly/2zY6Xe2
Это видео совпадает с bit.ly/2OSnZDE только звук улучшен (Denis Cera, Oleg Butko)
Сайт курса mlcourse.ai
О курсе на Хабре goo.gl/XH9RfL
5-ая тема на Хабре goo.gl/3hAHMr
Jupyter-notebooks в репозитории курса goo.gl/mWUndS
Демо-версия задания bit.ly/3pLJk1b

Пікірлер: 25
@Egracens
@Egracens 5 жыл бұрын
Спасибо, Юрий! Было полезно посмотреть.
@user-kv7bq7rw8x
@user-kv7bq7rw8x 4 жыл бұрын
Спасибо большое за курс!
@nonamenoname3601
@nonamenoname3601 4 жыл бұрын
10:30:15 Центральная предельная теорема
@dan506507
@dan506507 3 жыл бұрын
01:30:15 тогда
@user-xj8xu2gf6q
@user-xj8xu2gf6q 2 жыл бұрын
very cool
@feodosiyazadonskaya
@feodosiyazadonskaya 2 жыл бұрын
В порядке
@user-mt4gk1ud1g
@user-mt4gk1ud1g 3 жыл бұрын
1:19:02 - 1:25:26 перерыв
@bronislavkonnikov
@bronislavkonnikov 4 жыл бұрын
Вопрос, а какой гипер-параметр всетаки да сможет overfit randomforest, max-features? Спасибо.
@festline
@festline 4 жыл бұрын
прям такого, чтоб прям на обучающей выборке ошибку в ноль загнал - таких не знаю. В целом за это и любят случайный лес, что "случайно не переобучишься" из-за неудачных значений гиперпараметров. max features действительно влияет на качество, но не скажу, что это гиперпараметр обязательно должен привести к переобучению.
@Poverslaide
@Poverslaide 8 ай бұрын
Проясните один момент. беггинг берет бутстреп выборки на одном пространстве признаков, а случайный лес не только меняет набор объектов, но и набор признаков? (т.е 1:46:10 ) пример случайного леса. Или я что-то неправильно понял?
@festline
@festline 8 ай бұрын
нет, бэггинг берет бутстреп-выборки объектов, а случайный лес обучает каждое дерево на подмножестве и объектов и признаков
@gsom2000
@gsom2000 5 жыл бұрын
мне кажется, что правильно не "с замещением", а "с возвращением", как в комбинаторике
@festline
@festline 5 жыл бұрын
Да, согласен. "С замещением" - слишком дословно.
@kanari_himawari
@kanari_himawari Жыл бұрын
почему на 2м часу вероятность вытянуть шарик номер 5 равна 1/L, где L-количество заборов шарика. вероятность же будет равна 1/n, где n-количество шариков в мешке. и в итоге получится формула (1 - 1/n) ^ L, что-то я не понимаю((
@kanari_himawari
@kanari_himawari Жыл бұрын
прошу прощения, кажется понял. у нас L шариков, и мы L РАЗ вытаскиваем рандомный шарик. тогда все сходится. Надеюсь кому-то так же затупившим это поможет))
@festline
@festline Жыл бұрын
да, все верно
@kuaranir2440
@kuaranir2440 2 жыл бұрын
8:57 что такое бэйзлайн?
@festline
@festline 2 жыл бұрын
простое базовое решение, задающее ориентир для дальнейших более сложных моделей
@alexandrows1videos
@alexandrows1videos 5 жыл бұрын
Даже лайк поставлю, это так не патриотично искать картинку на гугле, а не в мейле)))
@XXzoroXy
@XXzoroXy 4 жыл бұрын
11 минута, лектор путается) Должно біть так: False Negative - хороший человек по ошибке назван плохим, то есть неверно негативный False Positive - плохой человек назван хорошим, то есть неверно позитивный (что для кредитов хуже)
@festline
@festline 4 жыл бұрын
Мы обговорили, что 1 - это "плохой", а 0 - "хороший", стандартное обозначение. Класс 1 - это то, что нам интересно в задаче, в данном случае интересно найти клиентов, которые не вернут деньги. Так что все верно в видео.
@alihanurumov186
@alihanurumov186 3 жыл бұрын
непонятна твоя логика. мб там другая причина или не так понял. На счет того когда миллион признаков и тогда в тысячу не попадется нужный признак. ведь если 1000 признаков и взять по 10 в каждое дерево будет то же самое. почему нельзя взять 10т, а не 1т. признаков в дерево
@festline
@festline 3 жыл бұрын
по умолчанию в каждое дерево строится ~ на корне из исходного числа признаков. sqrt(1000) =~32, sqrt(1mln) = 1000. То есть ни 10 признаков при 1000 исходных, ни 10т при 1млн исходных не рассматриваем. Последнее, кстати, и с вычислительной т.з. не очень эффективно.
@vladislavshufinskiy9777
@vladislavshufinskiy9777 3 жыл бұрын
Ради интереса посчитал вероятность невыбора признака ни в одно из деревьев решения случайного леса при количестве признаков 16 и 1 000 000, при попадании в каждое дерево 4 и 1000 признаков соответственно и построение ансамбля из 100 деревьев. Получилось следующее: Вероятность невыбора признака ни в одно дерево при n=16, ntree=4 и count_tree=100: 3.207202185381504e-13 Вероятность невыбора признака ни в одно дерево при n=1000000, ntree=1000 и count_tree=100: 0.9047921471137089 Думаю именно это и имел ввиду Юрий
@festline
@festline 3 жыл бұрын
@@vladislavshufinskiy9777 спасибо, выглядит правдоподобно
Bro be careful where you drop the ball  #learnfromkhaby  #comedy
00:19
Khaby. Lame
Рет қаралды 43 МЛН
когда достали одноклассники!
00:49
БРУНО
Рет қаралды 3,2 МЛН
Лекция 11. Random forest
50:12
Computer Science Center
Рет қаралды 19 М.
Основы китайской иероглифики / Даниил Дельцов
1:01:05
ВОЛЬНОСЛУШАТЕЛЬ
Рет қаралды 5 М.
Bro be careful where you drop the ball  #learnfromkhaby  #comedy
00:19
Khaby. Lame
Рет қаралды 43 МЛН