Лекция 5. Случайный лес. Открытый курс OpenDataScience по машинному обучению mlcourse.ai

Рет қаралды 20,159

5 жыл бұрын

For lectures in English, check out this playlist bit.ly/2zY6Xe2
Это видео совпадает с bit.ly/2OSnZDE только звук улучшен (Denis Cera, Oleg Butko)
Сайт курса mlcourse.ai
О курсе на Хабре goo.gl/XH9RfL
5-ая тема на Хабре goo.gl/3hAHMr
Jupyter-notebooks в репозитории курса goo.gl/mWUndS
Демо-версия задания bit.ly/3pLJk1b

Пікірлер: 25

@Egracens 5 жыл бұрын

Спасибо, Юрий! Было полезно посмотреть.

@user-kv7bq7rw8x 4 жыл бұрын

Спасибо большое за курс!

@nonamenoname3601 4 жыл бұрын

10:30:15 Центральная предельная теорема

@dan506507 3 жыл бұрын

01:30:15 тогда

@user-xj8xu2gf6q 2 жыл бұрын

very cool

@feodosiyazadonskaya 2 жыл бұрын

В порядке

@user-mt4gk1ud1g 3 жыл бұрын

1:19:02 - 1:25:26 перерыв

@bronislavkonnikov 4 жыл бұрын

Вопрос, а какой гипер-параметр всетаки да сможет overfit randomforest, max-features? Спасибо.

@festline 4 жыл бұрын

прям такого, чтоб прям на обучающей выборке ошибку в ноль загнал - таких не знаю. В целом за это и любят случайный лес, что "случайно не переобучишься" из-за неудачных значений гиперпараметров. max features действительно влияет на качество, но не скажу, что это гиперпараметр обязательно должен привести к переобучению.

@Poverslaide 8 ай бұрын

Проясните один момент. беггинг берет бутстреп выборки на одном пространстве признаков, а случайный лес не только меняет набор объектов, но и набор признаков? (т.е 1:46:10 ) пример случайного леса. Или я что-то неправильно понял?

@festline 8 ай бұрын

нет, бэггинг берет бутстреп-выборки объектов, а случайный лес обучает каждое дерево на подмножестве и объектов и признаков

@gsom2000 5 жыл бұрын

мне кажется, что правильно не "с замещением", а "с возвращением", как в комбинаторике

@festline 5 жыл бұрын

Да, согласен. "С замещением" - слишком дословно.

@kanari_himawari Жыл бұрын

почему на 2м часу вероятность вытянуть шарик номер 5 равна 1/L, где L-количество заборов шарика. вероятность же будет равна 1/n, где n-количество шариков в мешке. и в итоге получится формула (1 - 1/n) ^ L, что-то я не понимаю((

@kanari_himawari Жыл бұрын

прошу прощения, кажется понял. у нас L шариков, и мы L РАЗ вытаскиваем рандомный шарик. тогда все сходится. Надеюсь кому-то так же затупившим это поможет))

@festline Жыл бұрын

да, все верно

@kuaranir2440 2 жыл бұрын

8:57 что такое бэйзлайн?

@festline 2 жыл бұрын

простое базовое решение, задающее ориентир для дальнейших более сложных моделей

@alexandrows1videos 5 жыл бұрын

Даже лайк поставлю, это так не патриотично искать картинку на гугле, а не в мейле)))

@XXzoroXy 4 жыл бұрын

11 минута, лектор путается) Должно біть так: False Negative - хороший человек по ошибке назван плохим, то есть неверно негативный False Positive - плохой человек назван хорошим, то есть неверно позитивный (что для кредитов хуже)

@festline 4 жыл бұрын

Мы обговорили, что 1 - это "плохой", а 0 - "хороший", стандартное обозначение. Класс 1 - это то, что нам интересно в задаче, в данном случае интересно найти клиентов, которые не вернут деньги. Так что все верно в видео.

@alihanurumov186 3 жыл бұрын

непонятна твоя логика. мб там другая причина или не так понял. На счет того когда миллион признаков и тогда в тысячу не попадется нужный признак. ведь если 1000 признаков и взять по 10 в каждое дерево будет то же самое. почему нельзя взять 10т, а не 1т. признаков в дерево

@festline 3 жыл бұрын

по умолчанию в каждое дерево строится ~ на корне из исходного числа признаков. sqrt(1000) =~32, sqrt(1mln) = 1000. То есть ни 10 признаков при 1000 исходных, ни 10т при 1млн исходных не рассматриваем. Последнее, кстати, и с вычислительной т.з. не очень эффективно.

@vladislavshufinskiy9777 3 жыл бұрын

Ради интереса посчитал вероятность невыбора признака ни в одно из деревьев решения случайного леса при количестве признаков 16 и 1 000 000, при попадании в каждое дерево 4 и 1000 признаков соответственно и построение ансамбля из 100 деревьев. Получилось следующее: Вероятность невыбора признака ни в одно дерево при n=16, ntree=4 и count_tree=100: 3.207202185381504e-13 Вероятность невыбора признака ни в одно дерево при n=1000000, ntree=1000 и count_tree=100: 0.9047921471137089 Думаю именно это и имел ввиду Юрий

@festline 3 жыл бұрын

@@vladislavshufinskiy9777 спасибо, выглядит правдоподобно