Как обучается дерево решений для регрессии. Decision Tree Regressor.

Рет қаралды 18,267

Күн бұрын

Деревья решений позволяют построить предсказания для задач на табличных данных. В этом видео рассмотрим, как формируется дерево решений для задачи регрессии - задача машинного обучения, где предсказывается вещественная величина.
Курсы на платформе Stepik:
1. Библиотеки Python для Data Science stepik.org/a/129105
2. Введение в нейронные сети (Keras/Tensorflow) stepik.org/a/127274
Презентация из видео:
docs.google.com/presentation/...
Ноутбук из видео:
colab.research.google.com/dri...
0:00 Знакомство с данными
0:48 Обучение дерева решений из sklearn'a
1:11 Общее представление дерева решений
1:56 В какую игру играет дерево
2:45 Визуализация обученного дерева
4:14 Средне-квадратичная ошибка
5:37 Первый вопрос дерева
6:21 Корневой узел
7:30 Левая подвыборка
8:22 Правая подвыборка
9:16 Прирост информации
10:44 Второй вопрос от дерева
11:04 Корневой узел
11:45 Левая подвыборка
12:14 Правая подвыборка
12:44 Прирост информации
13:37 Какой вопрос лучше
14:20 Обобщение выращивания дерева
14:57 Процесс построения дерева
18:50 Резюме

Пікірлер: 57

@TheRudolfSchnaps Жыл бұрын

Девочка, какая радость была тебя найти. Спасибо большое. Твоя лекция в виде блокнота шедевральна!

@theodoreneighboure 2 жыл бұрын

Огромное спасибо.лучшее что удалось посмотреть за многие дни поиска информации.

@evb9248 2 жыл бұрын

Спасибо! Всё понятно! А-то я чуть не заблудился среди этих решающих деревьев...

@doniyordjon_pro 8 ай бұрын

Можете сделать для CatBoost и XGB также. Много видео смотрел в просторах интернета, но так понятно как вы это сделали ни у кого

@ekaterinakazakovskaya9239 2 жыл бұрын

очень доступные объяснения, спасибо

@Denzi33 8 ай бұрын

Солнышко, заячка, дай Бог здоровья Тебе.

@aboba98159 2 жыл бұрын

Все максимально доступно и понятно, большое вам спасибо

@foo52ru 2 жыл бұрын

Прекрасно объясняете, просмотрел на одном дыхании, все непонятные моменты раскрыты.

@Diabolic9595 Жыл бұрын

Не ожидал вас тут увидеть) У вас тоже очень интересные и познавательные ролики

@blessedponica8030 Жыл бұрын

Большое спасибо! Очень понятное изложение материала!

@hinomuratomisaburo4901 Жыл бұрын

умная девочка все подробно и на доступном языке )

@user-ru5fi7ho7d 8 ай бұрын

Замечательно объяснение, все подробно и понятно. Спасибо!

@t.voronova Жыл бұрын

Огромное спасибо! Самое лучшее объяснение, которое я нашла!🙂

@user-ux6hx4kh2z Жыл бұрын

Спасибо большое. Лучше и объяснить было нельзя

@alexandrg5721 Жыл бұрын

Большое спасибо! Всё доступно и понятно!!

@kirillgrossberg6950 2 жыл бұрын

Это очень хорошо Большое спасибо за видео!!!

@user-wk6nq4yh5z 6 ай бұрын

Лучшее объяснение, которое нашел!! Спасибо большое

@paveltimofeev5686 Жыл бұрын

Как же всё понятно!

@user-eo3vi5hq9n 8 күн бұрын

Объяснение топ, но кажется вы немного напутали с цифрами!!!

@thomascromwell2083 7 ай бұрын

Отличное объяснение!

@user-vl9km6ot1h 2 ай бұрын

От души) очень понравилось обьяснение. На 12:06 не понял откуда в правых скобках взялось число 3.521(наверное описка, должно быть 4.526)

@TheOneDesteny 2 жыл бұрын

Здорово. Очень интерактивно. Нужно было, имхо, только упомянуть, что доведение разбиений до листьев, где лежат уникальные элементы - плохое дело, которое ведет к переобучению. Но это уже другой разговор)

@machine_learrrning 2 жыл бұрын

безусловно, это плохое дело) вот в этом видео как раз-таки про это и говорю kzbin.info/www/bejne/l4iolZSOdr9jZ68

@VideosByDr1m Жыл бұрын

Случайно наткнулся, очень понравился контент. Спасибо!

@machine_learrrning Жыл бұрын

Очень рада, что контент понравился :)

@alexwhite252 Жыл бұрын

Отлично! Спасибо!

@user-qh5qo2tr7l Жыл бұрын

Большое спасибо, все понятно

@machine_learrrning Жыл бұрын

Пожалуйста! Рада помочь :)

@igorgordiy7709 2 жыл бұрын

Умница!

@kosby5963 6 ай бұрын

Как всегда топ!❤

@user-oq7ju6vp7j 3 ай бұрын

Подскажите, правильно ли понимаю, если например признаков = 100 и уникальных значений у каждого признака например = 10,000, тогда на каждом шаге мы рассматриваем примерно 100 * 10,000 разбиений? Кажется такие алгоритмы должны довольно медленно работать?

@levonabgaryan304 9 ай бұрын

Спасибо за видео очень ясно, очееень, я понял почти все, есть 2 вопросика(если не лень) .Когда модель будет менять тип вопроса с перва он задает вопрос про Population, а когда он решает ,что надо менять вопрос?И когда мы рекурсивно все это делаем, и брейкаем когда у нас MSE == 0 , но в это время у нас остается один value и этот value из датасета, потому что средное одного числа это етого же число, и таким образом в test датах получим переобучение , вот как это работает правильно? Заранее спасибо.

@zhuk2205 2 жыл бұрын

Большое спасибо за очень доступное объяснения!!! Насколько я понял, мы сначала ищем IG для корневого элемента, потом след. ветку (в которой очень большая MSE) считаем за корневую и начинаем заново просчет. И так до конца, пока по большинству элементов дерева не будет либо нулевая ошибка, либо допустимая для нас.

@machine_learrrning 2 жыл бұрын

Да, такая реализация возможна. В этом случае построение разбиений будет по листьям с наибольшей ошибкой, подход называет leaf wise growth.

@LS-oh6po 9 ай бұрын

Интересно, а ИИ и градиентный бустинг может решать задачу выбора оптимального значения из массива? То есть есть массив из которого надо выбрать лучшее значение по каким-то признакам. Например, 1000 жителей которые обладают критериями - пол, вес, возраст и т.д. из которых надо выбрать лучшего. При этом присваивая важность критериям.

@delkaaaa 10 ай бұрын

А можете подсказать, почему когда, мы считаем MSE по левой выборке в House...у нас (3.585-4.0555)^2+(3.521-4.0555)^2....вот почему 3.521, если у нас значение ypred там 4.526? А в случае когда у меня разные признаки может быть такое что 1 вопрос, например, был про цену дома с каким то порогом, второй потом например, по местоположению дома, а 3, например, опять про цену дома? тоесть признаки могут комбинироваться в зависимости от прироста?

@oxydora 2 жыл бұрын

Спасибо за видео! Очень доступно и понятно. Подскажите, пожалуйста, Вы сказали, что разбор критериев останова будет в следующем видео. Оно не вышло? Просто интересно узнать насчет критерия останова и как все-таки происходит дальнейшее прогнозирование на новых данных

@machine_learrrning 2 жыл бұрын

Очень рада, что понравилось видео! По критериям останова пока ещё не сформировала материал, но раз хочется это услышать, то ускорюсь с этим процессом :)

@machine_learrrning 2 жыл бұрын

Наконец-то могу поделиться ссылкой на видео про критерии останова в дереве решений: kzbin.info/www/bejne/l4iolZSOdr9jZ68

@user-ge2fn2dd1w 2 жыл бұрын

Привет! Спасибо за видео, очень понятно и полезно) Получается, в задаче регрессии мы рассчитываем IG и принимаем решение на основе MSE. А для задачи классификации на основе чего?

@machine_learrrning 2 жыл бұрын

Привет! В задаче классификации смотрим на критерии информативности Энтропия или Критерий Джини. Планирую ещё подготовить видео про обучение дерева решений для задачи классификации.

@machine_learrrning 2 жыл бұрын

Вот как раз ссылка на дерево решений для задачи классификации: kzbin.info/www/bejne/oGmvYWqkqtOmaLs

@user-sh9jf2ge6z Жыл бұрын

А как именно формулируется вопрос в ноде? Например почему в верхней (корневой, 1ой) ноде именно 409, а не скажем 410)

@machine_learrrning Жыл бұрын

Вопросы строятся перебором: если есть признак f со значениями 409, 411, 413, то мы можем задать следующие вопросы: 1. f

@user-sh9jf2ge6z Жыл бұрын

@@machine_learrrning, то что вопросы в ноде можно задать различные - понятно. Не понятно, почему модель остановилась именно на этом конкретном значении в вопросе ноды, это не медиана и не среднее. Это както связано с criterion в процессе перебора?

@machine_learrrning Жыл бұрын

@@user-sh9jf2ge6z модель остановилась на этом вопросе, потому что при его использовании прирост информации получился максимальным нежели при других вопросах значит данный вопрос лучше помогает разбивать выборку на две части

@user-sh9jf2ge6z Жыл бұрын

@@machine_learrrning а как "максимальный прирост информации" формально (строго) определен. Подскажите, что почитать/посмотреть можно?

@machine_learrrning Жыл бұрын

@@user-sh9jf2ge6z в видео говорю про него kzbin.info/www/bejne/Zp6wlpR5aMydhKs Плюсом можете почитать эту статью: habr.com/ru/company/ods/blog/322534/

@user-ks9mi6je6y Жыл бұрын

Подскажите, max_features - число признаков, по которым ищется разбиение. Вот если я укажу 3 из 10, то как берутся признаки? (Поочереди или рандомно) и можно ли посмотреть какие взялись?

@machine_learrrning Жыл бұрын

max_features берутся случайно на каждом вопросе, так что если указали 3 признака, то при каждом новом разбиении будут браться случайные 3 признака Посмотреть можно только при визуализации через plot_tree, какие же там вопросы выбрались, как самые лучшие