ДЕРЕВО РЕШЕНИЙ (DecisionTreeClassifier) | МАШИННОЕ ОБУЧЕНИЕ

Рет қаралды 8,901

Күн бұрын

Поддержать канал можно оформив подписку на boosty.to/machine_learrrning
Практическое задание boosty.to/machine_learrrning/...
Канал в TG t.me/machine_learrrning
Курсы на платформе Stepik:
1. Библиотеки Python для Data Science stepik.org/a/129105
2. Введение в нейронные сети (Keras/Tensorflow) stepik.org/a/127274
Дерево решений для регрессии • Как обучается дерево р...
Критерии останова дерева решений • КАК НЕ ПЕРЕОБУЧИТЬ ДЕР...
Вопросы, на которые найдем ответы в этом видео:
Что такое дерево решений?
Как дерево решений обучается?
Какой функционал качества в дереве решений?
Ноутбук из видео colab.research.google.com/dri...
0:00 Вводная
0:25 Датасет на сегодня
1:29 Что такое дерево решений простым языком
2:26 Обучение DecisionTreeClassifier из sklearn'a
2:42 Визуализация дерева решений
2:49 Узел, нода, вершина в дереве решений
3:02 Разбиение в дереве решений
3:19 Листы (конечный узел) в дереве решений
3:50 Резюме по структуре дерева решений
4:05 Какие вопросы задает дерево решений
4:36 Какие вопросы нельзя задавать в дереве решений
4:51 Продолжаем искать вопросы
6:17 Функционал качества в дереве решений
6:22 Прирост информации Information gain
7:36 Критерий информативности в дереве решений
7:55 Критерий информативности Энтропия
8:21 Критерий информативности Джини
8:39 В чем смысл энтропии в дереве решений
9:17 Подсчет энтропии в исходной выборке
10:17 Разбиение данных на две подвыборки
10:26 Подсчет энтропии в левой выборке
11:01 Подсчет энтропии в правой выборке
11:44 Подсчет прироста информации первого вопроса
12:28 Подсчет прироста информации второго вопроса
13:56 Резюме подсчете прироста информации по вопросам
14:31 Как еще можно искать вопросы в дереве
15:39 Процесс построения дерева решений
17:16 • КАК НЕ ПЕРЕОБУЧИТЬ ДЕР...
17:29 Где практиковаться по дереву решений
17:53 Поддержка канала boosty.to/machine_learrrning
18:36 Резюме занятия
Music: www.bensound.com

Пікірлер: 29

@pavelkoloyan7187 Жыл бұрын

Спасибо одно из лучших объяснений.👍

@machine_learrrning Жыл бұрын

Спасибо за приятные слова 😊

@Alulisa 2 жыл бұрын

Очень понятное объяснение, спасибо большое

@alexanderluzhetskii4144 2 жыл бұрын

Здравствуйте. Я немного не догоняю, почему в формуле прироста информации энтропия правой подвыбоки =1, если мы посчитали ее =0, ведь там все единицы, абсолютный порядок. Почему тогда в формулу мы вводим ее как 1 и еще нормируем 2/5*1 ? (это на 12 й мнуте) При этом итог получается правильным 0.419 .....опечатака однако )))

@machine_learrrning 2 жыл бұрын

Действительно, очепятка, там не 1, а 0 Главное, что прирост информации сам подсчитан правильно :)

@user-wf8um7sv9n 7 ай бұрын

Спасибо! Крутое объяснение!

@kochkindi 2 жыл бұрын

Спасибо!!

@beast0608dihdbdn Жыл бұрын

Вы очень крутая, спасибо!

@machine_learrrning Жыл бұрын

Рада помочь в изучении МЛ! 😸

@goharavagova6845 Жыл бұрын

огромное спасибо

@machine_learrrning Жыл бұрын

Всегда пожалуйста 😸

@trollface4783 7 ай бұрын

Спасибо

@user-be2pk3tr6l 2 жыл бұрын

Спасибо большое, всегда с нетерпением жду видео. Планируете серию разборов алгоритмов, например SVM(SVC, SVR), KNN?

@machine_learrrning 2 жыл бұрын

Да, конечно, планирую и эти алгоритмы разобрать :)

@machine_learrrning 2 жыл бұрын

Вот и видео по KNN можете изучать: kzbin.info/www/bejne/o5DFiJuFgdeSjq8

@LS-oh6po 10 ай бұрын

Очень интересно по технике, но есть вопрос по сути. Для чего в принципе составляется это дерево решений? Ищется какое-то оптимальное значение? То есть какая изначально задача? Спасибо.

@mrhiesenberg5385 2 жыл бұрын

Допустим у нас есть задача идентификации человека по его фотографии. С точки зрения машинного обучения - это задача многоклассовой классификации изображений. При этом, в тестовой выборке могут содержаться изображения людей, которых не было в обучающем наборе и такие фотографии нужно как-то браковать. В случае с логистической/softmax регрессией - можно задать порог по принадлежности объекта тестовой выборки к классам обучающей. В случае с ближайшими соседями, этим порогом будет являться расстояние между объектами. А что будет является порогом для дерева?)

@machine_learrrning 2 жыл бұрын

Для деревьев такой же порог можно задать, как и с логистической регрессией - порог по предсказанным вероятностям. Но хочу еще добавить, что задачи, связанные с классификацией людей лучше решаются через сверточные нейронные сети, в частности через подход metric learning.

@mrhiesenberg5385 2 жыл бұрын

@@machine_learrrning, я пробовал решить эту задачу с помощью: метода главных компонент + метод ближайшего соседа/softmax регрессия, гистограмма направленных градиентов + метод ближайшего соседа/softmax регрессия, классификация карт признаков сверточной нейронной сети facenet + метод ближайшего соседа/softmax регрессия) Хотел опробовать деревянные алгоритмы)

@gobals8925 Жыл бұрын

Большое спасибо за видео. Я правильно понял, что алгоритм считает IG по всем значениям фичей, кроме тех, которые не позволяют разбить на две подвыборки?

@machine_learrrning Жыл бұрын

Пожалуйста! Да, всё правильно поняли, перебираются все возможные варианты разбиения на две подвыборки

@achmedzhanov_nail 5 ай бұрын

На 12:03 энтропия правой выборки 0, в формулу вычисления Q подставляется 1. ошибка?

@samSosiska Ай бұрын

По сути, да

@danyadetunm7609 Жыл бұрын

А если не задавать random_state, то чем обусловлено различие точности обученной модели, если обучать ее на одних и тех же данных, и проверять результат тоже на одинаковых данных?

@machine_learrrning Жыл бұрын

Различия обусловлены случайностью, может повезти так, что выборка на тесте будет легче, поэтому метрика будет лучше, а может наоборот. И чтобы сравнивать именно модель, а не удачу, то и стоит фиксировать random_state