No video

089. Мастер класс Решение задач классификации при помощи CatBoost - Никита Дмитриев

  Рет қаралды 28,564

Компьютерные науки

Компьютерные науки

Күн бұрын

PyData Moscow, 13 октября 2018 г.
Градиентный бустинг - метод машинного обучения, появление которого привело к прорыву в решении многих задач, включая поиск в интернете, создание рекомендательных систем и прогнозирование погоды. На протяжении многих лет он остаётся основным методом работы с неоднородными признаками, зашумлёнными данными и сложными зависимостями.
CatBoost - это библиотека градиентного бустинга с открытым исходным кодом. Она превосходит по качеству аналоги и имеет дополнительные преимущества. CatBoost поддерживает работу с категориальными признаками (например, жанрами музыки, ID устройства, URL и т. д.) без предобработки данных. У него очень хорошие дефолтные параметры, поэтому их не нужно настраивать для получения качественных моделей. А GPU-реализация CatBoost - самая быстрая среди общедоступных реализаций градиентного бустинга.
С возможностями библиотеки мы будем знакомиться на примере решения задачи классификации. Вместе мы пройдём все этапы построения модели прогнозирования и рассмотрим следующие темы:
- Выбор подходящих функций потерь и метрик для оптимизации.
Обучение модели.
- Визуализация процесса обучения и кросс-валидации.
- Работа со встроенным детектором переобучения.
- Выбор оптимального порога принятия решения.
- Важность признаков и интерпретация прогнозов модели.
- Применение обученной модели к тестовым данным.
Для участия мастер-классе нужен настроенный Jupyter Notebook с установленными библиотеками: catboos, ipywidgets, sklearn, matplotlib, shap.
Никита Дмитриев
Окончил механико-математический факультет МГУ и Школу анализа данных. В Яндексе занимается разработкой систем машинного обучения.
Другие материалы PyData Moscow - events.yandex....

Пікірлер: 32
ISSEI & yellow girl 💛
00:33
ISSEI / いっせい
Рет қаралды 24 МЛН
The Joker kisses Harley Quinn underwater!#Harley Quinn #joker
00:49
Harley Quinn with the Joker
Рет қаралды 10 МЛН
Разбор реальной data science задачи
38:51
Alexander Ershov
Рет қаралды 194 М.
CatBoost - градиентный бустинг от Яндекса
1:20:53
Computer Science Center
Рет қаралды 30 М.
КАК УСТРОЕН TCP/IP?
31:32
Alek OS
Рет қаралды 48 М.