Машинное обучение в аналитике: как работают деревья решений | Анатолий Карпов

Машинное обучение в аналитике: как работают деревья решений | Анатолий Карпов | karpov.courses

Рет қаралды 9,233

Жыл бұрын

Курс «Аналитик данных»: bit.ly/44MoDGd
Курс Start ML: bit.ly/3LUXesT
А по промокоду MLINDA вы получите скидку 5% при полной оплате :)
Перед аналитиками часто стоит задача классифицировать пользователей, предсказать их поведение. Вы знали, что в этом могут помочь методы машинного обучения?
На вебинаре «Машинное обучение в аналитике: как работают деревья решений» мы:
● познакомились с decision tree и random forest;
● подробно разобрались, как работают эти методы;
● узнали, какие задачи аналитики можно решать при помощи машинного обучения.
А ещё вебинар провёл Анатолий Карпов!

Пікірлер: 21

@FreeMAN-rf1uk Жыл бұрын

Закончил курс по Data Science в яндекс практикуме. Работаю аналитиком. Думал что мне машинное обучение не нужно сильно в работе. Но уже несколько раз приходилось применять машинное обучение на практике. Наверное, аналитик который вообще не умеет в машинное обучение не совсем проф. пригоден. Базовые вещи такие как метрики качества машинного обучения, линейная регрессия, классификация, деревья решений должен знать каждый аналитик. А вот глубокое обучение, компьютерное зрение, обработка текстов (NLP), - для аналитика можно понимать на уровне черного ящика: данные подаем на вход и получаем нужные данные на выходе, а внутри магия)). Хотя обработка текстов частая задача и знание что такое эмбединги, DSSM, Bert и прочее тоже иногда весьма полезно и может съэкономить аналитику уйму времени и повысить качество его работы.

@Dmitrii-Zhinzhilov Жыл бұрын

Благодарю! 👍

@evgenianovikova3596 6 ай бұрын

Во, молодец. Хоть кто-то код рассматривает! А то все слайды читают. Я читать умею с детского сада, зачем мне человек, который читает слайды? ХДДДДД

@user-jd6uz5si2f Жыл бұрын

Анатолий лудшый!

@alexeyi.197 Жыл бұрын

Там еще был вопрос, как оценить качество работы алгоритма классификации. С помощью recall, precision и их гармонической средней в виде F-меры 🙂

@TheEagleIvan Жыл бұрын

Карпов, ты крутой мужик! Не люблю курсы, больше по книгам нравится учится. Какую из книг по DS для условно уровня intermediate можете посоветовать? Чтоб не было пол книги основ Питона)

@karpovcourses Жыл бұрын

Привет! А я наоборот учился только по курсам и видео на ютубе. Так что тут не подскажу(

@mymobigoogle205 Жыл бұрын

Я тоже всегда по докам и rfcшкам учился (одновременно на реальных задачах). А тут первый раз в жизни на Степике курс по статистике попробовал, понравилось, прошел. :). Даже не ожидал, что будет такая вовлеченность без решения реальных задач (моих личных).

@fedrichnezabutkin5631 Жыл бұрын

Отличный вебинар! Подскажите какие методы используете для анализа и прогнозирования временных рядов в python и R?

@karpovcourses Жыл бұрын

kzbin.info/www/bejne/Z6nWg5R5od-AsLc&ab_channel=karpov.courses

@hopelesssuprem1867 Жыл бұрын

Анатолий, прежде всего спасибо за лекцию, но в ней есть ряд серьезных упущений: - не было реализации дерева вручную с нуля на python; - не упомянуты разновидности деревьев (CART, ID3, C4.5, C5.0, MARS и др.) и в каких случаях какие лучше использовать; - не было сказано, что для классификации могут использоваться gini_impurity, entropy, missclassification_error, разница между ними, а для регрессии используется mse для выбора лучшего threshold; - не было рассказано про оптимизацию деревьев, а именно про post-pruning (resuced error pruning, cost-complexity pruning), как ищутся эффективные ccp_alpha в cart версии sklearn; - не были упомянуты метрики оценки кач-ва обученной модели, их виды и какие из них в какой ситуации лучше подходят; - также было бы не лишним рассказать про преимущества и недостатки деревьев в сравнении с другими алгоритмами, в каком случае деревья подходят лучше всего, а в каком нет и почему. Учитывая, что деревья лежат в основе ансамблей, знать их нужно очень хорошо и очень глубоко, и нет лучшего способа чем реализация всего вышеперечисленного с нуля, а так получается "галопом по Европам". Честно говоря, для платной школы, в которой преподают якобы ml-щики и аналитики, выглядит все это слабовато, может мы просто на разных уровнях? Даже не знаю что и сказать. Также не согласен, что ml - это легко, может, если работать во пятерочках и яндексах, то такого уровня подготовки будет достаточно, но для работы в приличных компаниях с сильной командой такой подход не прокатит, увы. Я ни в коем случае никого не хочу обидеть, но пройти мимо просто не смог, учитывая обилие бесплатных ресурсов с более подробным объяснением, не только ml, но и всего остального в целом. Рекомендую ITSL и курс Эндрю Ына по ml: они дадут хороший вектор для дальнейшего развития.

@user-xp3tk7bj5y Жыл бұрын

Это же больше знакомство с деревьями решений, чем погружение в него. Плюс это просто вебинар, а не видео с курса по аналитике)

@karpovcourses Жыл бұрын

Спасибо! Но это вебинар для тех, кто впервые увидел дерево решений, основная задача была рассказать саму идею, как оно работает. Мы делаем контент для всех уровней и для совсем начинающих, и для серьезных специалистов. Вот лекция о деревьях решений нашего преподавателя, расчитанная на более подготовленную аудиторию kzbin.info/www/bejne/rZ-3naaOlrudY9U

@hopelesssuprem1867 Жыл бұрын

@@karpovcourses за видео спасибо, но там в принципе такая же проблема: нет реализации дерева с нуля, т.е. это то же самое, если бы учили программированию без написания кода - профит нулевой. Также в видео есть неточности: - лектор говорит, что перед нахождением лучшего разбиения необходимо сортировать датафрейм, но это лишняя операция т.к. алгоритм все равно жадный и лучший признак для разбиения ищется независимо от позиции среди уникальных; - по регуляризации деревьев очень много вопросов: не было сказано какая именно регуляризация для какого дерева применяется, например, в CATR используется cost-complexity pruning, где ccp_alpha для каждого decision node ищется по формуле: (Rt - RTt) / (T - 1), потом прунится слабейшей узел и процедура повторяется рекурсивно buttom-up до корня, а значения с самыми эффективными alpha находятся в cost_complexity_pruning_path и для выбора наилучшего alpha применяется k-fold кросс-валидация, которое в конечном счете используется в кач-ве регуляризатора для построения оптимального дерева - вот всего этого не было упомянуто и реализовано, а ведь это дерево из sklearn, которым все пользуются; - бустинги были просто перечислены - там вообще миллион вопросов можно насобирать. Я это все к чему... лучше выпустить видео/статью, с реализацией ML-алгоритмов нуля и подробным объяснением математической составляющей, лежащей в их основе, вместо множества видео с водой. В целом - это проблема всей русскоязычной data science тусовки: все только умничают, не понимая как устроен ML изнутри, и в скором времени я собираюсь это исправить, написав статью с реализацией алгоритмов и норм объяснением классического ML в целом.

@viktorponomarev4048 6 ай бұрын

@@hopelesssuprem1867поделитесь, как опубликуете, пожалуйста

@user-jg7ni9iw1y 6 ай бұрын

В первом примере показана логическая функция 'xor'. По сути даже дерево решений не нужно и вычислительная нагрузка на процессор минимальная. Шутка, конечно 😀