Лекция 3. Классификация, деревья решений. Открытый курс ODS по машинному обучению mlcourse.ai

  Рет қаралды 41,403

Yury Kashnitsky

Yury Kashnitsky

Күн бұрын

For lectures in English, check out this playlist bit.ly/2zY6Xe2
Это видео совпадает с bit.ly/2qfOvrI, только звук улучшен (Denis Cera, Oleg Butko)
На 3-ей лекции мы обсудим основы машинного обучения, поговорим про один из самых популярных видов задач - про задачи классификации, обсудим деревья решений, а также подход к выбору моделей и их оценке на основе кросс-валидации.
Сайт курса mlcourse.ai
О курсе на Хабре goo.gl/NDG9d2
3-ья тема на Хабре goo.gl/zaxGJq
Jupyter-notebooks в репозитории курса goo.gl/ti3oJT
Демо-версия задания bit.ly/30j5EXl
При организационной поддержке Mail.Ru Group.

Пікірлер: 39
@ФаткуллинИльназ
@ФаткуллинИльназ 2 жыл бұрын
Хоть и прошло 3-4 года, это все еще лучший курс
@festline
@festline 2 жыл бұрын
Спасибо, Ильназ!
@hopelesssuprem1867
@hopelesssuprem1867 Жыл бұрын
Посмотрите курсы Эндрю Ына. Это единственные курсы, где нормально объясняется математика внутри алгоритмов ML и дается их реализация.
@DJsasha15
@DJsasha15 Жыл бұрын
@@hopelesssuprem1867 хоть и понимаю не все(английский не слишком хорошо знаю), но объясняет и вправду очень подробно. Особенно нравится, где он начинает объяснение формулы с оператора равно). Спасибо за рекомендацию
@Leha_from_Zavod
@Leha_from_Zavod 9 ай бұрын
@@DJsasha15речь о ком?Andrew Ng?
@АлексСапс
@АлексСапс 6 жыл бұрын
Перерыв с 1:34:00 до 1:45:53
@andyukraine
@andyukraine 5 жыл бұрын
такие видео должны выходить в тренды ютюба, вместо "что будет если разрезать арбуз бензопилой"
@dmarcher10
@dmarcher10 5 жыл бұрын
Просто людей, которым интересно разрезать арбуз пилой - больше... И если бы датасаентисты этой темой не интересовались - ссылки бы не было, ведь мы же знаем как работает алгоритм рекомендаций youtube, а точнее его часть user-based recommendations :-)
@vadimborisov4824
@vadimborisov4824 5 жыл бұрын
а что будет если разрезать арбуз бензопилой?
@random-characters4162
@random-characters4162 5 жыл бұрын
@@vadimborisov4824 тоже хотел спросить.
@АлександрЕфимов-щ3и
@АлександрЕфимов-щ3и 3 жыл бұрын
И мне вот тоже интересно
@МихаилФедосеев-ь7с
@МихаилФедосеев-ь7с 2 жыл бұрын
Для тех, кто не понял про энтропию: kzbin.info/www/bejne/m2mqq3Z_bbGAj6M
@malishev_ivan
@malishev_ivan 3 жыл бұрын
Вопрос по домашнему заданию, каким образом можно составить Х для первой задачи, нет я понимаю как это должно быть, но на тех данных которые вы предоставляете в задании ничего не понятно, особенно новичку. Зачем было сразу разбивать на train и test? Уверяю вас, что процент верных ответов был бы намного больше, предоставив вы просто датасет с данными, и дали бы пользователям сделать все самим. Это мое субъективное мнение, и я не хочу никого обидеть. Могу я у вас попросить решение первого задания, я хочу понять что у меня не получается, заранее благодарен.
@festline
@festline 3 жыл бұрын
Задания и решения на английском можно на главном сайте найти mlcourse.ai/assignments, по ссылке с Хабра на русском - это тогда после заполнения веб-формы появится ссылка на ноутбук с решением. Пример: habr.com/ru/company/ods/blog/322534/: > В качестве закрепления материала предлагаем выполнить это задание nbviewer.jupyter.org/github/Yorko/mlcourse.ai/blob/master/jupyter_russian/assignments_demo/assignment03_decision_trees.ipynb - разобраться с тем, как работает дерево решений, на игрушечном примере, затем обучить и настроить деревья в задаче классификации данных Adult репозитория UCI. Проверить себя можно отправив ответы в веб-форме docs.google.com/forms/d/1bC3jNPH7XZUty_DaIvt0fPrsiS8YFkcpeBKHPSG0hw0 (там же найдете и решение).
@festline
@festline 3 жыл бұрын
> каким образом можно составить Х для первой задачи > Зачем было сразу разбивать на train и test? Посмотрите эту лекцию и/или статью habr.com/ru/company/ods/blog/322534/ - это важные вопросы, и они подробно освещаются
@ТимурГаджиев-ч8й
@ТимурГаджиев-ч8й 2 жыл бұрын
1:07 - knn
@virn_17
@virn_17 10 ай бұрын
Здравствуйте у меня возникли трудности при выполнении домашнего задания. Есть ли уже готовые домашние задания что бы подсмотреть решение? Заранее Спасибо)
@festline
@festline 9 ай бұрын
Добрый день! Ответы на демо-задания доступны по ссылке после заполнения веб-формы. В статье на Хабре habr.com/ru/companies/ods/articles/322626/#5-domashnee-zadanie--1 поясняется - "Для разминки/подготовки предлагается поанализировать демографические данные с помощью Pandas. Надо заполнить недостающий код в Jupyter-заготовке и выбрать правильные ответы в веб-форме (там же найдете и решение)."
@virn_17
@virn_17 9 ай бұрын
@@festline спасибо!
@viktorevsyukov856
@viktorevsyukov856 5 жыл бұрын
Можете ли выложить скрипт? Сейчас на сайте только Титаник и статья, этого нет
@festline
@festline 5 жыл бұрын
Точно, в орг-репе завалялось, теперь добавил github.com/Yorko/mlcourse.ai/blob/master/jupyter_russian/topic03_decision_trees_knn/lesson3_decision_trees_dirty_inclass.ipynb
@thegamesepicentre5969
@thegamesepicentre5969 2 жыл бұрын
Очень полезная лекция! Забыли проговорить (возможно, я не заметил), что при оценке значения метрики accuracy в задачах, где имеет место серьёзная несбалансированность классов, необходимо сравнивать это значение с «глупым» предсказанием моделью одного класса для всех объектов (если не ошибаюсь, эта штука называется dummy classifier). Т.е. значение 94% точности ни о чем не говорит, если у нас 3000 объектов одного класса и 200 объектов другого :)
@festline
@festline 2 жыл бұрын
Спасибо! О дисбалансе классов и доле верных ответов было уже в первой лекции habr.com/ru/company/ods/blog/322626/
@РоманТурьев-б7в
@РоманТурьев-б7в 5 жыл бұрын
В случае с KNN надо было сделать шкалирование перед передачей выборки в модель, тогда она была бы точнее
@festline
@festline 5 жыл бұрын
Верное замечание. Далее используется пайплайн. Поправил и в начале. Да, стало .89 вместо .88 :)
@Lameusiwe
@Lameusiwe 4 жыл бұрын
Возник вопрос: "Может ли результат работы дерева решений на тестовой выборке быть лучше, чем на обучающей выборке?"
@festline
@festline 4 жыл бұрын
да, при сильной регуляризации и в силу случайности разбиения - и такое может быть
@artemdelidovich1062
@artemdelidovich1062 6 ай бұрын
Понимаю, что уже 5 лет прошло, но может кто-нибудь подскажет, как нарисовать дерево из под винды. Юрий в видео говорит, что под виндой могут возникнуть проблемы и у меня они возникли.
@festline
@festline 6 ай бұрын
в принципе можно даже не рисовать локально, а использовать sklearn.tree.export_graphviz и веб-сервис webgraphviz.com/ для отрисовки дерева
@artemdelidovich1062
@artemdelidovich1062 6 ай бұрын
Спасибо за ответ! Я как раз вчера всё же нашёл решение с помощью чата ГПТ. Если кому интересно, код вот такой: import pydotplus from IPython.display import Image dot_data = export_graphviz(tree_greed.best_estimator_, out_file=None, feature_names=X.columns, filled=True) graph = pydotplus.graph_from_dot_data(dot_data) Image(graph.create_png()) Ну и ещё нужно было GraphViz установить. За ссылку на веб-сервис всё равно спасибо!
@Mihail_Titov068
@Mihail_Titov068 2 жыл бұрын
Подскажите, max_features - число признаков, по которым ищется разбиение. Вот если я укажу 3 из 10, то как берутся признаки? (Поочереди или рандомно) и можно ли посмотреть какие взялись?
@festline
@festline 2 жыл бұрын
признаки берутся случайно, можно нарисовать дерево и увидеть, какие признаки задействованы. В 3 статье курса есть примеры, как визуализировать деревья
@festline
@festline 2 жыл бұрын
виноват, первая часть неверна - думал, отвечаю, про лес, а не про одно дерево :) признаки берутся не случайно, а по критерию информативности ищется наилучшее разбиение (вот если таких несколько - то случайный признак выбирается). Это в 3-ей статье курса детально разобрано.
@Mihail_Titov068
@Mihail_Titov068 2 жыл бұрын
@@festline спасибо
@Боголюбов-с7с
@Боголюбов-с7с 5 жыл бұрын
Добрый день, а как быть тем у кого винда с graphviz? Подскажите пожалуйста.
@festline
@festline 5 жыл бұрын
Можно вообще ничего не ставить и пользоваться www.webgraphviz.com/
@Боголюбов-с7с
@Боголюбов-с7с 5 жыл бұрын
@@festline спасибо, потанцевал с бубном и на винде все заработало. Спасибо за курс, хорошего дня, товарищ преподаватель!
@V8sim
@V8sim 3 жыл бұрын
@@Боголюбов-с7с 1. Помогите, не работает! 2. Вот есть рабочее решение онлайн прямо в браузере, пользуйтесь! 3. Я потратил два дня и заставил работать! Спасибо!
OYUNCAK MİKROFON İLE TRAFİK LAMBASINI DEĞİŞTİRDİ 😱
00:17
Melih Taşçı
Рет қаралды 12 МЛН
The day of the sea 😂 #shorts by Leisi Crazy
00:22
Leisi Crazy
Рет қаралды 1,7 МЛН
Cute
00:16
Oyuncak Avı
Рет қаралды 12 МЛН
Ozoda - Lada (Official Music Video)
06:07
Ozoda
Рет қаралды 12 МЛН
Лекция 10. Деревья классификации и регрессии
1:43:19
Лекция. Решающие деревья
31:13
Deep Learning School
Рет қаралды 30 М.
Лекция. Решающие деревья, ансамбли, бустинг.
1:08:37
OYUNCAK MİKROFON İLE TRAFİK LAMBASINI DEĞİŞTİRDİ 😱
00:17
Melih Taşçı
Рет қаралды 12 МЛН