Лекция 2. Визуализация. Открытый курс OpenDataScience по машинному обучению mlcourse.ai

  Рет қаралды 35,004

Yury Kashnitsky

Yury Kashnitsky

Күн бұрын

For lectures in English, check out this playlist bit.ly/2zY6Xe2
Это видео совпадает с bit.ly/2Rkwl3M, только звук улучшен (Denis Cera, Oleg Butko)
На 2-ой лекции мы попрактикуемся в визуальном анализе данных средствами Python - matplotlib и seaborn.
Сайт курса mlcourse.ai
О курсе на Хабре goo.gl/NDG9d2
2-ая тема на Хабре goo.gl/v5KwTg
Jupyter-notebooks в репозитории курса goo.gl/DYcsFN
Демо-версия задания bit.ly/3ygl0bE
При организационной поддержке Mail.Ru Group.

Пікірлер: 47
@sergeigavrilov2390
@sergeigavrilov2390 5 жыл бұрын
Классно! Подача материала супер! Благодарю за труд!
@oxidizerby
@oxidizerby 3 жыл бұрын
Лучший курс по ML. Подача, материалы, задания - всё продуманно. Лучше платных. Лектор прикольный. Вроде бы про усы ящика на 12:22 ошибка. Усы ящика от медианы это полтора интерквартильных размаха + квартиль (инфо с википедии)
@festline
@festline 3 жыл бұрын
Спасибо! :)
@festline
@festline 3 жыл бұрын
Да, с усами там косячок вышел
@ДушнилаШрёдингера
@ДушнилаШрёдингера 2 жыл бұрын
Видео прекрасно для понимания принципов работы с Pandas!
@festline
@festline 2 жыл бұрын
Спасибо!
@ОлегДоходицифровыефинансы
@ОлегДоходицифровыефинансы 5 жыл бұрын
Спасибо за улучшение Звука
@akisarev
@akisarev 5 жыл бұрын
Очень интересный курс! Спасибо большое!
@ash8128
@ash8128 2 ай бұрын
В последней версии seaborn мне пришлось делать sns.countplot(x=jupyter_labels) вместо sns.countplot(jupyter_labels). Без указывания `x` данные обрабатываются долго и график не тот.
@nomeatrevi7266
@nomeatrevi7266 3 жыл бұрын
Хотелось бы понять, как делать выводы на основе таких визуализаций и как с помощью их улучшить модель.
@festline
@festline 3 жыл бұрын
Хороший вопрос. Как правило, далеко не все визуализации полезны. Часто они делаются так, чтобы были. Пример визуализаций, дающих идеи для построения признаков, дан в первой статье mlcourse.ai/articles/topic1-exploratory-data-analysis-with-pandas/ - см. International plan & Customer service calls. Можно возразить, что это все было видно и без визуализаций, то же самое можно и в табличках разглядеть. Но порой именно картинка критична. Например, TSNE в КДПВ ко второй лекции mlcourse.ai/ рисует клиентскую базу, где можно заметить интересные паттерны - что есть основное ядро клиентов, а есть какие-то траектории, соответсвующие, скорее всего, time series каких-то особенных клиентов, отличающихся от основной массы.
@Rikki_Rik
@Rikki_Rik 4 жыл бұрын
Перерыв 1:20:05 - 1:32:15
@nikitainiciative356
@nikitainiciative356 3 жыл бұрын
пасиба, зашел сюда поотдыхать и пошел дальше) Здоровье таким людям)
@denis4899
@denis4899 2 жыл бұрын
В некоторых ресурсах указано, что лучше не пользоваться параметром inplace, а вместо этого делать присвоение =, т.е df = df.rename(...) вместо df.rename(inplace=True). Так ли это или нет?
@festline
@festline 2 жыл бұрын
Не видел таких советов, честно говоря. По идее inplace как раз и должен быть идентичен такому присвоению. Разве что баги на стороне Pandas находили и поэтому не советуют.
@denis4899
@denis4899 2 жыл бұрын
@@festline спасибо
@СергейПанченко-ь5н
@СергейПанченко-ь5н 2 жыл бұрын
добрый день, хотелось бы чтобы кто то когда нибудь зашел сюда и помог немного разобрать д/з по графикам, кину свои варианты и вопросы к ним: задание 1, мое решение: sns.countplot(x = 'month', hue = 'year', data = df) но как сделать так чтобы пандас учитывал при построении графиков только 2015 и 2016 годы я так и не понял, получается только 2 графика отдельно для 2015 и 2016 либо все года... задание 2, кажется довольно простым, я тут понял все: sns.countplot(x = df[df.year == 2015][df.month == 3]['dayofweek'], hue = 'domain', data = df) задание 3, как вставить в countplot 2 параметра, в одном из которых нужно сделать еще какое то вычисление я так не понял???, мой вариант такой: df.groupby('hour').agg({'views' : 'mean'}).plot(figsize=(20, 10)) задание 4, не понимаю как построить график и у меня получается другой правильный ответ, почему?? мой вариант решения: df.groupby('author').agg({'votes_minus' : sum}).reset_index().sort_values('votes_minus', ascending = False).head(20) задание 5, тоже не понимаю можно ли это сделать через countplot и как)), сделал так: df[df.dayofweek == 1].groupby('hour').agg({'post_id' : 'count'}).plot() ## и для сб менял на 6 з ы думаю что публикация тут моих вариантов решения никому не помешает, тем более что они в большинстве случаев кривые)
@СергейПанченко-ь5н
@СергейПанченко-ь5н 2 жыл бұрын
кстати спасибо за курс, мне нравится))
@БелыйСнег-ъ9ж
@БелыйСнег-ъ9ж 6 ай бұрын
Этот курс еще актуальный на 2024 год?
@festline
@festline 6 ай бұрын
Да, вполне. На удивление, стек мало поменялся, Python почти тот же, все библиотеки - NumPy, Pandas, Sklearn - те же. Единственное, актуальный код уже может быть не в видео, а на гитхабе и сайте курса mlcourse.ai
@sultantapi9522
@sultantapi9522 Жыл бұрын
Добрый день! Когда пытаюсь открыть файл "mlcourse_open_first_survey_parsed", у меня выходит ошибка "EmptyDataError: No columns to parse from file". Подскажите пожалуйста, в чём может быть причина?
@festline
@festline Жыл бұрын
Добрый! попробуйте открыть либо в текстовом редакторе либо считайте в Pandas, файл не пустой, в этом можно убедиться, открыв его прямо на GitHub raw.githubusercontent.com/Yorko/mlcourse.ai/main/data/mlcourse_open_first_survey_parsed.csv
@sandushaikhina1283
@sandushaikhina1283 7 ай бұрын
изменилась конструкция sns.countplot(df, x = 'Churn') вместо sns.countplot(df[ 'Churn'])
@ВладКостерин-к8ь
@ВладКостерин-к8ь Ай бұрын
Спасибо)
@doniyordjon_pro
@doniyordjon_pro Жыл бұрын
при выполнения df['User_Score'] = df.User_Score.astype('float64') выходит ошибка: ValueError: could not convert string to float: 'tbd' как быть?
@festline
@festline Жыл бұрын
очевидно, строка 'tbd' не может быть сконвертирована в тип float, значение 'tbd' надо либо выкинуть либо заменить на какое-то числовое значение
@doniyordjon_pro
@doniyordjon_pro Жыл бұрын
@@festline я с начала dropna сделал, потом поменял типы
@shandi1241
@shandi1241 4 жыл бұрын
violin - вайолин а не вайлион :)
@КаримовТемурбек
@КаримовТемурбек Жыл бұрын
всем привет , есть у кого-то файл с Д/З?
@kelavr8961
@kelavr8961 Жыл бұрын
нашли?
@ЕвгенийЧаплинский-ь9э
@ЕвгенийЧаплинский-ь9э 4 жыл бұрын
Есть видео с практикой?
@festline
@festline 4 жыл бұрын
если речь о демо-задании по 2 теме, то нет, видео нет
@dokers2084
@dokers2084 Жыл бұрын
sns.countplot(df["State"]) Выдает ошику ValueError: could not convert string to float: 'KS'
@dokers2084
@dokers2084 Жыл бұрын
Сработало только так sns.countplot(x="State", data =df)
@all4324
@all4324 Жыл бұрын
Здесь проблема в том, что countplot ждет dataframe в качестве data, а используя df["State"] мы подсовываем ему series, поэтому решение проблемы - передавать dataframe из одного нужного нам столбца, то бишь df[["State"]] (c двумя парами скобок). Ну и указать x='State' тоже надо
@handmagicteam
@handmagicteam 5 жыл бұрын
по-моему звук стал хуже
@ДушнилаШрёдингера
@ДушнилаШрёдингера 2 жыл бұрын
Может кто знает в задании, что приложено здесь по визуализации титаника просят убрать признак Cabin. Однако если его убрать, то вместе с ним удаляются все данные женской половины из данных. Возможно это такая специфика .drop?
@festline
@festline 2 жыл бұрын
Что-то пошло не так. Нет, drop должен просто убрать столбец, если передать аргумент axis=1: df.drop('column_name', axis=1). еще можно передать аргумент inplace pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html
@kelavr8961
@kelavr8961 Жыл бұрын
здравствуйте, а где взять домашнюю работу о статьях, нигде не могу найти файл (на кагл тоже нет)
@festline
@festline Жыл бұрын
добрый день! Ссылка в описании видео - bit.ly/3ygl0bE
@ШамильГаниев-ъ2ф
@ШамильГаниев-ъ2ф 3 жыл бұрын
Лектор: "Сделаем перерыв на 10 минут" И на видео заставка в течении 10 следующих минут...
@festline
@festline 3 жыл бұрын
убого, да
@ШамильГаниев-ъ2ф
@ШамильГаниев-ъ2ф 3 жыл бұрын
@@festline Больше неожиданно
@MegaFeel1
@MegaFeel1 3 жыл бұрын
@@festline да по моему, просто забавно))
@kuaranir2440
@kuaranir2440 3 жыл бұрын
это же так сложно прокрутить видео на 12 минут
How do Cats Eat Watermelon? 🍉
00:21
One More
Рет қаралды 9 МЛН
Inside Out 2: BABY JOY VS SHIN SONIC 3
00:19
AnythingAlexia
Рет қаралды 9 МЛН
Стойкость Фёдора поразила всех!
00:58
МИНУС БАЛЛ
Рет қаралды 3 МЛН
Все о принципах SOLID
16:07
Merion Academy
Рет қаралды 25 М.
Разбор реальной data science задачи
38:51
Alexander Ershov
Рет қаралды 197 М.
How do Cats Eat Watermelon? 🍉
00:21
One More
Рет қаралды 9 МЛН