EDA, РАЗВЕДОЧНЫЙ И ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ | MATPLOTLIB, SEABORN

  Рет қаралды 13,865

machine learrrning

machine learrrning

Күн бұрын

ВТОРАЯ ЧАСТЬ ЛЕКЦИИ: • КОД. EDA, РАЗВЕДОЧНЫЙ ...
Анализ данных в машинном обучении очень полезный этап. На лекции рассмотрим, какие графики есть, как их интерпретировать и для каких задач стоит применять.
Курсы на платформе Stepik:
1. Библиотеки Python для Data Science stepik.org/a/129105
2. Введение в нейронные сети (Keras/Tensorflow) stepik.org/a/127274
0:00 Введение
0:35 Для чего нужен EDA (Разведочный анализ данных)
1:26 Этапы EDA
2:09 Matplotlob и Seaborn
2:37 Устройство графиков в Matplotlib
4:13 Синтаксис создания графиков в Matplotlib
5:20 Полезные функции в Matplotlib
6:12 Оформление графиков. plt.style
6:56 Матрица корреляций через тепловую карту (heatmap)
10:15 Матрица для зависимости категориальных признаков
11:17 Линейные графики. plt.plot
11:39 Гистограммы. plt.hist. Плотность распределения
12:57 Диаграмма рассеяния. plt.scatter
13:16 Ящик с усами. Боксплот. plt.boxplot
15:01 Столбчатые диаграммы. plt.bar
15:30 Многорядные столбчатые диаграммы.
17:01 Столбчатые сложенные диаграммы. stacked barchart
18:11 Круговые диаграммы. plt.pie
18:46 Уникальные графики в Seaborn
18:59 sns.jointplot
19:46 sns.pairplot
20:50 sns.heatmap
21:10 Карта визуализаций. Когда какие графики применять при анализе данных
21:20 Графики для сравнений
22:04 Распределения признаков
22:23 Взаимоотношения признаков
22:36 Композиции признаков
23:47 Этапы EDA
23:54 1 этап. Изучение целевого признака
24:07 Изучение целевого признака в задаче регрессии
25:12 Изучение целевого признака в задаче классификации
25:27 Меры центральной тенденции
25:38 Меры центральной тенденции для задачи регрессии (среднее, медиана)
26:03 Меры центральной тенденции для задачи регрессии (мода)
26:09 2 этап. Изучение признаков
26:20 Изучение выбросов. Ящики с усами
27:04 Изучение выбросов. Гистограммы
27:30 Изучение пропусков. Тепловая карта
27:54 Изучение взаимного распределения признаков. jointplot
28:37 Матрица корреляций. Тепловая карта
28:50 Матрица корреляций. Проблема сильно скоррелированных признаков
30:28 3 этап. Изучение влияния признаков на целевой
30:35 Изучение взаимного распределения признаков. jointplot
30:56 Изучение взаимного распределения признаков. Ящик с усами
31:30 Изучение распределения признака для классификации
32:08 Резюме урока

Пікірлер: 52
@user-nq1ne7uq2t
@user-nq1ne7uq2t 2 жыл бұрын
Очень полезное видео. Вот сразу видно, что человек сам научился и может на пальцах другим обьяснить. Спасибо.
@askuznecoff
@askuznecoff 2 жыл бұрын
Круто рассказываешь! Останусь с тобой надолго.
@user-eh6rq5zr2b
@user-eh6rq5zr2b 2 жыл бұрын
Очень классное и полезное видео. Спасибо!😍
@andreyo.945
@andreyo.945 2 жыл бұрын
Спасибо огромное! Просто великолепное объяснение.
@saidkarimyuldashev6594
@saidkarimyuldashev6594 11 ай бұрын
Спасибо большое за видео! Очень информативно и полезно!!!
@Midjt
@Midjt 4 ай бұрын
Прекрасный урок! Спасибо!
@user-lj3yi6os6t
@user-lj3yi6os6t 2 жыл бұрын
Потрясающее видео! Спасибо большое! Все понятно и доступно. Прохожу сейчас небезызвестный платный курс, не буду говорить какой, но здесь сейчас я получила намного больше информации и понимания. Спасибо вам!
@GaPPFiLL
@GaPPFiLL 9 ай бұрын
Спасибо! Очень информативное видео, очень доступно объясняете материал. С меня лайк и подписка. Надеюсь что другие Ваши видео такие же понятные, так как они именно на те темы, что мне так нужны, еще раз спасибо за Ваш труд.
@rawwwr19
@rawwwr19 Жыл бұрын
Соглашусь, очень хорошо объясняете :) Мало где встречается объяснение основ типа иерархия объектов в matplotlib. А это значительно улучшает понимание. Для опытных людей по умолчанию кажется понятным, но новичков, кто в первый раз видит код, может стопорить.
@user-be2pk3tr6l
@user-be2pk3tr6l 2 жыл бұрын
Спасибо большое!
@zvezdochete
@zvezdochete 2 жыл бұрын
отличное видео! как всегда - понятно и наглядно, делайте больше)
@machine_learrrning
@machine_learrrning 2 жыл бұрын
Спасибо! Буду стараться почаще делать видео. А ещё будет лучше, если напишите, какие темы вам интересней послушать :)
@zvezdochete
@zvezdochete 2 жыл бұрын
@@machine_learrrning я вот увидел EDA и мне сразу пришли в голову статистические методы анализа переменных - какие библиотеки есть, работа с числовыми и категориальными переменными, ранжирование переменных, как привести таргет к нормальному распределению и тд. Если говорить про графики, то как наглядно визуализировать алгоритмы Random forest, KNN и тд. То есть больше прикладные задачи в ноутбуке) но я не знаю, было бы вам интересно говорить об этом
@machine_learrrning
@machine_learrrning 2 жыл бұрын
Спасибо большое за идеи! Посмотрю, что можно рассказать
@fordatascience2810
@fordatascience2810 Жыл бұрын
Спасибо за видео, очень полезно
@machine_learrrning
@machine_learrrning Жыл бұрын
Пожалуйста! Рада помочь 😸
@supergorod
@supergorod 2 жыл бұрын
Умничка! Очень не хватает живых примеров. Я бы сделал по 2-3 различных примера для каждой диаграммы. Это добавит ценности для зрителей.
@machine_learrrning
@machine_learrrning 2 жыл бұрын
Спасибо за идею!
@user-fr7df3tw1v
@user-fr7df3tw1v Жыл бұрын
Полезное видео
@user-jc7fq5uk7j
@user-jc7fq5uk7j 2 жыл бұрын
Спасибо большое! Все понятно и структурировано! Можете скинуть ссылку на урок с разбором кода?
@machine_learrrning
@machine_learrrning 2 жыл бұрын
Видео появилось на канале: kzbin.info/www/bejne/aGm7i5lme9tsY5I
@chekito
@chekito Жыл бұрын
Супер
@andreybelyusenko4496
@andreybelyusenko4496 Жыл бұрын
Умница, всё чётко и по делу. Очень познавательно. Спасибо. Такой вопрос, есть способ через hotplot показать корреляуию на большом количестве признаков, скажем на 50.(чтоб это было визуально понятно)
@Sabenova
@Sabenova Жыл бұрын
спасибо!
@machine_learrrning
@machine_learrrning Жыл бұрын
Всегда пожалуйста!
@qodirjonsafarov5416
@qodirjonsafarov5416 Жыл бұрын
Спасибо за старание вы очень доходчево обясняете, a можете снят EDA c plotly-express тоже?
@machine_learrrning
@machine_learrrning Жыл бұрын
Постараюсь :)
@antonkokin5698
@antonkokin5698 Жыл бұрын
Привет из GB . Отличный урок, спасибо огромное, а есть методичка-шпаргалка?
@machine_learrrning
@machine_learrrning Жыл бұрын
Очень рада, что видео понравилось! Из подобия методички могу предложить два сайта: 1. www.python-graph-gallery.com/ 2. datavizcatalogue.com/ на них можно выбрать нужные вид графика и почитать для чего он применяется
@fordatascience2810
@fordatascience2810 Жыл бұрын
Касательно усов ящика с усами на 14:20, когда разговор идёт об усах Вы говорите, что сказали что чаще всего они строятся как медиана +- полтора интерквартильных размаха Но matplotlib строит следующим образом $X_{нижний}= \check t_{0.25} - 1.5* (\check t_{0.75} - \check t_{0.25})$ $X_{верхний}= \check t_{0.75} + 1.5* (\check t_{0.75} - \check t_{0.25})$ Человеческая формула Нижняя граница = квантиль(0.25) - полтора интерквартильных размаха Верхняя граница = квантиль(0.75) + полтора интерквартильных размаха Проверил на своих данных на ящиках с усами Подскажите, пожалуйста, как лучше считать ненормальные значения, как Вы предложили или как считает matplotlib?
@machine_learrrning
@machine_learrrning Жыл бұрын
Лучше считать, как считает matplotlib, так более общепринято работать с выбросами и рисовать на этих показателях ящики с усами
@fordatascience2810
@fordatascience2810 Жыл бұрын
@@machine_learrrning Спасибо большое) Ваши видео очень помогли разобраться с EDA
@machine_learrrning
@machine_learrrning Жыл бұрын
@@fordatascience2810 Очень этому рада! :)
@boriskharaev3886
@boriskharaev3886 Жыл бұрын
@@machine_learrrning привет! а как считает matplotlib? медиана +- 1.5iqr?
@pankratovso
@pankratovso 2 жыл бұрын
Очень полезное видео, спасибо! По боксплотам не очень понял расчёт усов. Всегда полагал q1 - 1.5(q3-q1) и q3+1.5(q3-q1), здесь вроде говорится, что отнимаем и прибавляем к медиане…
@machine_learrrning
@machine_learrrning 2 жыл бұрын
Очень рада, что видео полезное! Есть разные способы потроения усов: 1. к среднему +- 3 сигмы 2. min, max 3. С медианой разные вариации 4. и тд
@pankratovso
@pankratovso 2 жыл бұрын
Спасибо за разъяснение, буду знать!) Видимо, я просто ориентировался на конкретную реализацию в matplotlib и seaborn.
@pankratovso
@pankratovso 2 жыл бұрын
Спасибо за разъяснение, буду знать!) Видимо, я просто ориентировался на конкретную реализацию в matplotlib и seaborn.
@pankratovso
@pankratovso 2 жыл бұрын
Спасибо за разъяснение, буду знать!) Видимо, я просто ориентировался на конкретную реализацию в matplotlib и seaborn.
@pankratovso
@pankratovso 2 жыл бұрын
Спасибо за разъяснение, буду знать!) Видимо, я просто ориентировался на конкретную реализацию в matplotlib и seaborn.
@enrewardronkhall8340
@enrewardronkhall8340 Жыл бұрын
Эм, а ничего что сиборн всецело и полностью основан на матплотлиб, поэтому все те графики, которые есть в сиборне априори есть в матплотлиб, с одной лишь оговоркой на простоту реализации.
@machine_learrrning
@machine_learrrning Жыл бұрын
да, так и есть, но в matplotlib нет heatmap, нет jointplot, pairplot в удобной упаковке, так что при надобности этих визуализаций лучше пользоваться seaborn или же писать очень большое кол-во строк кода на matplotlib
@svbdaa
@svbdaa Жыл бұрын
Хреново уже со старта. Там больше кастомизации, а там меньше. Я так и не понял, что имел ввиду автор. Что такое кастомизация, чего именно там больше - не понятно. Пошёл в гугл, тот сказал, что кастомизация - это подстройка товара под клиента. Ясности не добавило вообще. Хрен его знает о чём тут сказал автор...
@machine_learrrning
@machine_learrrning Жыл бұрын
Кастомизация от слова custom (пользователь), означает создание чего-либо лично для пользователя, лично для разработчика, который создает графики, захотел более яркие цвета - добавил, захотел больше столбик в гистограмме - добавил и т.д Жаль, что мое видео вам не помогло, благо есть куча других источников, где можно искать информацию :)
@svbdaa
@svbdaa Жыл бұрын
@@machine_learrrning Беда Вашего, как и многих других авторов видео в том, что не оговаривается, для кого это видео создано, на какой уровень подготовки зрителя оно ориентировано. Уже одно то, что Вы решились рассказать людям об показанных в видео инструментах, говорит о том, что Ваш рассказ предназначен для тех, кто с этими инструментами не знаком. В рассказе Вы употребляете узкоспециальную терминологию. Разумеется, раз зритель с теми инструментами не знаком, то и терминологию он не знает. Ему нужно это всё пояснять так, чтоб даже ребёнок понял. Но! Улыбнитесь :) не всё так плохо. Эту ошибку делает подавляющее большинство авторов на ютубе. Знания приходится собирать по крохам. Кое-что я всё же понял. Жаль вот только что подавляющее большинство слов Вашего звукоряда для меня как тарабарщина - придётся вникать через переводчика (то есть, копать не одну неделю термины, чтоб понять о чём конкретно речь). У меня реально другая беда. Я столкнулся с необходимостью визуализации больших массивов данных, взятых с валютного рынка. Я программирую на языке MQL4 уже более 15 лет (да и частично на других тоже - время от времени приходится делать dll-библиотеки). То есть, в программировании я не новичок. в С языком Python столкнулся впервые. И я уже больше недели пытаюсь написать код, который мне хоть что-то нарисует. Не получается хоть тресни - компилятор выдаёт постоянно всё новые и новые ошибки. Тупик какой-то. В случае, если ошибок нет, то просто ни чего не происходит. Вот смотрите, это малюсенький код, который я пытаюсь seaborn-ом визуализировать disk.yandex.ru/d/YEXsf6hID24JOw А это результат его выполнения disk.yandex.ru/i/q80cRr0I85hSJw
@troll_eybus
@troll_eybus 3 ай бұрын
@@svbdaa нарисовать получилось? А кастомизировать?
@svbdaa
@svbdaa 3 ай бұрын
@@troll_eybus Нарисовать получилось. Для этого мне пришлось на одном из форумов найти тегеграмм-канал, в котором по кодам помогают. Кастомизацию я так и не понял. Отложил пока всё в долгий ящик. Я программирую на MQL4 и уже давно. Поднавалилось сейчас заказов. Просто не до ппайтона сейчас
@nadyamoscow2461
@nadyamoscow2461 Жыл бұрын
Большое спасибо. Очень полезное и познавательное видео.
Who’s more flexible:💖 or 💚? @milanaroller
00:14
Diana Belitskay
Рет қаралды 18 МЛН
Miracle Doctor Saves Blind Girl ❤️
00:59
Alan Chikin Chow
Рет қаралды 60 МЛН
They RUINED Everything! 😢
00:31
Carter Sharer
Рет қаралды 15 МЛН
EDA: разведочный анализ данных
7:13
Центр digital профессий ITtensive
Рет қаралды 2,7 М.
Как обесценивается высшее образование
7:03
Простая экономика
Рет қаралды 1,2 МЛН
Exploratory Data Analysis with Pandas Python
40:22
Rob Mulla
Рет қаралды 423 М.
Who’s more flexible:💖 or 💚? @milanaroller
00:14
Diana Belitskay
Рет қаралды 18 МЛН