А/B тестирование и анализ данных в Python // Урок 6 от Skypro

  Рет қаралды 23,350

Skypro: онлайн-университет

Skypro: онлайн-университет

Күн бұрын

Пікірлер: 52
@skypro.university
@skypro.university 3 жыл бұрын
💪 Записывайтесь на программу «Аналитик данных» по ссылке go.sky.pro/da_youtube Подписывайтесь на канал, чтобы не пропустить следующие уроки!
@art_alf-b9b
@art_alf-b9b 5 ай бұрын
Намного понятнее, чем на Яндексе практикум, спасибо!!!
@lemonadejoe9036
@lemonadejoe9036 9 ай бұрын
Прекрасное видео! Ведущая чудо! Слушать приятно и понятно)
@3dport
@3dport 3 жыл бұрын
Очень классно преподнесено. Всё по полочкам и в правильной последовательности. Спасибо большое за видео!
@ФилиппКучерявых
@ФилиппКучерявых 11 ай бұрын
Отличное видео, важные моменты обозначены
@Aleksandrsvideo
@Aleksandrsvideo Жыл бұрын
Спасибо большое за видео! 👍 Всё очень интересно и довольно понятно рассказано.
@newwonen
@newwonen 7 ай бұрын
Мне очень понравилась и подача материала, и как снят ролик, ничего не раздражает., все доступно объяснено, молодцы!!! единственное - не понятно где взять датасет для тренировки.
@ЕлизаветаИстратова-р9ч
@ЕлизаветаИстратова-р9ч 11 ай бұрын
Добрый день, а где можно найти датасет. на котором вы работали?
@BariLav
@BariLav 2 жыл бұрын
а где скачать материал чтобы сделать дз? В ссылке что пришла нет дз материала
@АнастасияКобцева-п4н
@АнастасияКобцева-п4н 2 жыл бұрын
Добрый день, а где найти файлы к дз? По ссылке доступа их нет, убрали…?
@ДмитрийЖданов-ш6я
@ДмитрийЖданов-ш6я 2 жыл бұрын
После понимания p-value я понял A/B тестирование!
@smm6280
@smm6280 2 жыл бұрын
спустя время я вроде понял полностью A/B тестирование
@МихаилБеляков-э4н
@МихаилБеляков-э4н 2 жыл бұрын
добрый день, а в данном случае выборки у нас при сравнение ср чека несвязанные ? я попробовал применить тест мана уитни , и результаты противоречащие бутсрепу, не могли бы объяснить почему
@skypro.university
@skypro.university 2 жыл бұрын
Добрый день! Выборки предполагаются несвязанными. Критерий Манна-Уитни имеет другую нулевую гипотезу: вместо того, чтобы проверять, что средние равны, он проверяет, что распределения двух выборок равны. Результаты t-test (как и бутстрапа) не обязаны давать такой же результат, как критерий Манна-Уитни, так как можно встретить ситуацию, когда у двух выборок или равны средние, но не равны распределения, или, наоборот, равны распределения, но не равны средние.
@МихаилБеляков-э4н
@МихаилБеляков-э4н 2 жыл бұрын
Добрый день, в домашнем задании к этому уроку в расчете мощности =52%, остальные две больше 80, как это правильно трактовать ? общая мощность без разбивки на устройства около 95% а составляющая mobile_power меньше 80, считать ли данный тест корректным ?
@МаксимГригорьев-ь6х
@МаксимГригорьев-ь6х 3 жыл бұрын
Добрый день. Не в укор говорю, а ради интереса. Где можно найти подверждение тому, что т-тест не применим к биномиальному распределению?
@skypro.university
@skypro.university 3 жыл бұрын
Здравствуйте, Максим. T-тест нацелен на сравнение средних для выборок с нормальным распределением. А случайная величина, подчиняющаяся биноминальному распределению - это, по сути, количество успехов в серии из какого-то числа одинаковых независимых испытаний Бернулли. То есть для неё вообще некорректно считать среднее значение по выборке. Подробнее можно почитать тут: samoedd.com/soft/r-t-test ru.wikipedia.org/wiki/%D0%91%D0%B8%D0%BD%D0%BE%D0%BC%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5
@maximgrigoriev1174
@maximgrigoriev1174 3 жыл бұрын
@@skypro.university здравствуйте. Но разве питоновский т-тест под капотом не нормализует биномиальное распределение, после чего сравнивает средние? У меня скромный опыт, но по моим наблюдениям т-тест зачастую показывает те же результаты, что хи2
@skypro.university
@skypro.university 3 жыл бұрын
@@maximgrigoriev1174 Что вы имеете ввиду под "питоновским т-тестом"? Т-тест из какой библиотеки имеется ввиду? Что вы понимаете с математической точки зрения под "нормализацией биномиального распределения"?
@m-a-khozin
@m-a-khozin 3 жыл бұрын
@@maximgrigoriev1174 есть такая штука, как центральная предельная теорема. Если у вас очень большая выборка, то среднее значение (а именно его и анализирует ttest будет распределена нормально). То есть если вы работаете в условиях асимптотического распределения, то у вас всё прекрасно взлетит. Кстати, в этом смысле так же не будет разницы между ttest и ztest (теста на основе нормального распределения). Но по своему дизайну тест Стьюдента (ttest) создавался для малых объемов выборок. И вот как раз тут всё сломается. Попробуйте погонять тесты с объемами данных от 10 до 50. И посмотрите на результаты.
@m-a-khozin
@m-a-khozin 3 жыл бұрын
Можно открыть оригинальную статью про распределение Стьюдента. Или любой учебник по статистике. Применять-то можно любой тест к любому набору данных. Но математически строгих результатов вы при этом не получите. То есть, например, посчитанное значение p-value не будет соответствовать вероятности ошибки. И в итоге вы ошибетесь в интерпретации результатов.
@atlant1707
@atlant1707 Жыл бұрын
Не совсем понятно, зачем вводится понятие "окно конверсии", если в итоге для определения времени эксперимента считается минимальный детектируемый эффект? Если нам интересна конкретная атрибуции, то это можно допустить, но и то с большой натяжкой, так как не понятно какая может быть причина так усложнять тест.
@МихаилБеляков-э4н
@МихаилБеляков-э4н 2 жыл бұрын
И еще 1 вопрос про доверительный интервал, значени 0, это конкретно для этой задачи ? или это вообще и применима для всех задач ?
@skypro.university
@skypro.university 2 жыл бұрын
Здравствуйте, Михаил! Для того чтобы подтвердить или опровергнуть гипотезу о наличии разницы между двумя выборками с точки зрения среднего, необходимо сформулировать нулевую гипотезу следующим образом: AVG1 = AVG2 (среднее в первой выборке = среднее во второй выборке). Можно переформулировать как: AVG1 - AVG2 = 0. Соответственно, получая в бутстрапе множество различных выборочных значений AVG1 - AVG2, мы проверяем, что 95% этих значений разницы включают в себя ноль, как гипотетическую разницу из нулевой гипотезы. То есть это применимо ко всем задачам, где нулевая гипотеза имеет такой вид.
@giokut
@giokut 3 жыл бұрын
А домашнее задание только при покупке курса можно пройти?
@skypro.university
@skypro.university 3 жыл бұрын
Выложили в открытый доступ, спасибо что обратили внимание: sky.pro/python_yt_assets
@ioeeen
@ioeeen 2 жыл бұрын
У Вас не осталось материалов по курсу? сейчас уже недоступны
@alex_iceberg
@alex_iceberg 3 жыл бұрын
если бы в университетах рассказывали так, как девушка на видео, не было бы потерянных людей после окончания данных заведений...
@skypro.university
@skypro.university 3 жыл бұрын
Спасибо!)
@denisdolzhenkov4992
@denisdolzhenkov4992 2 жыл бұрын
Было бы хорошо, поверить правильно ли решил домашнее задание, вычислил все построил, а так ли? в 5 задании 0 ни в одной группе не попал в доверительный интервал...
@salivona
@salivona 3 жыл бұрын
Спасибо за видео, ввел почту на сайте, ничего не пришло втч не в спам.
@skypro.university
@skypro.university 3 жыл бұрын
Александр, здравствуйте. Видим две ваших заявки на почту в gmail. Уточните, пожалуйста: письмо так и не пришло? Проверяли спам? Обратите внимание, что в Gmail во "входящих" есть также выбор разделов "соц.сети", "промо-акции" - проверяли их?
@skypro.university
@skypro.university 3 жыл бұрын
Александр, на всякий случай продублировали вам письмо. У нас происходит смена платформ рассылок, возможны баги. В любом случае, спасибо что написали о проблеме!
@BlackOrangeSunshine
@BlackOrangeSunshine 2 жыл бұрын
@@skypro.university Здравствуйте! очень нравится эта серия уроков, крайне познавательно, НО, к сожалению, ни материалы, ни домашние задания по ссылке мне тоже не пришли (проверила все папки на почте, запрос делала дважды) :(
@MNaumov
@MNaumov 2 ай бұрын
Раньше выпивал, сейчас считаю p-val
@НиколайГубанов-й5ь
@НиколайГубанов-й5ь Жыл бұрын
На кого рассчитано это видео? На тех, кто уже собаку съел в части статистики? У вас же курс для тех, кто только начинает знакомиться с этой профессией. А тут после 10-ой минуты рассказчик уходит в какие-то непонятные неискушенному зрителю дебри, причем рассказывает это с максимально возможной скоростью. Можно было бы еще усилить эффект, добавляя слово "очевидно" после каждого нового термина. Тогда бы слушатель окончательно понял, что он полное ничтожество в обсуждаемом вопросе и в аналитике в общем
@maximum3463
@maximum3463 6 ай бұрын
Ничего не понял
@art_alf-b9b
@art_alf-b9b 4 ай бұрын
потому что надо начинать с озов
@ГеоргийЗагорский-э5к
@ГеоргийЗагорский-э5к 2 жыл бұрын
Статистически неверно брать такие процентили при построении доверительного интервала в бустрепе. Нужно учитывать ваше стандартное отклонение по выборке(стандартую ошибку среднего) и брать 96 процентный интервал через mean (+-) 2 * std, в таком случае вы не потеряете нужные миллиметры и все будет сделано аргументировано. По такой логике я могу брать интервалы в 50 процентов и принимать все альтернативные гипотезы
@one_advice
@one_advice Жыл бұрын
Может исключить ненужную воду и лишнюю эмоциональную болтовню?
@varvaragordeeva9548
@varvaragordeeva9548 Ай бұрын
Ужасное объяснение в отличии от предыдущего спикера.
@ivanshipilov4265
@ivanshipilov4265 3 жыл бұрын
Смотрю это и многие подобные видео и не могу понять. А нафиг нужен питон. На 100% уверен, что подобные вещи без проблем можно посчитать в какой либо прикладной программе да даже в том же эксель на много быстрее. А тут нужно писать код. Мало того, что помнить как все эти заклинания пишутся, так еще и придумать когда какое из них нужно. Зачем делать сложно то что можно сделать просто? Это как в уроке где человек экспортировал при помощи питона таблицу для анализа из вордовского файла. ... Чтобы написать код и заставить его работать на конкретном документе человек потратил минут 40. При этом многое осталось за кадром. В то время как если бы он просто даже не скопировал и вставил, а вручную перепечатал с клавиатуры он бы потратил не больше 4 минут.... Не понимаю. ЗАЧЕМ? Все равно что микроскопом гвозди заколачивать.
@skypro.university
@skypro.university 3 жыл бұрын
Изучение Excel тоже входит в обучающую программу на аналитика данных. Но если говорить именно о применимости Python, то стоит отметить, что Excel не является инструментом для анализа данных и имеет свои ограничения (до 1 048 576 строк и до 16 384 столбцов). Python же универсален и отлично подходит для работы с неограниченным объемом данных. Кроме того, он очень удобен для автоматизации процессов. Также используя этот инструмент можно одновременно работать с данными из нескольких источников, например CSV, Excel, JSON, SQL. Аналитики экономят много времени проводя расчеты, создавая отчеты или динамические дашборды, тогда как в Excel многие данные приходится вводить вручную. Python поддерживает множество продвинутых инструментов, которых нет в Excel, например Matplotlib, Streamlit, Numpy и т.д. Ну и наконец воспроизводимость. По этому параметру Excel тоже далеко позади. Все это, естественно, не означает, что Excel бесполезен. Для небольших объемов данных он отлично подходит. Но если аналитик данных претендует на работу с большими числами, на рост своих компетенций, на работу в крупных и международных компаниях, тогда без Python не обойтись. Сегодня это уже стандарт индустрии.
@osvab000
@osvab000 2 жыл бұрын
Таблица Эксель со связанными формулами - это страшно тяжелый, непроворотливый файл. Попробуй в него загрузить данных, ну тысяч на 500 строк! Поймешь тогда чем отличается Питоновская прога от Экселевской таблицы!
@ivanshipilov4265
@ivanshipilov4265 2 жыл бұрын
@@osvab000 Ну. Такие вопросы на раз два решает PQuery и PPivot встроенный в Excell. Работают быстро и результат виден сразу + - 10М строк обработать не вопрос. Другое дело когда нужно обработать что-то не локально, а напрямую на сайте или сервере, ну да тогда придется загеморроиться с Питоном или сделать что-то не стандартное. Большой плюс питона (он же минус) что он может работать с любой размерности числами (которые как правило не нужны), ну и сам формат хранения чисел. Например 1,2345 - 1 в питоне будет 0.2345000000000006. А в Эксель будет =0.2345 Я не говорю что он не нужен. Но обрабатывать локальные файлы из экселя или ворда на + - 500 000 строк питоном.... это как из пушки по воробьям. Отдельного упоминания стоят алгоритмы сортировки данных. Если в SQL и PowerPivot (как никак БД) есть индексы. То питон прогоняет данные в сыром виде. Со всеми вытекающими. Разным кораблям разные торпеды.
@ivanshipilov4265
@ivanshipilov4265 2 жыл бұрын
@@ivana_frank Есть такая вещь как целесообразность. Пока данные легко влезают в эксель и не требуют никаких дополнительных танцев с бубном, зато нужно посчитать здесь и сейчас - их проще и быстрее обработать в экселе. Если же его функционала не достаточно, то тогда уже что-то посерьезнее, тот же питон к примеру. Вот правда любят разработчики многое усложнять. Например месяц назад видел как 5 человек вместо того чтобы просто написать свои регистрационные данные в одинаковых документах убили 90 минут только для того чтобы придумать код, как им быстро внести свои данные в договоры. Вот только нахрена, если заполнить 5 одинаковых форм требуется 5х2=10 минут (максимум). Когда у человека слишком много мозгов, он начинает пытаться жарить яичницу на термоядерном ректоре (который перед этим проектирует и строит), вместо того чтобы использовать любую электроплиту, а оставшееся свободное время посвятить чему-нибудь более полезному. И еще нужно перед тем как заморачиваться выяснить, а кто собственно конечный потребитель. И в каком формате ему эти данные нужны.
@ivanshipilov4265
@ivanshipilov4265 2 жыл бұрын
​@@ivana_frank Есть бизнес большой и есть малый. Есть большие деньги и есть малые. Есть большие данные, есть очень большие, а есть несколько десятков тысяч или сотня тысяч записей в месяц, а то и год. Не все компании оперируют такими объемами. И не у всех бизнес в облаках. Атомная электростанция это хорошо и мега круто . Но только не в том случае когда она строится исключительно ради 10 лампочек в соседнем сарае. И потому я принципиально не понимаю ситуацию когда вокруг таблички в 100 - 1000 строк пляшут с бубном питон разрабтчики. Только ради того чтобы почесать свое ЧСВ.
@TheRoba33
@TheRoba33 Жыл бұрын
Что за жестикулирование руками странное? Вы прошли какой-то психологический тренинг?
@art_alf-b9b
@art_alf-b9b 5 ай бұрын
что за неадкеватный комментарий?
@maximum3463
@maximum3463 5 ай бұрын
Ничего не понял
It’s all not real
00:15
V.A. show / Магика
Рет қаралды 20 МЛН
1% vs 100% #beatbox #tiktok
01:10
BeatboxJCOP
Рет қаралды 67 МЛН
Уровни требований к ПО: руководство для аналитика
8:07
IT Analysis • Виктор Запсельский
Рет қаралды 264
Лекция 7. A/B тестирование. Тест для пропорций
20:09
003. A/B тесты и как мы их готовим - Станислав Гафаров
31:17
Яндекс Образование
Рет қаралды 25 М.