Карта статистических методов - bootstrap VS t - test | Вебинар Анатолия Карпова | karpov.courses

  Рет қаралды 70,928

karpov.courses

karpov.courses

Күн бұрын

Курс «Аналитик данных»: bit.ly/3UeT8yj
Продолжаем серию вебинаров по статистике!
Все мы знаем, что статистика - штука настолько многогранная, что одну и ту же гипотезу можно проверить абсолютно разных способами, и наоборот - использовать один метод для анализа данных в различных задачах.
На прошлом вебинаре мы разобрали, как не запутаться в задачах регрессии и корреляции. В этот раз будем говорить о том, как:
● сравнить несколько групп с использованием такого метода как t-test;
● выжить, если в данных много нулей и пункт выше не работает (спойлер: с помощью Mann-Whitney U-test);
● повысить точность предсказания с Bootstrap.
Код и данные по ссылке yadi.sk/d/-TLe...
Учитесь Data Science с нами: karpov.courses/

Пікірлер: 70
@VladNykytenko
@VladNykytenko 4 жыл бұрын
шикарный вебинар. запишите пожалуйста вебинар про разбор бутстрепа под капотом, очень интересно услышать от вас эту лекцию
@karpovcourses
@karpovcourses 4 жыл бұрын
Будет сделано!)
@Инкогнито-ц7л
@Инкогнито-ц7л 4 жыл бұрын
Плюсую+++
@РомановАндрей-х2д
@РомановАндрей-х2д 3 жыл бұрын
@@karpovcourses по-прежнему ждём)
@Astronomka
@Astronomka 3 жыл бұрын
поддержу Романова Андрея, очень хочется про бутстрап подробнее! Особенно как его применять на данных типа выручка и arpu
@lexa_russ
@lexa_russ Жыл бұрын
@@karpovcourses еше ждем, как хатико)
@ИванБорисов-м6ь
@ИванБорисов-м6ь Жыл бұрын
Анатолий, на самом деле так и не стало понятно, требуется ли т-тесту нормальность выборки? На мой взгляд, нет. Если просимулировать A/A-тесты из экспоненциального распределения, то т-тест ошибается ожидаемо (~5% ошибок при альфе=0.05). Кроме того (опять же на мой взгляд), вы допускаете вольные высказывания насчет Манна-Уитни. В индустрии говорят (например, ребята из Авито доказывают это), что тест Манна-Уитни в принципе нежелательно использовать, тк он дает очень много ложных срабатываний и не всегда в принципе отражает реальное положение дел.
@jinsaw5129
@jinsaw5129 6 ай бұрын
3 года прошло, а я все жду выпуск про bootstrap😂
@ЧеловекЧеловек-г8д
@ЧеловекЧеловек-г8д 4 ай бұрын
В курсе аналитик данных от karpov курсов он есть, правда там небольшой ролик на эту тему. Не думаю, что только ради этого нужно покупать весь курс, но ролик можно найти где-нибудь в сливах😅
@vetedde
@vetedde 3 жыл бұрын
Можно, пожалуйста, ссылку на предыдущий вебинар, на который вы ссылайтесь в начале видео?
@nonamenoname3601
@nonamenoname3601 4 жыл бұрын
Был бы очень благодарен если бы Вы выложили отдельным плей-листом все видео о статистике на Ваш ютуб канал, так как в Украине вк ещё забанен, а пользоваться VPN и вспоминать пароль от вк как то очень не хочется
@FireSonix
@FireSonix 3 жыл бұрын
У кого пропал звук - не пугайтесь, в видео есть три таких места, где читать надо по губам!
@Uncle_dijkstra
@Uncle_dijkstra 4 жыл бұрын
Отличный вебинар. Спасибо!) Интересно стало посмотреть на пример выбора теста на основе симуляции и АА тестов, раз уж он был упомянут )
@gsm7490
@gsm7490 Жыл бұрын
За Степик уважуха!
@gr2033
@gr2033 2 жыл бұрын
"И это то зачем мы здесь собрались")) Отличный семинар, отличный курс по аналитике на Карпов Курсес. Юмор Анатолия с годами статистически значимо превосходит английский.
@karpovcourses
@karpovcourses 2 жыл бұрын
Трай ту спик фром май харт!
@Anonymous00754
@Anonymous00754 3 жыл бұрын
о и да можно продвинутое юзание в пайчарме?? а то привык к спайдеру и тетради что от пч отвык да и сильно в нем не углублялся(
@Anonymous00754
@Anonymous00754 3 жыл бұрын
супер круто мега спасибо! вопросы есть конечно) проходил и дс и стат на степике твой оч благодарен! есть вопрос по выбросам так и не понял пересмотрел и читал кучу всего в итоге что делать то как раз если вот у тебя в 50нике есть пару выбросов и они ушли за 3 сигма) что тут делать? ждем более детальных подробных не школьных стат!))
@mazaltov7284
@mazaltov7284 3 жыл бұрын
в конце ноутбука написано вот что: 5.4687657931866705e-08 < 0.0000002, я так понимаю 1-е число это получившееся p-value как результат применения функции, а второе число это порог допустимой значимости. Такой вопрос как мы получили это число - 0.0000002? и как вообще делать поправку на множественные сравнения в этом случае? Например, я беру поправку Бонферрони. Нужно ли мне мой порог (0.01) делить на количество бустреп выборок? а если я сравниваю 2 выборки по 20 признакам?
@germansokolov4226
@germansokolov4226 3 жыл бұрын
не совсем понятно, как оценить доверительный интервал в случае бутстрапа. можно ведь взять бесконечно большое кол-во выборок по N, тогда confidence interval станет точкой
@mariyaalberdina9917
@mariyaalberdina9917 Жыл бұрын
Очень хороший материал! Спасибо вам! Как всегда изложение на высоте и очень полезно)
@andreygolobokov372
@andreygolobokov372 4 жыл бұрын
Здравствуйте, Анатолий! Пожалуйста, дайте ссылку на ноутбук к видео.
@karpovcourses
@karpovcourses 4 жыл бұрын
Код и данные по ссылке yadi.sk/d/-TLefuXoV7Z7FQ?w=1
@gikis1
@gikis1 4 жыл бұрын
@@karpovcourses thnx!
@Николай-ф7н7у
@Николай-ф7н7у 2 жыл бұрын
Анатолий, здравствуйте! У меня обе выборки по распределению Пуассона, количество значений в каждой около 1000. Какой метод правильнее применить?
@karpovcourses
@karpovcourses 2 жыл бұрын
Используйте непараметрику, не прогадаете
@Николай-ф7н7у
@Николай-ф7н7у 2 жыл бұрын
@@karpovcourses Благодарю за ответ. Применил непараметрические критерии (Манна-Уитни и Бутстрэп). В случае с Манна-Уитни p-value составило 0.032, а при Бутстрэп p-value составило 0.24 (mean, 1000 подвыборок). Какая причина такого различия может быть и на что ориентироваться?)
@GolubevAleksandr
@GolubevAleksandr 2 жыл бұрын
Про сон во сне тоже подумал :D
@olegmakarikhin
@olegmakarikhin 4 жыл бұрын
Карпов - верни ̶с̶т̶е̶н̶у̶ курс на степике.
@karpovcourses
@karpovcourses 4 жыл бұрын
скоро вернем!)
@hrportalru
@hrportalru 5 ай бұрын
А где бы найти прошлый вебинар? что-то не гуглится
@BoQbL1k
@BoQbL1k Жыл бұрын
Вы тоже теперь когда говорите качаете головой из стороны в сторону как Анатолий?
@grievingdad5848
@grievingdad5848 Жыл бұрын
Отличный вебинар. Огромное спасибо, Анатолий!
@jinsaw5129
@jinsaw5129 6 ай бұрын
Выпуск пушка в меру упростил в меру осветил 🎉
@marines8725
@marines8725 2 жыл бұрын
спасибо!
@maxp1059
@maxp1059 2 жыл бұрын
Подскажите пожалуйста 2 вопроса: 1) Если я хочу проверить одни и те же гипотезы с помощью t-test, u-test и бутстрап, нужно ли делать поправки как при множественных сравнениях? 2) В коде бутстрапа, что использует Анатолий, мы берем размер бут-выборок равный размеру большей выборки. Не нужно ли как-то изменить данный параметр для таких несбалансированных выборок как в примере 90% на 10%? А то получается, что из выборки размером 50 мы берем выборку с возвращением в 500
@mazaltov7284
@mazaltov7284 3 жыл бұрын
как в таком случае посчитать effect size? где об этом почитать? Cohen's d - размер эффекта для t-test, Rank-biserial correlation - размер эффекта для u-test, а для bootstrap?
@СергейГоворун-ы5к
@СергейГоворун-ы5к 2 жыл бұрын
Толково рассказано! Спасибо!
@rumsultan1226
@rumsultan1226 3 жыл бұрын
как участвовать в онлайн чате, глюк KZbin
@МаксимКан-ц2м
@МаксимКан-ц2м Жыл бұрын
Спасибо большое. Картина выстроилась более понятно
@ЮлияГраница-н3р
@ЮлияГраница-н3р Жыл бұрын
Спасибо! Слушать интересно.
@Zacher772
@Zacher772 2 жыл бұрын
Что же там про ману небесную? :DD
@alexeykruglov8185
@alexeykruglov8185 Жыл бұрын
Хороший обзор, спасибо)
@serj.parshin
@serj.parshin Жыл бұрын
Спасибо за отличное видео ❤
@DataAnalystVictoria
@DataAnalystVictoria 3 жыл бұрын
Анатолий, большое спасибо за ваши видео и за курс на Степике. Думаю о том, чтобы прийти на ваши курсы Karpov Courses. Правильно ли я понимаю, что на ваших курсах делается упор на практику? Я уже многое изучила: sql, основы Python с его библиотеками для анализа данных и даже немного минимум по линейной алгебре (чтобы хоть чуть-чуть понимать в матрицах), визуализацией почти не занималась. Я чувствую, что мне не хватает реальной практики, может даже какой-то стажировки, чтобы отработать и закрепить знания. У Вас есть предложение для таких как я? Может какой-нибудь буткемп? Не хотелось бы долго зависать на азах, хотя полезность повторения я ни в коем случае не отрицаю, хочется уже что-то более-менее приближенное к реальной работе. В моём случае все ещё осложняется тем, что на своей позиции и на своём месте работы (отсталая во многих отношениях государственная структура) я не могу применять полученные знания, быстро забываются какие-то важные моменты, полученные во время обучения.
@Shepshenga
@Shepshenga Жыл бұрын
великолепно
@sanitarnov
@sanitarnov 4 жыл бұрын
Отлично, все понятно. Спасибо
@ВладГолдованський
@ВладГолдованський 2 жыл бұрын
Возможно пропустил этот момент. Но можно ли с помощью bootstrap подвыборок оценивать p-value каких нибудь тестов? например те же Манна-Уитни или т-тест.
@karpovcourses
@karpovcourses 2 жыл бұрын
А зачем? В этих тестах мы же и так можем рассчитать п валью?
@ВладГолдованський
@ВладГолдованський 2 жыл бұрын
@@karpovcourses Да, но если bootstrap'ом мы можем более точно измерить среднее, медиану и т.д., то нельзя ли адаптировать bootstrap так чтобы получить более точный результат тестов или получить больше информации про его результаты(например учесть те же ошибки первого/второго рода)? Ну или как-то по другом извлечь для себя пользу?
@vadimnan8117
@vadimnan8117 4 жыл бұрын
Где посмотреть прошлый вебинар?
@karpovcourses
@karpovcourses 4 жыл бұрын
vk.com/karpovcourses?w=wall-169934613_215
@nonamenoname3601
@nonamenoname3601 4 жыл бұрын
@@karpovcourses Был бы очень благодарен если бы Вы выложили отдельным плей-листом все видео о статистике на Ваш ютуб канал, так как в Украине вк ещё забанен, а пользоваться VPN и вспоминать пароль от вк как то очень не хочется
@ilyin_sergey
@ilyin_sergey 3 жыл бұрын
Вопрос по статтестам: есть наблюдения по двум точкам за три месяца. Хочу понять, как изменяется (и статзначимо ли изменяется) распределение наблюдений от месяца к месяцу и выяснить - кто менялся от первого месяца к третьему больше всего (в том числе и туда-обратно? покритикуйте план: 1/ сравниваю внутри точек тестом Колмогорова-Смирнова (или Манна-Уитни) первый месяц со вторым, второй с третьим, первый с третьим. Получаю три числа - численное выражение различий. Суммирую. 2/ делаю вывод, что та точка, сумма которой получилась больше - изменялась сильнее или есть какие-то другие тесты для таких штук?
@vladlitvinyuk6159
@vladlitvinyuk6159 3 жыл бұрын
Мне одному bootstrap похож на бустинг?
@СтепанЦыбин-ю9д
@СтепанЦыбин-ю9д 3 жыл бұрын
Воснове бустинга и лежит идея бутстрапа. Посмотрите что означает слово бустинг с английского )
Players vs Corner Flags 🤯
00:28
LE FOOT EN VIDÉO
Рет қаралды 75 МЛН
Do you choose Inside Out 2 or The Amazing World of Gumball? 🤔
00:19
GIANT Gummy Worm Pt.6 #shorts
00:46
Mr DegrEE
Рет қаралды 101 МЛН
Стойкость Фёдора поразила всех!
00:58
МИНУС БАЛЛ
Рет қаралды 4,4 МЛН
003. A/B тесты и как мы их готовим - Станислав Гафаров
31:17
Яндекс Образование
Рет қаралды 24 М.
Players vs Corner Flags 🤯
00:28
LE FOOT EN VIDÉO
Рет қаралды 75 МЛН