Как и зачем оценивать размер выборки для A/B теста?

Рет қаралды 52,853

karpov.courses

Күн бұрын

Пікірлер: 61

@ИванГорбык 3 жыл бұрын

Наверное, лучший лектор по аналитике

@alexei_noskov 2 жыл бұрын

поддерживаю

@maximryazantcev4173 2 жыл бұрын

Наверное тут лишнее)

@beorb2b 2 жыл бұрын

Хотел посмотреть вечером сериал, но забыл про него. Невероятно, но факт: от этой лекции по статистике невозможно оторваться! Спасибо!

@vo_sk 3 жыл бұрын

Большое спасибо за такой хороший и понятный разбор темы, вроде бы слышал это много раз, но у Вас получилось объяснить это легко и наглядно. Очень ждём продолжения на тему более сложных кейсов.

@Astronomka 3 жыл бұрын

Спасибо огромнейшее за это видео!!! Я наконец-то поняла про mde! Анатолий - лучший

@kattynia5956 3 жыл бұрын

пришлось переслушивать несколько раз, но наконец поняла, что такое мощность и двухсторонняя гипотеза! спасибо Анатолию :)

@gikis1 3 жыл бұрын

Прям кайфанул, детально разбирая код на питоне и оценил всю мощь ЦПТ симулируя подвыборки и глядя на увеличение чувствительности критерия) спасибо!

@ИлонаИнч 2 жыл бұрын

Анатолий, вы🔥☺ сейчас прохожу курс и параллельно смотрю ваши другие видосы

@2443121z 3 жыл бұрын

Как и ожидалось, отличное видео!

@alexostudin4940 3 жыл бұрын

Чуть лайк не забыл поставить. Что недопустимо!)))

@alexpanimash8155 3 жыл бұрын

Круто! жду следующие серии!

@MaraLearns Жыл бұрын

Спасибо большое за контент❤ (я фанатка) но где обещанное продолжение с темой "как тестировать, если какие-то очень хитрые метрики с непонятными распределениями"🙃

@LVGavr 9 ай бұрын

Посмотрел, супер, интересно и полезно

@artborovik Жыл бұрын

Ничего не понял, но оч интересно

@ИгорьПашков-п8к 2 жыл бұрын

Отличное видео! Я прямо в своём познании преисполнился. Подскажите, пожалуйста, где найти продолжение этого вебинара, которое вы анонсировали? Буду очень признателен, а то на ютубе никак не могу найти

@evgenialakeeva2189 5 ай бұрын

Спасибо за трансляцию, очень интересно! Подскажите, пожалуйста, правильно понимаю, что в данном случае мы используем одновыборочный критерий? Соответственно для NormalIndPower/TTestIndPower необходимо использовать ratio=0, тогда и результат ручных расчетов через систему уравнений приблизительно равен результату NormalIndPower(ratio=0, ...)?

@АлександрДоценко-ы3с 6 күн бұрын

чем меньшее значение нужно задетектировать, тем меньше вероятность сделать это правильно?) т. е. меньше мощность?

@Amidamarruu 8 ай бұрын

и правда все супер понятно!

@КириллЧе-я5ы 2 жыл бұрын

Все правильно по интерпретации незначимости результата - ав тест условие необходимое, но если он не прокрашен, надо дальше работать, а не принимать сходу одну из гипотез… имхо

@МихаилБеляков-э4н 2 жыл бұрын

Добрый день, а при расчёте в питоне размера выборки, что бы получить общий размер мы должны домножить на 2 ? и 2ой вопрос, формула для подсчета размера эффекта для разницы, справедлива при условии что выборки одного рзмера ?

@АндрейТимонин-ч6к Жыл бұрын

Здравствуйте! Пожалуйста, подскажите, кто знает из гостей канала или ее автор - почему мы сигму делим на корень из 16, находя стандартную ошибку. Ведь, если я правильно понимаю, сигма - это стандартное отклонение генеральной совокупности, как и 100 в данном примере - средняя арифметическая генсовокупности, что в рамках ЦПТ говорит о постоянстве этих величин. Ее не надо по идее делить на 4, находя стандартную ошибку, т.к. эта операция проводится для выборки с целью экстраполяции на генсовокупность, т.к. точечная оценка несмещенности для стандартного отклонения не выполняется и для приближенного вычисления следует как раз стандартное отклонение ВЫБОРКИ и делить на корень из ее размера. А в этом примере, насколько я понял, сигма - это уже параметр генсовокупности. Поэтому z-трансформация делается в лоб через параметры. Я правильно понимаю?

@hipotalamus 3 жыл бұрын

Благодарю за подробный разбор. Появился вопрос, вы рекомендовали калькулятор, учитывающий размер выборки, разницу, мощность. А если не учиитывается оценочная выборочная дисперсия разве можно доверяться калькулятору?

@karpovcourses 3 жыл бұрын

В размер эффекта неявно зашита выборочная дисперсия, посмотрите на формуле cohen d, например!

@hipotalamus 3 жыл бұрын

@@karpovcourses да увидел. Cohens d это апостериорный метаанализ. В подсчёте необходимого размера выборки перед АБ тестом тоже как то вшита дисперсия через размер эффекта?

@МихаилБеляков-э4н 2 жыл бұрын

Sp - объединенное стандартное отклонение по Коэну считается немного по другой формуле, какую формулу использовали вы ? s = sqrt(((n1 - 1) . s1^2 + (n2 - 1) . s2^2) / (n1 + n2 - 2))

@mukhtarbimurat5106 Жыл бұрын

Круто, спасибо! А что если дизайнер скажет 110 когда у нас есть сигма, получается больше вероятность отменить нулевую гипотезу? Но тогда дизайнер может сказать еще больше 120 чтобы получить больше вероятности, что делать в таком случае?

@sevlant 2 жыл бұрын

Анатолий говорит про следующий раз. Этот раз так и не наступил или он где-то всё-таки лежит?

@karpovcourses 2 жыл бұрын

пока ждем)

@rengai Жыл бұрын

@@karpovcourses Все еще ждем, все никак не дождемся))

@gikis1 3 жыл бұрын

Спасибо за вебинар! А разве Z-score для 95% confidence будет не 1.96?

@klimmy. 3 жыл бұрын

Это для двустороннего (то есть по 2.5% с каждой стороны), а в видео был односторонний.

@gikis1 3 жыл бұрын

@@klimmy.круто, спасибо)

@andreykorotkiy3397 3 жыл бұрын

25:06 для т-распределения, которое мы применяем чаще всего так как не знаем сигму (отклонение генеральной совокупности), а знаем только отклонение выборки, будет точно такая же логика расчетов, верно?

@karpovcourses 3 жыл бұрын

Да, идея абсолютно такая же, просто будем использовать критические значения для t распределения.

@raisky5479 2 жыл бұрын

Не получается найти видео со следующего занятия((

@МаксимГригорьев-ь6х 3 жыл бұрын

Подскажите пожалуйста как решить уравнение с 1:01:00)

@Booogieman Жыл бұрын

увлекательно!

@КириллЧе-я5ы 2 жыл бұрын

Кстати два одинаковых распределения могут дать FP. Такой интересный эффект…

@АлексейТаганрогов 2 жыл бұрын

Очень интересно. Но я не понял, почему как альтернатива начальному значению 100 для анализа было выбрано значение 105, а не, например, 104 или 106. Тогда бы и вместо 80% получили другое значение вероятности.

@sirscare555 Жыл бұрын

Смысл в том, что в зависимости от задачи, которая перед нами стоит, мы должны сами заранее понимать, ошибки какого рода мы боимся больше всего. Например, у нас есть гипотеза Н0: пациент не болен раком. Тут лучше лишний раз сказать, что рак есть и ошибиться (ошибка первого рода альфа), чем сказать, что с человеком все в порядке, и он после этого умрет (ошибка второго рода бета). В данном случае нам нужно минимизировать ошибку бета, так как на кону жизнь человека. С другой стороны, может быть ситуация, что, например, у компании проблемы с онлайн продажами и мы понимаем, что нужно что-то менять. У нас есть идея поменять наполнение на странице информации о товарах, чтобы выросла конверсия в покупку. То есть, у нас есть гипотеза Н0: если мы поменяем наполнение, то ничего не изменится. Тут нам важна вероятность ошибки при принятии решения отвергнуть H0, когда на самом деле она была верна (то есть вероятность, что мы решим менять наполнение, хотя этого делать было не надо и разницы нет). В данном случае нам достаточно важно не ошибиться при смене наполнения, ведь мы потеряем время, деньги и клиентов, если просто так разработаем новое наполнение и дизайн, а окажется, что конверсия упала или осталась такой же. К чему все это: альфа и бета невозможно уменьшить одновременно. Единственный случай, как это можно сделать, это увеличить размер выборки, что зачастую очень затратно по ресурсам. Поэтому, мы должны выбирать такую альфа, чтобы она нас устроила и потом искать минимальное бета. Понять, что альфа и бета зависимы очень просто. Допустим, что мы опустили альфа с 0,05 до нуля. Тогда мы будем принимать абсолютно все гипотезы Н0, неважно, верные они или нет. В таком случае вероятность ошибки принять неверную гипотезу Н0 очевидно возрастет. Поэтому, еще раз, главное - это понимать в конкретной ситуации, какая ошибка для нас более важна, и пытаться выбрать допустимый для нас уровень этой ошибки (например, альфа), попутно подбирая оптимальную (в данном случае минимальную) вероятность совершить другую ошибку (бета). P.S. Это все я писал по большей мере для себя, чтобы структурировать информацию в своей голове. Если что-то я написал неверно, то извиняйте, я не претендую на истину в последней инстанции, хотя, как мне кажется, написал я вещи, которые должны быть верными. Надеюсь, что это кому-то будет полезным :)

@АлександрЕфимов-щ3и 3 жыл бұрын

Анатолий, спасибо! Шикарный материал. Уточните, пожалуйста, как правильно трактовать результаты: - правильно я понял, что, если перед тестом мы не рассчитывали его продолжительность, и получили, например, не стат. значимый результат (pvalue > 0.05) и мощность 0.7, это означает, что мы не набрали нужное количество измерений? - а если получили pvalue < 0.05) и мощность 0.7, можем считать, что все хорошо и можем принять h1? Или, в любом случае, при мощности ниже нашего порога (консенсусного 0.8) будет не очень правильно принимать окончательное решение, а правильным будет тест, где мощность не ниже порога, т.е. перезапустить или продлить?

@karpovcourses 3 жыл бұрын

Да, в целом верно, если мы получили незначимый результат, тогда смотрим на мощность теста. Если мощность скажем 0.1, то понятное дело, скорее всего нам просто нужно было закладывать больший размер выборки. Со значимыми результатами все проще, если мы получили значимый результат, то отклоняем нулевую гипотезу. Но и тут анализ мощности может помочь, если у нас мощность опять же очень низкая, то высока вероятность, что при повторении эксперимента с таким же размером выборки мы не сможем реплицировать значимый результат.

@АлександрЕфимов-щ3и 3 жыл бұрын

@@karpovcourses Спасибо

@КсенияСавенкова-э2ж 2 жыл бұрын

Что-то сильно не сходится. Методом бумажки и ручки получили n=400. Теперь берем TTestIndPower. Считаем MDE = (101-100) / sqrt((64+64) / 2) = 0.125 result = analysis.solve_power(effect = MDE, power=0.8, nobs1=None, ratio=1.0, alpha=0.5) И получаем n=1005.615 - это сильно отличается от 400. :( Что я делаю не так?

@КсенияСавенкова-э2ж 2 жыл бұрын

Точнее так... Почему не сходится - понятно. n=400 мы получили с помощью Z-преобразования. А TTestIndPower расчитывает с помощью t-теста. Непонятно почему различия настолько велики, и как сделать так, чтобы все сошлось

@viskas11 2 жыл бұрын

где же продолжение?

@mlpython1089 3 жыл бұрын

Спасибо за лекцию. 59:49 -0.86 было же определено для среднего в 105 а не 101.

@mlpython1089 3 жыл бұрын

понял. вопрос снят.

@yurablablabla3395 3 жыл бұрын

Спасибо!

@romandvoryankov2276 3 жыл бұрын

Если график синий, то какого цвета Анатолий?)

@glebvasilyev2374 2 жыл бұрын

-0.86 - это ведь для среднего 105, почему мы его берем для 101?

@dmitriish.350 2 жыл бұрын

Если усреднить те предположения о величине выборки, которые давали в чате, то получится примерно правильный ответ. Вот вам и статистика. Хе-хе.

@alexei_noskov 2 жыл бұрын

лектор пьян🤣🤣🤣 38:48

@vagon4uk 10 ай бұрын

Много слов про то какая получится выборка если размер взять не тот, а нас в универе учили и я не в Москве училась, но преподы были сильные. Так есть генеральная совокупность, есть выборка, есть репрезентативная выборка и формула по которой мы можем посчитать сколько обьектов с генсовокупности взять и чтобы она отражала ее. Все! Спасибо моим преподам 20 лет, а я все помню, только формулу численности выборки нет. У одного из преподов есть канал здесь и уже под несколько слтен тысчч подписчиков, лекции по электротехнике.

@eugene9271 3 жыл бұрын

А разве на синем графике распределения мы не должны брать только 90% диапазона вероятностей? Края по 5% же нас не устраивают, и следовательно ошибка второго рода будет нет 80%, а 75/90 = 83,3%

@karpovcourses 3 жыл бұрын

Край в 5 процентов выбран для простоты, в разбираемом примере мы проверяем одностороннюю гипотезу.

@КириллЧе-я5ы 2 жыл бұрын

Когда я получаю FN, я задаюсь вопросом - а на хрена я работаю?..

@КириллЧе-я5ы 2 жыл бұрын

Единственный вариант, где в реальности можно увидеть нормальное распределение генеральной совокупности - ядерные реакции…