Хотел посмотреть вечером сериал, но забыл про него. Невероятно, но факт: от этой лекции по статистике невозможно оторваться! Спасибо!
@vo_sk3 жыл бұрын
Большое спасибо за такой хороший и понятный разбор темы, вроде бы слышал это много раз, но у Вас получилось объяснить это легко и наглядно. Очень ждём продолжения на тему более сложных кейсов.
@Astronomka3 жыл бұрын
Спасибо огромнейшее за это видео!!! Я наконец-то поняла про mde! Анатолий - лучший
@kattynia59563 жыл бұрын
пришлось переслушивать несколько раз, но наконец поняла, что такое мощность и двухсторонняя гипотеза! спасибо Анатолию :)
@gikis13 жыл бұрын
Прям кайфанул, детально разбирая код на питоне и оценил всю мощь ЦПТ симулируя подвыборки и глядя на увеличение чувствительности критерия) спасибо!
@ИлонаИнч2 жыл бұрын
Анатолий, вы🔥☺ сейчас прохожу курс и параллельно смотрю ваши другие видосы
@2443121z3 жыл бұрын
Как и ожидалось, отличное видео!
@alexostudin49403 жыл бұрын
Чуть лайк не забыл поставить. Что недопустимо!)))
@alexpanimash81553 жыл бұрын
Круто! жду следующие серии!
@MaraLearns Жыл бұрын
Спасибо большое за контент❤ (я фанатка) но где обещанное продолжение с темой "как тестировать, если какие-то очень хитрые метрики с непонятными распределениями"🙃
@LVGavr9 ай бұрын
Посмотрел, супер, интересно и полезно
@artborovik Жыл бұрын
Ничего не понял, но оч интересно
@ИгорьПашков-п8к2 жыл бұрын
Отличное видео! Я прямо в своём познании преисполнился. Подскажите, пожалуйста, где найти продолжение этого вебинара, которое вы анонсировали? Буду очень признателен, а то на ютубе никак не могу найти
@evgenialakeeva21895 ай бұрын
Спасибо за трансляцию, очень интересно! Подскажите, пожалуйста, правильно понимаю, что в данном случае мы используем одновыборочный критерий? Соответственно для NormalIndPower/TTestIndPower необходимо использовать ratio=0, тогда и результат ручных расчетов через систему уравнений приблизительно равен результату NormalIndPower(ratio=0, ...)?
@АлександрДоценко-ы3с6 күн бұрын
чем меньшее значение нужно задетектировать, тем меньше вероятность сделать это правильно?) т. е. меньше мощность?
@Amidamarruu8 ай бұрын
и правда все супер понятно!
@КириллЧе-я5ы2 жыл бұрын
Все правильно по интерпретации незначимости результата - ав тест условие необходимое, но если он не прокрашен, надо дальше работать, а не принимать сходу одну из гипотез… имхо
@МихаилБеляков-э4н2 жыл бұрын
Добрый день, а при расчёте в питоне размера выборки, что бы получить общий размер мы должны домножить на 2 ? и 2ой вопрос, формула для подсчета размера эффекта для разницы, справедлива при условии что выборки одного рзмера ?
@АндрейТимонин-ч6к Жыл бұрын
Здравствуйте! Пожалуйста, подскажите, кто знает из гостей канала или ее автор - почему мы сигму делим на корень из 16, находя стандартную ошибку. Ведь, если я правильно понимаю, сигма - это стандартное отклонение генеральной совокупности, как и 100 в данном примере - средняя арифметическая генсовокупности, что в рамках ЦПТ говорит о постоянстве этих величин. Ее не надо по идее делить на 4, находя стандартную ошибку, т.к. эта операция проводится для выборки с целью экстраполяции на генсовокупность, т.к. точечная оценка несмещенности для стандартного отклонения не выполняется и для приближенного вычисления следует как раз стандартное отклонение ВЫБОРКИ и делить на корень из ее размера. А в этом примере, насколько я понял, сигма - это уже параметр генсовокупности. Поэтому z-трансформация делается в лоб через параметры. Я правильно понимаю?
@hipotalamus3 жыл бұрын
Благодарю за подробный разбор. Появился вопрос, вы рекомендовали калькулятор, учитывающий размер выборки, разницу, мощность. А если не учиитывается оценочная выборочная дисперсия разве можно доверяться калькулятору?
@karpovcourses3 жыл бұрын
В размер эффекта неявно зашита выборочная дисперсия, посмотрите на формуле cohen d, например!
@hipotalamus3 жыл бұрын
@@karpovcourses да увидел. Cohens d это апостериорный метаанализ. В подсчёте необходимого размера выборки перед АБ тестом тоже как то вшита дисперсия через размер эффекта?
@МихаилБеляков-э4н2 жыл бұрын
Sp - объединенное стандартное отклонение по Коэну считается немного по другой формуле, какую формулу использовали вы ? s = sqrt(((n1 - 1) . s1^2 + (n2 - 1) . s2^2) / (n1 + n2 - 2))
@mukhtarbimurat5106 Жыл бұрын
Круто, спасибо! А что если дизайнер скажет 110 когда у нас есть сигма, получается больше вероятность отменить нулевую гипотезу? Но тогда дизайнер может сказать еще больше 120 чтобы получить больше вероятности, что делать в таком случае?
@sevlant2 жыл бұрын
Анатолий говорит про следующий раз. Этот раз так и не наступил или он где-то всё-таки лежит?
@karpovcourses2 жыл бұрын
пока ждем)
@rengai Жыл бұрын
@@karpovcourses Все еще ждем, все никак не дождемся))
@gikis13 жыл бұрын
Спасибо за вебинар! А разве Z-score для 95% confidence будет не 1.96?
@klimmy.3 жыл бұрын
Это для двустороннего (то есть по 2.5% с каждой стороны), а в видео был односторонний.
@gikis13 жыл бұрын
@@klimmy.круто, спасибо)
@andreykorotkiy33973 жыл бұрын
25:06 для т-распределения, которое мы применяем чаще всего так как не знаем сигму (отклонение генеральной совокупности), а знаем только отклонение выборки, будет точно такая же логика расчетов, верно?
@karpovcourses3 жыл бұрын
Да, идея абсолютно такая же, просто будем использовать критические значения для t распределения.
@raisky54792 жыл бұрын
Не получается найти видео со следующего занятия((
@МаксимГригорьев-ь6х3 жыл бұрын
Подскажите пожалуйста как решить уравнение с 1:01:00)
@Booogieman Жыл бұрын
увлекательно!
@КириллЧе-я5ы2 жыл бұрын
Кстати два одинаковых распределения могут дать FP. Такой интересный эффект…
@АлексейТаганрогов2 жыл бұрын
Очень интересно. Но я не понял, почему как альтернатива начальному значению 100 для анализа было выбрано значение 105, а не, например, 104 или 106. Тогда бы и вместо 80% получили другое значение вероятности.
@sirscare555 Жыл бұрын
Смысл в том, что в зависимости от задачи, которая перед нами стоит, мы должны сами заранее понимать, ошибки какого рода мы боимся больше всего. Например, у нас есть гипотеза Н0: пациент не болен раком. Тут лучше лишний раз сказать, что рак есть и ошибиться (ошибка первого рода альфа), чем сказать, что с человеком все в порядке, и он после этого умрет (ошибка второго рода бета). В данном случае нам нужно минимизировать ошибку бета, так как на кону жизнь человека. С другой стороны, может быть ситуация, что, например, у компании проблемы с онлайн продажами и мы понимаем, что нужно что-то менять. У нас есть идея поменять наполнение на странице информации о товарах, чтобы выросла конверсия в покупку. То есть, у нас есть гипотеза Н0: если мы поменяем наполнение, то ничего не изменится. Тут нам важна вероятность ошибки при принятии решения отвергнуть H0, когда на самом деле она была верна (то есть вероятность, что мы решим менять наполнение, хотя этого делать было не надо и разницы нет). В данном случае нам достаточно важно не ошибиться при смене наполнения, ведь мы потеряем время, деньги и клиентов, если просто так разработаем новое наполнение и дизайн, а окажется, что конверсия упала или осталась такой же. К чему все это: альфа и бета невозможно уменьшить одновременно. Единственный случай, как это можно сделать, это увеличить размер выборки, что зачастую очень затратно по ресурсам. Поэтому, мы должны выбирать такую альфа, чтобы она нас устроила и потом искать минимальное бета. Понять, что альфа и бета зависимы очень просто. Допустим, что мы опустили альфа с 0,05 до нуля. Тогда мы будем принимать абсолютно все гипотезы Н0, неважно, верные они или нет. В таком случае вероятность ошибки принять неверную гипотезу Н0 очевидно возрастет. Поэтому, еще раз, главное - это понимать в конкретной ситуации, какая ошибка для нас более важна, и пытаться выбрать допустимый для нас уровень этой ошибки (например, альфа), попутно подбирая оптимальную (в данном случае минимальную) вероятность совершить другую ошибку (бета). P.S. Это все я писал по большей мере для себя, чтобы структурировать информацию в своей голове. Если что-то я написал неверно, то извиняйте, я не претендую на истину в последней инстанции, хотя, как мне кажется, написал я вещи, которые должны быть верными. Надеюсь, что это кому-то будет полезным :)
@АлександрЕфимов-щ3и3 жыл бұрын
Анатолий, спасибо! Шикарный материал. Уточните, пожалуйста, как правильно трактовать результаты: - правильно я понял, что, если перед тестом мы не рассчитывали его продолжительность, и получили, например, не стат. значимый результат (pvalue > 0.05) и мощность 0.7, это означает, что мы не набрали нужное количество измерений? - а если получили pvalue < 0.05) и мощность 0.7, можем считать, что все хорошо и можем принять h1? Или, в любом случае, при мощности ниже нашего порога (консенсусного 0.8) будет не очень правильно принимать окончательное решение, а правильным будет тест, где мощность не ниже порога, т.е. перезапустить или продлить?
@karpovcourses3 жыл бұрын
Да, в целом верно, если мы получили незначимый результат, тогда смотрим на мощность теста. Если мощность скажем 0.1, то понятное дело, скорее всего нам просто нужно было закладывать больший размер выборки. Со значимыми результатами все проще, если мы получили значимый результат, то отклоняем нулевую гипотезу. Но и тут анализ мощности может помочь, если у нас мощность опять же очень низкая, то высока вероятность, что при повторении эксперимента с таким же размером выборки мы не сможем реплицировать значимый результат.
@АлександрЕфимов-щ3и3 жыл бұрын
@@karpovcourses Спасибо
@КсенияСавенкова-э2ж2 жыл бұрын
Что-то сильно не сходится. Методом бумажки и ручки получили n=400. Теперь берем TTestIndPower. Считаем MDE = (101-100) / sqrt((64+64) / 2) = 0.125 result = analysis.solve_power(effect = MDE, power=0.8, nobs1=None, ratio=1.0, alpha=0.5) И получаем n=1005.615 - это сильно отличается от 400. :( Что я делаю не так?
@КсенияСавенкова-э2ж2 жыл бұрын
Точнее так... Почему не сходится - понятно. n=400 мы получили с помощью Z-преобразования. А TTestIndPower расчитывает с помощью t-теста. Непонятно почему различия настолько велики, и как сделать так, чтобы все сошлось
@viskas112 жыл бұрын
где же продолжение?
@mlpython10893 жыл бұрын
Спасибо за лекцию. 59:49 -0.86 было же определено для среднего в 105 а не 101.
@mlpython10893 жыл бұрын
понял. вопрос снят.
@yurablablabla33953 жыл бұрын
Спасибо!
@romandvoryankov22763 жыл бұрын
Если график синий, то какого цвета Анатолий?)
@glebvasilyev23742 жыл бұрын
-0.86 - это ведь для среднего 105, почему мы его берем для 101?
@dmitriish.3502 жыл бұрын
Если усреднить те предположения о величине выборки, которые давали в чате, то получится примерно правильный ответ. Вот вам и статистика. Хе-хе.
@alexei_noskov2 жыл бұрын
лектор пьян🤣🤣🤣 38:48
@vagon4uk10 ай бұрын
Много слов про то какая получится выборка если размер взять не тот, а нас в универе учили и я не в Москве училась, но преподы были сильные. Так есть генеральная совокупность, есть выборка, есть репрезентативная выборка и формула по которой мы можем посчитать сколько обьектов с генсовокупности взять и чтобы она отражала ее. Все! Спасибо моим преподам 20 лет, а я все помню, только формулу численности выборки нет. У одного из преподов есть канал здесь и уже под несколько слтен тысчч подписчиков, лекции по электротехнике.
@eugene92713 жыл бұрын
А разве на синем графике распределения мы не должны брать только 90% диапазона вероятностей? Края по 5% же нас не устраивают, и следовательно ошибка второго рода будет нет 80%, а 75/90 = 83,3%
@karpovcourses3 жыл бұрын
Край в 5 процентов выбран для простоты, в разбираемом примере мы проверяем одностороннюю гипотезу.
@КириллЧе-я5ы2 жыл бұрын
Когда я получаю FN, я задаюсь вопросом - а на хрена я работаю?..
@КириллЧе-я5ы2 жыл бұрын
Единственный вариант, где в реальности можно увидеть нормальное распределение генеральной совокупности - ядерные реакции…
@temirlanzhunusbekov51777 ай бұрын
Хоть кто-то нормально объяснил зачем нужна мощность, а не просто "бенчмарк 80%"