#17. Гауссовский байесовский классификатор

No video

#17. Гауссовский байесовский классификатор | Машинное обучение

Рет қаралды 8,092

Күн бұрын

Практический курс по ML на Stepik: stepik.org/cou...
Принцип построения и работы гауссовского байесовского классификатора в многомерном признаковом пространстве. Его отличие от наивного байесовского классификатора.
Инфо-сайт: proproprogs.ru/ml
Телеграм-канал: t.me/machine_l...
machine_learning_17.py: github.com/sel...

Пікірлер: 28

@user-oo4ev3en5r 2 жыл бұрын

Спасибо за такие уроки. Я тоже хотел в Data since, пока не понял, что этому нужно посвятить очень много времени.

@user-el5ee9ip3t 2 жыл бұрын

25 лайков!!!!!!!!!!!!!!!!!!!!!!!!!!! это заслуживает миллионов

@YbisZX Жыл бұрын

На 1:36 в ковариационной матрице я так понял на каждой позиции должно быть не (xi-my), а индивидуальное мат.ожидание для соответствующего признака: (x1-m1y), (x2-m2y) и т.д. А в общем виде было бы = E [ (x-my)*(x-my).T ] На 7:15 когда берем логарифм от множителя перед экспонентой, то почему степень -1/2 выносим, а 2*pi внутри ln просто убираем? Мало влияет?

@selfedu_rus Жыл бұрын

1. У нас здесь мат ожидание общее для всех компонент вектора x, поэтому не зависит от индекса. Если есть более точная информация по мат ожиданию, то да, учитываем их с индексом, как вы и написали. 2. Все константы в алгоритме максимума правдоподобия (когда берем максимум ПРВ и определяем класс) можно отбросить, т.к. они не влияют на конечный результат.

@YbisZX Жыл бұрын

@@selfedu_rus 1. Не понял про _общее_ мат.ожидание для всех компонент (признаков). Нельзя же взять общее мат.ожидание от роста в метрах и веса в граммах... На 1:35 my=[my1...myn] - это вектор, а следом в ков.матрице из каждого признака вычитается весь вектор my... В программе все правильно - из каждой выборки в x1 (x1[0], x1[1]) вычитается соответствующее значение из вектора mm1. 2. Про коэффициент понял, но возник вопрос про множитель -1/2. :) В формуле для p(x|y) в знаменателе (2*pi*detEy)^(n/2), но тогда выносимый из логарифма множитель будет -n/2. Подозреваю, что там степень n относится только к корню из 2*pi, а определитель ков.матрицы просто под корнем. Для независимых признаков он уже сам является произведением дисперсий.

@selfedu_rus Жыл бұрын

@@YbisZX да, я имел ввиду для всех образов, а не признаков, т.е. мы для каждого столбца (признака) в обучающей выборке вычисляем единое МО

@YbisZX Жыл бұрын

@@selfedu_rus Я так и понял. Просто в видео в раскрытой ков.матрице из каждого x1...xn вычитаются просто my без соответствующих индексов признаков. И еще хочу уточнить формулу p(x|y) - там в знаменателе det(Ey) явно не должен быть под степенью n/2, а только под корнем. Ведь detE - уже произведение из n дисперсий (в случае независимых признаков).

@impellergimpeller5133 2 жыл бұрын

👍👍👍👍👍

@user-qj6tk5fw9p 5 ай бұрын

вопрос, когда мы формулу p(x|y) преобразуем через логарифм один из множителей ( 1 / (2 * pi * det(сигма))**(n/2) ) преобразуется в множитель (-0.5 * ln( det(сигма)) мне вот не понятно, каким образом делается это преобразование??? куда у нас подевалась степень n/2 и число pi и так далее???

@user-wu1xb8ft9t 9 ай бұрын

Здравствуйте. Я слегка запутался в определениях, Гауссовский байесовский классификатор чем отличается от наивного я понимаю, логику наивного классификатора тоже понимаю, но недопонимаю, 1) в чём разница между наивным вариантом от оптимального байевского классификатора? Лямбдой перед классами? В оптимальном классификаторе мы считаем так-же что образы независимы? 2) Гауссовский байесовский классификатор стоит использовать, когда мы считаем, что наши объекты распределены нормально в n-мерном пространстве?

@selfedu_rus 9 ай бұрын

1) в наивном полагаем признаки независимыми (статистически), а в обычном - нет 2) да, все верно

@user-wu1xb8ft9t 9 ай бұрын

@@selfedu_rus Так а как вычисляется, какая зависимость между признаками? Или это уже в каждой ситуации смотрим отдельно и сами вычисляем, если есть зависимость и какая? За ответ спасибо)

@selfedu_rus 9 ай бұрын

@@user-wu1xb8ft9t ковариационная матрица по признакам это показывает

@user-by2xi6ut5k 7 ай бұрын

Добрый день, хотел бы уточнить правильно ли я понимаю и задать вопрос. По сути Гауссовский байесовский классификатор под капотом работает как PCA(то есть переход в пространство такого же размера, но с ортогональными осями), а дальше просто обычный Наивный байесовский классификатор? Но только при условии, что все признаки распределены нормально. А если допустим не все признаки подчиняются нормальному закону? то можем ли мы просто для этого признака подставить его ПРВ - т.е. p(x | y) в формулу и по классике в формуле взять ln , но уже для ненормального ПРВ?

@selfedu_rus 7 ай бұрын

Совершенно верно!

@user-qj6tk5fw9p 5 ай бұрын

здесь можно черпать информацию не только из видио, но и из коментариев))

@dubinin_s 2 жыл бұрын

Огромное спасибо за видео. Подскажите, пожалуйста, в начале 3-й минуты в формуле плотности распределения после второго знака равно, как получить множитель перед произведением одномерных плотностей распределения? И ещё, если представить что признаки не зависимы, то этого множителя не будет? Останется только произведение одномерных плотностей?

@selfedu_rus 2 жыл бұрын

Множитель будет в любом случае, но при оптимизации его можно отбросить он ни на что не влияет, поэтому я его особо не объяснял. А так, нам нужно посчитать ковариационную матрицу и вычислить определитель для нее. При независимых признаках ковариационная матрица становится диагональной с дисперсиями по главной диагонали.

@dubinin_s 2 жыл бұрын

@@selfedu_rus я ещё больше запутался. Просто из формулы получается, что е^(...) = произведению одномерных плотностей распределения? Подскажите, прав я или нет, если x = {x1, x2, ...} и х1, x2, ... независимы, то p(x|y) = П р(хi |y)?

@selfedu_rus 2 жыл бұрын

@@dubinin_s да, но перед каждой экспонентой стоит множитель (1/sqrt(2pi*sigma)

@dubinin_s 2 жыл бұрын

@@selfedu_rus но в формуле перед произведением одномерных распределений плотностей тоже такой же множитель и если их сократить, то получится, что експонента равна произведению распределений плотностей, вот что не понимаю.

@selfedu_rus 2 жыл бұрын

@@dubinin_s что то я вас не понимаю, как я представляю: a1*exp(x1) * a2*exp(x2) = a1*a2 * exp(x1+x2) где сокращение?

@konstantinlisitsa8443 2 жыл бұрын

Скажите пожалуйста, почему отсутствие корреляции означает независимость гауссовских случайных величин?

@selfedu_rus 2 жыл бұрын

В этом случае ковариационная матрица получается диагональной и многомерная гауссовская ПРВ распадается на произведение соответствующих одномерных, а это уже в свою очередь означает статистическую независимость величин.

@konstantinlisitsa8443 2 жыл бұрын

@@selfedu_rus логично! ) Спасибо!