A.7.37 Метод главных компонент (PCA) | линейная алгебра + теория вероятностей = анализ данных

  Рет қаралды 3,969

dUdVstud

dUdVstud

Күн бұрын

Пікірлер: 59
@СолодушкинСвятослав
@СолодушкинСвятослав 4 ай бұрын
Спасибо, коллега! Ваши лекции можно рекомендовать студентам. Хорошая подача материала. Маленькая поправочка. Правильно говорить "Представляет собой", а не "Представляет из себя"
@dudvstud9081
@dudvstud9081 4 ай бұрын
Спасибо! Насчет поправки - постараюсь запомнить и говорить грамотно!
@Denis-17
@Denis-17 Жыл бұрын
Спасибо за урок. Очень понятно объяснили. Было бы интересно узнать от вас про матричное дифференцирование.
@gospodin_uretra
@gospodin_uretra 2 жыл бұрын
Мужик, спасибо тебе огромное. Я довольно давно ищу нормальное объяснение метода главных компонент, но нигде не мог найти: 1) почему ковариационная матрица используется? 2) причём тут собственные вектора? Было бы круто увидеть этот видос в виде статьи на хабре
@dudvstud9081
@dudvstud9081 2 жыл бұрын
Спасибо! Про статью - хорошая идея! :)
@ИванЕвдокимов-л6ь
@ИванЕвдокимов-л6ь Жыл бұрын
Огромное спасибо за ваши труды! Я с этого видео получил нереальное наслаждение - 2 дня трудов и я наконец-то увидел на практике первые плоды долгого изучения вышмата) А по возникшему вопросу про расстояния и сжатость данных вдоль второстепенных компонент я получил ответ сразу в следующем видео про расстояние Махаланобиса - вы прям читаете мысли)
@dudvstud9081
@dudvstud9081 Жыл бұрын
Спасибо и Вам за отзывы!
@olbyk690
@olbyk690 2 жыл бұрын
Прямо по названию видео сразу огромное спасибо за ваш труд. Было бы очень круто посмотреть видео по дискриминантному анализу (LDA)
@dudvstud9081
@dudvstud9081 2 жыл бұрын
Спасибо за отзыв! :)
@anzarsh
@anzarsh 7 ай бұрын
Бомбический урок конечно)
@dudvstud9081
@dudvstud9081 7 ай бұрын
Спасибо за Ваши отзывы!
@robasti6826
@robasti6826 Жыл бұрын
Отличное видео
@dudvstud9081
@dudvstud9081 Жыл бұрын
Спасибо за отзыв :)
@VladyslavHadzhykhanov
@VladyslavHadzhykhanov Жыл бұрын
1. Подскажите, пожалуйста, какие видео из курса разобрать, чтобы понять, что происходит в течение восьми минут после 38 :08? 2. Таймкод -- 1:00:00. Правильно ли я понимаю, что все собственные числа ковариационной матрицы больше, либо равны 0? Если да, то почему? И именно поэтому при подсчете объясненной дисперсии для первых N компонент мы не навешиваем везде модули? P.S. Заранее спасибо :)
@dudvstud9081
@dudvstud9081 Жыл бұрын
Спасибо за отзыв! 1) уточните, что именно Вам непонятно? 2( Да, собственные значения ковариационной матрицы не отрицательны.
@VladyslavHadzhykhanov
@VladyslavHadzhykhanov Жыл бұрын
@@dudvstud9081 1) Все преобразования до 38 минуты довольно ясны. Наверное основной затык -- это переход от (E^(-1) @ v) ^(T) и подобных выражений в суммы по e_j. Вот после этого я поплыл и уловил только сам вывод о том, что главные компоненты -- это собственные векторы ковариационной матрицы. Ну и про связь объясненной дисперсии с собственными числами этой матрицы)) 2) Можете, пожалуйста, уточнить, почему так?
@VladyslavHadzhykhanov
@VladyslavHadzhykhanov Жыл бұрын
@@dudvstud9081 И еще наверное фундаментальный вопрос: как мы делаем выводы о том, что я написал ранее по формуле, которая на 44:00?
@dudvstud9081
@dudvstud9081 Жыл бұрын
@@VladyslavHadzhykhanov По поводу неотрицательность собственных векторов ковариационный матрицы: пока придется просто поверить и смотреть дальше :) А вот в этом видео все станет понятно: kzbin.info/www/bejne/pYq3ZmOBfs5nidk
@dudvstud9081
@dudvstud9081 Жыл бұрын
@@VladyslavHadzhykhanov По поводу преобразований начиная с 38:00: E^-1v - это представление м в базисе собственных векторов как сумма по j vi*ej (38:50), подставляем эжту сумму всесто E^-1v Вспоминаем свойство ортонормированности базиса собственных векторов (40:29) На основании этого свойства упрощаем выражение: убираем заведомо нулевые слагаемые (41:40) Выносим лямбды за сколбки (43:00) Обнаруживаем, что у нас записано отношение длины вектора к его модулю (44:50) Обнаруживаем по формулам, что любой вектор в базисе собственных векторов ковариационной матрицы оказывается на поверхности сферы (47:00) Даем геометрическую интерпретацию собственным векторам (48:30)
@angryworm80
@angryworm80 3 жыл бұрын
с 1-го раза …жесть! понял отрывками, надо будет пересматривать. И наверно так несколько итераций…
@dudvstud9081
@dudvstud9081 3 жыл бұрын
Уверен, что все получится! Ну, в смысле понять. Спрашивайте в комментах непонятные моменты!
@angryworm80
@angryworm80 3 жыл бұрын
@@dudvstud9081 Идея в целом и конечная цель - понятны. Теоретический вывод в плане пошагового понимания…ну очень тяжелый. Детектив просто…. Но главный вопрос - как это делать с конкретным датасетом? Какие методы в Python и в каких библиотеках есть? Как интерпретировать результаты этих методов? Однако, сама идея - блестящая и это 100% нужно осваивать. Как грится … потихоньку освоим
@dudvstud9081
@dudvstud9081 3 жыл бұрын
@@angryworm80 мы к этому придём со временем, к конкретным методам в питоне. Не зря же программирование параллельно затеяли... Хотя идёт все медленнее, чем я предполагал...
@angryworm80
@angryworm80 3 жыл бұрын
@@dudvstud9081 пусть чуть медленнее, чем планировалось, зато не страдает качество материала 👍🏻 все очень подробно и основательно.
@dudvstud9081
@dudvstud9081 3 жыл бұрын
@@angryworm80 Спасибо!
@angryworm80
@angryworm80 2 жыл бұрын
Пересмотрел, осознал! 👍🏻 Класс!!! Теперь интуитивно понятно, как можно оптимизировать обучение модели и снизить вычислительную «цену» обучения модели Про категориальные данные - имеется ввиду OHE чтоб их преобразовать в цифру?
@dudvstud9081
@dudvstud9081 2 жыл бұрын
Спасибо за отзыв! :) Про категориальные - да, чтобы преобразовать в цифру.
@kiryl_pl5613
@kiryl_pl5613 3 ай бұрын
Здравствуйте, а чтобы понять эту лекцию что надо изучить, очень интересно, но откуда берутся какие функции выражения - не понятно... Может есть видео, курсы
@КаналСупермастерА
@КаналСупермастерА 2 жыл бұрын
Агонь!
@4u4beck
@4u4beck Жыл бұрын
Вы сказали что при спектральном разложении мы можем располагать собственные значения как угодно а разве их произвольное расположение не нарушит структуру единичной матрицы собственных значений и не нарушит умножение на собственные вектора?
@dudvstud9081
@dudvstud9081 Жыл бұрын
Если мы соответствующим образом переставим собственные вектора - то не нарушит
@ГалинаСемдянкіна
@ГалинаСемдянкіна 7 күн бұрын
Спасибо за урок. Помогите разобраться. Например мы применили PCA в задачах регрессии, когда мы хотим избавиться от мультиколинеарности в признаках. Получена новая матрица данных, элементами которой являются проекции начальных точек на собственные векторы. Как можно интерпретировать результаты, когда новые оси это уже не признаки, а главные компоненты? Мы представили наши данные в новом пространстве меньшей размерности, но мы не можем утверждать, что мы избавились от конкретного признака?
@dudvstud9081
@dudvstud9081 7 күн бұрын
@@ГалинаСемдянкіна мы избавились от всех признаков и заменили их на новые. Которые между собой независимы и являются линейными комбинациями исходных признаков
@ГалинаСемдянкіна
@ГалинаСемдянкіна 7 күн бұрын
@@dudvstud9081 Как это работает на практике? Например, в модели линейной регрессии справа мы имеем предикторы, слева зависимую переменную. Мы подставляем на место предикторов новые значения признаков и рассчитываем предсказанное значение. А как быть, когда после применения PCA у нас справа уже не линейная комбинация признаков, а линейная комбинация главных компонент. Как предсказывать с помощью такой модели?
@dudvstud9081
@dudvstud9081 7 күн бұрын
@ PCA - линейные комбинации от признаков. И регрессия тоже линейная комбинация от признаков. Пусть у нас x -признаки, p = A * x - главные компоненты, y = B * x - регрессия. Тогда можем записать: x = A^-1 * p и y = B * A^-1 * p = C * p, где C = B * A^-1. То есть, получаем линейную регрессию но от главных компонент. Поэтому можно пересчитать веса линейной регрессии от главных компонент. Но! Если у Вас зада построения регрессии из неортогонализированных признаков, вам не нужны PCA, нужно вместо них использовать регуляризацию при построении регрессии. Например, регуляризацию Тихонова: y = A * x, где A = y*x^t * (x*x^t + E*a)^-1, тут E - единичная матрица, а - маленькое положительное число.
@ГалинаСемдянкіна
@ГалинаСемдянкіна 7 күн бұрын
@@dudvstud9081 Спасибо за ответ, ваши видео очень помогают в обучении.
@applepixlife9286
@applepixlife9286 3 ай бұрын
50:04 насколько я понял,вы имеете ввиду что макисмальное значение будет достигаться тогда,когда наш вектор будет полностью совпадать с направлением вектора базиса,у которого максимальное собственное значение(лямбда). Иными словами вектор должен равнять нулю по всем координатам,кроме одной,которая является базисом с самым большим собственным значением. Но почему именно этот вариант считается макимальной дисперсией? Почему к примеру самым большим не считается вариант,где вектор имеет не нулевые координаты по всем осям и в итоге дисперсия будет равнять сумме его нормированных координат умноженных на все собственные значения базисов?
@anzarsh
@anzarsh 7 ай бұрын
При нахождении собственных значений ковариационной матрицы мы будем получать характеристический многочлен степени m . В реальных задачах такой полином решается численно методом Лобачевского-Греффе?
@dudvstud9081
@dudvstud9081 7 ай бұрын
Лобачевского-Греффе метод универсальный, поэтому можно его применять. Но эффективнее будет через сингулярное разложение, я думаю.
@dudvstud9081
@dudvstud9081 7 ай бұрын
Но если совсем по взрослому... pdf.sciencedirectassets.com/271503/1-s2.0-S0898122100X0377X/1-s2.0-S0898122104901101/main.pdf?X-Amz-Security-Token=IQoJb3JpZ2luX2VjELr%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLWVhc3QtMSJHMEUCIHUlVLNVUCAMJH%2B7%2F5wo2t9OKm0IxgaDb8q72tWv%2Blm%2BAiEAqYI5avJMWhB5tK5jfCrrWie1N3mc0AcvHKfDczD0pccquwUI8%2F%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FARAFGgwwNTkwMDM1NDY4NjUiDA8Jew96NAjTNG%2FFvCqPBZ%2FWXhcl%2BHMxGUZj07daAqqQVPRiST7b2DonGZJxcTVHxiA%2BcUL42lHBL6cIXfeQo9EFoqVhHQtGhYkpq60oUf%2Fs3CVo1eExu7Cimd%2F7H0nz%2F8M%2FBV79RUjWUtY5iNduLmOPM5DY0yUOmMDCH7ltYGSCJGgICyMCu7JfGyvkjmSYwF6IuaUJIGqq%2Fwcw91eKH9BGjbtOQufpxghd2aDKD0jp2h%2FG3OvZf8cv290r3yi4ATujKS0sbg2Uw4t7rd2BZEDYmm6cQgUWqprl4moiteKD%2F5gAOfNlhaQM%2BDeo%2BZQiKg0byv8ZL%2Bg1IkQ1e7NDwVn4vM6eLN%2Fo46wcMSx56eXzAxywEXNcnSVjYGH07MNSP%2B3pajpWngJ0HM8GPGH6KlKODbsL0KNly3FwynFsUwCYJCaevEw963ALscUOaNld4UzkjNezELuHbfdhN9MDsB8altzp50a9kX8hAfY7stGQgON%2FzENnkarakvondM%2B3FgYX%2B26F%2B8DqO7mMIKXBM%2FxtmGdlu8hDk52Utl8JDWQymoLdHOe9sZX%2FC6Cs88rkAgG8WjouLEOJ7H21Ln60uwg9DYoip2fEjIJuGyDzbg53AtsAyUfp%2BE3prgMWSVm7V5hai9viXffbzt7AKEfoPcAtFyTW8mwHeawMUXHiUx9hq9Lu1WlRMHdwsFuAu5MSJFBF5Cg9%2FZBjt0rCnZJT7xQIMdwxLJvj%2Ba5KP7GawaRs21eQoigk4c%2B%2BdSHzx%2FaVB2Vy3JinZiK6ypbNaQMJvMerXt0gJSRCFKhlcE0G5%2FHry3EIaxv6drR4onwYk6BcmC8jwdlBy9sQ9g49o5FVsqGW1vAZziPNP0ShPwpSWeQL%2Fd%2FKDli8QOwp1vLcgk4wlr2FsQY6sQFMzptDJER9RWNTThFOQRWCJqrsr%2FozhFf5VbfxIgWFtflFagsNE1ZTp%2FEtUAMsdtkfbLO3rALPdnCU5riIdpt7qX05%2BM29xeUHuYvo6jZ2nXHzqMmdZm%2BqpxNRsWuluwmd%2BMKTlDZHlk4eaqzJm5KZROrlOLWxDOqkTLTQKwPpL2xbtjHpgFlq6lj9x4XgI%2B6Rt9Bsjhs7rlY9piVENwwm%2BXX%2Byf7Kx79whQej7RAkuyM%3D&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Date=20240418T192142Z&X-Amz-SignedHeaders=host&X-Amz-Expires=300&X-Amz-Credential=ASIAQ3PHCVTYVSWUKUYK%2F20240418%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Signature=7f86705571effdb7a85a69c0a06894d829d2bc2ae4d7572b0004e020929338c6&hash=28751ebbfa8d19a43fc343b009bb9f5ae34188d0662aa02cd28700fa2e8e04f8&host=68042c943591013ac2b2430a89b270f6af2c76d8dfd086a07176afe7c76c2c61&pii=S0898122104901101&tid=spdf-9c346db9-e4c2-4a97-b05e-99191256e7bd&sid=eaa75aa94d55c04bee09aa111ed844e3418fgxrqb&type=client&tsoh=d3d3LnNjaWVuY2VkaXJlY3QuY29t&ua=1d0359515256525b045d&rr=876704f9c8840e66&cc=ge
@anzarsh
@anzarsh 7 ай бұрын
@@dudvstud9081 нейронная сеть для вычисления собственных векторов симметричных матриц, интересненько)
@dudvstud9081
@dudvstud9081 7 ай бұрын
@@anzarsh Не знаю, есть и такое где-то на практике :) Но думаю, скоро все будет исключительно на нейросетях...
@АндрейКосарев-ъ6ц
@АндрейКосарев-ъ6ц Жыл бұрын
40:21 не очень понял, когда мы объявили базис нормированным?
@dudvstud9081
@dudvstud9081 Жыл бұрын
на 39:45 :) В силу симметричности матрицы имеем полное юридическое право полагать ее собственные вектора ортонормированными
@Bioplastic-x5g
@Bioplastic-x5g Ай бұрын
Зашел, посмотреть, как получается матрица нагрузок и матрица оценок из исходной матрицы, так и не дождался
@dudvstud9081
@dudvstud9081 Ай бұрын
Матрицы нагрузок и оценок никто и не обещал в этом видео :)
@СергейЧёрный-л7ш
@СергейЧёрный-л7ш Жыл бұрын
Здравствуйте. Можно вопрос? Я не очень понял суть отношения Рэлея. Это типо умозаключение такое, или конструкция для чего? Я понял что мы искали дисперсию, и пришли к формуле отношения Рэлея, но суть этого, что это, для чего, я не понял. Для чего эта конструкция нужна? Можно в двух словах мне объяснить?) 2) В отношении Рэлея мы произвольный вектор умножаем на транспонированную матрицу собственных векторов, то-есть наш произвольный вектор скалярно умножается на каждый собственный вектор, правильно я понял?
@dudvstud9081
@dudvstud9081 Жыл бұрын
Отношение Релея - это такая специальная операция между матрицей и вектором. Отношение Рэлея используется для разных задач. Самое наглядное применение: выполняя это отношение между заданной матрицей и произвольными векторами, мы будем получать значения в диапазоне от минимально до максимального собственного значения матрицы. Мы отношения Релея просто коснулись в процессе поиска собственных значений.
@СергейЧёрный-л7ш
@СергейЧёрный-л7ш Жыл бұрын
@@dudvstud9081 Спасибо)
@angryworm80
@angryworm80 Жыл бұрын
Не в качестве рекламы, а как доп. материал … мне очень помогло уловить интуицию про собственные значения и собственные вектора вот это видео kzbin.info/www/bejne/hnenpmyli6Z4Y8k
@dudvstud9081
@dudvstud9081 Жыл бұрын
Спасибо, посмотрю!
@kkh1965
@kkh1965 8 ай бұрын
Пока не могу оценить для себя пользу просмотра сюжета. Возможно, она есть. Однако мозаичная запись автором хода рассуждений изрядно раздражает. Мы всё же следим визуально за доской. Предполагается, что зритель не специалист, посему логика рассуждений должна быть видна и в записях.
@dudvstud9081
@dudvstud9081 8 ай бұрын
Спасибо! Я оценил Ваш комментарий как полезный! :)
@user-ch4mf2xi1d
@user-ch4mf2xi1d 3 жыл бұрын
Жесть какая-то. Вроде понятно, а вроде и каша в голове 😫🤥
@dudvstud9081
@dudvstud9081 3 жыл бұрын
Если что-то конкретное смущает - пишите. Будем разбираться.
@user-ch4mf2xi1d
@user-ch4mf2xi1d 3 жыл бұрын
@@dudvstud9081 нет, я просто бегу впереди паровоза, полагаю) отсутствие последовательности 🙂
@dudvstud9081
@dudvstud9081 3 жыл бұрын
@@user-ch4mf2xi1d ай, ну там же цифры есть в названиях :)
A.7.38 Расстояние Махаланобиса
27:53
dUdVstud
Рет қаралды 1,3 М.
Факторный анализ (Часть 1)
58:58
МС Statistics
Рет қаралды 8 М.
БУ, ИСПУГАЛСЯ?? #shorts
00:22
Паша Осадчий
Рет қаралды 2,6 МЛН
Миллионер | 3 - серия
36:09
Million Show
Рет қаралды 1,4 МЛН
Beginner's tutorial on Principal Component analysis (PCA) in Orange
21:06
Основы машинного обучения, лекция 17 - понижение размерности
1:03:56
ФКН ВШЭ — дистанционные занятия
Рет қаралды 2 М.
StatQuest: Principal Component Analysis (PCA), Step-by-Step
21:58
StatQuest with Josh Starmer
Рет қаралды 2,9 МЛН
PCA METHOD. ПРИНЦИП ГЛАВНЫХ КОМПОНЕНТ
17:51
Кирилл Велюго
Рет қаралды 574