Евгений, изучал Ваш ликбез по CNN в GeekBrains. Очень обрадовался, что увидел Вас на ютубе и не прогадал. Это лучшее объяснение MHA что я видел. Тоже жду анонс по курсам. Буду думать где взять свободное время).
@razinkov11 ай бұрын
Спасибо за лестный отзыв!
@АринаШупенко9 ай бұрын
Тяжко идет! Видимо придется пересмотреть курс заново :)
@razinkov9 ай бұрын
Еще один вариант: посмотреть объяснение этих тем с прошлого года :) Вдруг окажется полезно) SDPA: kzbin.infoEmGoypCSNoI MHA: kzbin.infoDhfwjcskV3o
@stasyara8110 ай бұрын
Хотел бы добавить 5 копеек: объяснять через конкатенацию вообще странно, тем более что так обозначают прямую сумму, а прямая сумма матриц - это не конкатенация Проще сократить так: R^k = R^kj_i (3d тензор), W^k=W^m_jk (3d тензор), то есть стопки матриц. И результат это просто свертка по j,k: O^m_i=R^kj_i*W^m_jk
@stasyara8110 ай бұрын
Добрый вечер! Получается, внутри sdpa размерность понижается в h раз, как при сравнении ключей, так и у значений, а потом восстанавливается последним тензором W^0. В предельном случае считается не близость векторов а по сути близость норм векторов (если h=dmodel). Таким образом теряется много информации о векторе запроса и ключа, принимается решение, которое потом уже восстанавливается не исходя из входной информации, а исходя из параметров модели. Можно ли эту часть механизма внимания считать автоэнкодером? или все совпадения случайны?)
@lesshishkin37111 ай бұрын
Спасибо, Евгений, за ваш педагогический труд! Три месяца назад я был гуманитарием, который не умел умножать матрицы, но черт возьми, настолько любопытно как работает эта магия нейросетей, что освоил и линейную алгебру, и вспомнил, что такое производная, и научился на питоне программировать. Пересмотрел кучу ваших роликов, выражаю глубокую, как самая глубокая нейросеть признательность. Вы говорили, что хотите сделать курсы? Не изменились планы?
@razinkov11 ай бұрын
Спасибо за отзыв, очень приятно) Планы не изменились, делаем! В декабре будет анонс с подробностями