Лекция. Архитектура Transformer. Введение, Transformer Encoder

Рет қаралды 9,224

Күн бұрын

Занятие ведёт Татьяна Гайнцева
Ссылка на материалы занятия: docs.google.co...
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
Поддержать канал можно по ссылке boosty.to/deep...
За нашими новостями можно следить здесь:
Наш канал в TG: t.me/deep_lear...
Официальный сайт: dls.samcs.ru/
Официальная группа ВК: dlschoo...
ФПМИ МФТИ
Официальный сайт: mipt.ru/educat...
Магистратура: mipt.ru/educat...
Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
Онлайн-магистратура "Цифровая экономика": digec.online/
Лаборатории ФПМИ: mipt.ru/educat...

Пікірлер: 32

@jookovjook 10 ай бұрын

Очень крутое объяснение энкодера! Спасибо 🙏

@DeepLearningSchool 10 ай бұрын

да, спасибо за замечание, это опечатка(

@idaklimanova9913 7 ай бұрын

Татьяна, огромная благодарность вам и всей команде. Невероятный материал!!

@jookovjook 10 ай бұрын

В 16:51 при подсчете σ_i выражение (x^e_j - μ_i) должно быть в квадрате. Нет?

@w01fer86 10 ай бұрын

Ага, без квадрата эта сумма просто 0 будет)

@sun_rise_23 Ай бұрын

ага, тоже заметил. плюс 10:07 сумма после софтмакс не равна 1. но это все мелочи, Татьяна очень приятная ведущая и материал преподносится очень хорошо и понятно.

@shadowmachine777 3 ай бұрын

"Дай знать где ты находишься!.."

@КравчукНиколай-ю2ф Күн бұрын

13:15 что значит агригируем?

@justaseeker5530 9 ай бұрын

На слайде "Идея Transformer" доброе утро переведено, как good night

@KeithCozart-ts9ze Ай бұрын

машинный перевод подвел

@ЮрийМаркин-е6ц 10 ай бұрын

Не очень понятно пояснение, почему нельзя использовать One Hot Encoding позиции (30:01). Поясните, пожалуйста. То, что по памяти неэффективно для больших входов в целом понятно.

@DeepLearningSchool 10 ай бұрын

как минимум потому, что one-hot encoding требует, чтобы векторы были длины количества элементов. Т.е. если у вас в последовательности n токенов, то чтобы закодировать их места one-hot векторами, нужны векторы длины минимум n. А мы хотим, чтобы position encodings суммировались с нашими векторами эмбеддингов

@94SERP 10 ай бұрын

10:17 сумма вероятностей после Softmax 1.1

@kolhoz1656 3 ай бұрын

Как найти градиенты для query, key и value? Если есть ссылки, где подробно расписано формулы их нахождения дайте пожалуйста знать. Или если знаете, прошу подробно расписать. В машинном обучение я новичок, пожалуйста не бейте

@АлександрКамышников-х8д 10 ай бұрын

не совсем понял - мы складываем вектор внимания а с соответствующим эмбеддингом... но у них же размерности разные. эмбеддинг может быть длиной в несколько сотен значений ,а вектор внимания в данном случае ,содержит всего 4 значения... как мы их складываем?

@ЮрийМаркин-е6ц 10 ай бұрын

Почему вы решили, что вектор внимания содержит 4 значения? Это не так. Размерности векторов внимания и эмбеддинга одинаковые.

@АлександрКамышников-х8д 10 ай бұрын

@@ЮрийМаркин-е6ц спасибо, я наверно не правильно понял. Надо пересмотреть ролик

@Ksorz 10 ай бұрын

Про какую дополнительную статью идет речь? 34:07 Что-то я не вижу ее на Степике

@DeepLearningSchool 10 ай бұрын

Добавим, вчера не успели, извините

@Ksorz 10 ай бұрын

Спасибо :) @@DeepLearningSchool

@ЮрийМаркин-е6ц 10 ай бұрын

@@Ksorz подскажите, о каком курсе степика идет речь? немедленно присоединюсь)

@mi-cher 10 ай бұрын

@@ЮрийМаркин-е6ц "Deep Learning (семестр 2, весна 2024)". Ссылки Ютуб режет

@DeepLearningSchool 10 ай бұрын

@@ЮрийМаркин-е6ц вот: stepik.org/course/196142/syllabus

@deadmorose4741 10 ай бұрын

А где предыдущая лекция про голый attention?

@DeepLearningSchool 10 ай бұрын

вот: kzbin.info/www/bejne/fJzMXoubaKh6nZofeature=shared

@sb9185 8 ай бұрын

Зачем нужен FC layer ?

@no-user-found 2 ай бұрын

Затем, зачем и всегда - пытается уловить зависимости и внести нелинейности. Компе того между первым fc и последним fc пространство расширяется в разы для поиска этих сложных зависимостей, а с последнего fc и его нелинейности выходит опять размерность эмбединга

@palevas 10 ай бұрын

Яндекс даже раньше самого Гугла выкатил трансформер для перевода

@hazeovich4530 10 ай бұрын

Из этого видео узнал больше про DL чем за семестр в унике. Привет из ДВФУ🤡

@dead-maxim 10 ай бұрын

Может кто-нить объяснить, как из токенов получаются ембеддинги?

@Ksorz 10 ай бұрын

Это было в первой лекции курса (kzbin.info/www/bejne/jZPXgq13q82hiKs - Word2Vec, GloVe, FastText). Там был довольно подробный разбор и мы обучали эмбеддинги самостоятельно. Однако потом всё это заменил один единственный слой в нейросети, который что-то там внутри себя делает с токенами и получаются эмбеддинги. Действительно, тут нам особо не объясняли, как теперь это работает, но полагаю, внутри этого слоя что-то подобное

@sun_rise_23 Ай бұрын

@@Ksorz скорее всего это предрассчитанные дефолтные эмбеддинги. Берутся из словаря, либо, что по сути равнозначно, получается перемножением на матрицу ( размерностью размер эмбединга на размер словаря)