DL2022: Векторные представления слов и текстов (часть 1)

  Рет қаралды 1,613

Alexander D'yakonov

Alexander D'yakonov

Күн бұрын

Курс "Глубокое обучение (Deep Learning)"
страница курса: github.com/Dya...
автор курса: Александр Дьяконов (dyakonov.org/)
В этой лекции...
Способы представления слов: классические: OHE, counts, LSA, кластеризация, LDA.
Вложение слов в непрерывное пространство (embedding).
word2vec: CBOW, skip-gram.
Negative Sampling.
Ближайшие соседи.
Операции над представлениями слов.
Fasttext.
Glove: Global Vectors for Word Representation.
Contextualized Word Embeddings.
Embeddings in Tag LM.
CoVe = Contextual Word Vectors.
ELMo: Embeddings from Language Models.
FLAIR: Contextual String Embeddings for Sequence Labelling. Представление текстов.

Пікірлер: 6
@andreib8871
@andreib8871 6 ай бұрын
Александр Геннадьевич, подскажите, пожалуйста, почему на слайде 19 вероятность считается по указанной формуле? По идее, нам нужна оценка вероятности слова_контекста при условии слова_цели, которую мы должны оценить из тренировочных данных. И тут не совсем понятно, как это коррелирует софтмаксом скалярного произведения эмбедингов.
@egger_2283
@egger_2283 8 ай бұрын
Здравствуйте, на 49:07 Вы говорите, что мы подаем в нейронку слова, но откуда мы получаем векторное представление для того, чтобы передать его в модель. Из того же самого ворд ту века, с которым мы потом конкатим эмбеддинг? И используем ли мы какую-то аугментацию для ворд-ту-века? Условно в русском языке можно попробовать поварьировать падеж или множественное/единственное число?
@alexanderdyakonov8305
@alexanderdyakonov8305 8 ай бұрын
Там на картинке - используется Glove-представление слов.
@drumcord
@drumcord 7 ай бұрын
Спасибо большое за объяснения ) почувствовал себя умственно отсталым По сравнению с вашим уровнем развития в этой области, так и есть. Думаю тут стыдиться нечего. Наверное без знаний математики бессмысленно пытаться понять устройство LLM на примерах и упрощённых аналогиях? Всгего то пытался понять, как это "слова" шифруются в числа, и кодируются в векторные "ембединги" в пространствах и измерениях с сотнями координатных осей. Это за пределами моего понимания евклидовой геометрии. И всё через формулы, формулы и ещё раз формулы... Никакого понимания, как это шестисотмерное пространство вообразить, и какие там координатные оси...
Лекция. Контестные эмбеддинги. Word2Vec.
29:12
Deep Learning School
Рет қаралды 18 М.
Quando eu quero Sushi (sem desperdiçar) 🍣
00:26
Los Wagners
Рет қаралды 15 МЛН
It’s all not real
00:15
V.A. show / Магика
Рет қаралды 20 МЛН
DL2022: Языковые модели (часть 2)
55:52
Alexander D'yakonov
Рет қаралды 735
DL2022: Языковые модели (часть 1)
1:14:36
Alexander D'yakonov
Рет қаралды 1,3 М.
Рассчитываем контекстную близость слов с помощью библиотеки Word2vec
11:46