Очень не хватило примеров про q,k,v на протяжении лекции. Например на уровне текста или изображений. С такими примерами было бы намного понятней. После первого просмотра скорее непонятно.
@sergejskorohodov92012 күн бұрын
Евгений, огромное спасибо за работу. Много полезного. Ждём продолжения. Хорошего дня.
@fanisir3 күн бұрын
Давай еще)🔥
@razinkov3 күн бұрын
На следующей неделе будет продолжение)
@machinelearningpodcast95023 күн бұрын
Классный формат! Я бы с большим удовольствием продолжал смотреть разбор топовых статей!
@nurse_is_bully4 күн бұрын
Очень жду вторую часть в ютубе. Настаиваю, чтобы её выпустили!!! Мне серьезно понятнее смотреть ваши разборы, чем мучится с этим одному.
@user-lg6ss5zm5r4 күн бұрын
ответ на вопрос 59:38. Раз каждая точка результат усреднения по нескольким тысячам экспериментов, то на графике матожидание суммы наград после n шагов (считем для простоты что награда=1). При оптимистической стратегии первые 10 шагов обязательно выберут последовательно каждое из десяти действий. Матожидание награды всех действий равно сумме 10 вероятностей наград от 10 разных действий. При втором проходе будут выбираться те, где была единичка при первом и ставиться единичка с вероятностью награды. Т.е. в матожидании получаем сумму квадратов вероятностей (здесь еще процесс не сошелся в вероятностном смысле, поэтому можно считать что участвуют все варианты действий). Два пика большой и маленький. Дальше уже начинают работать более сложные условные зависимости, связанные с эффективным сокращением числа вариантов действий, "необнуленных" на больших шагах.
@wadyn954 күн бұрын
Спасибо, там кстати когда вы про позиционные эмбэдинги обсуждали на экране про RoPE написано😁
@razinkov4 күн бұрын
Так и есть) Обсуждали позиционные эмбеддинги как раз потому, что в школе работали именно с ними)
@ActorNikitaPetrov4 күн бұрын
Слишком много воды и отхода от темы, очень хотелось послушать но сначала перематывал, потом перестал надеяться на нормальную выжимку информации
@nurse_is_bully5 күн бұрын
Я никогда так быстро не нажимал на всплывашку ютуба. Разбор статьи именно перед тем, как я хотел сесть ее разбирать 😮
@user-up3pl6he1b6 күн бұрын
А какой это плейлист? Я что то не нашел))
@razinkov6 күн бұрын
Я советую смотреть вот этот курс: kzbin.info/www/bejne/g3jQo3aMa6aVd6s
@user-up3pl6he1b6 күн бұрын
@@razinkov Спасибо!
@ozimandias18589 күн бұрын
А какая сейчас тогда самая популярная библиотека для DL?
@razinkov9 күн бұрын
PyTorch)
@user-gn6ml5tm8l21 күн бұрын
Почему новое видео недоступно?
@mrfox970023 күн бұрын
Считаю данный курс самым топовым по объяснению deep learning на ру сегменте. Всё разжовано досконально подробно и понятно. Выражаю огромную благодарность за труды автора и желаю дальнейшего продвижения канала!
@razinkov9 күн бұрын
Спасибо большое!
@user-ih1vt5jd3r28 күн бұрын
когда новое видео?
@user-zk6mw5ws1t29 күн бұрын
Отличный материал. Возникает только одно но - мы посчитали. И ? Я надеюсь ответ есть в 13й лекции
@user-st4ih8cu6l29 күн бұрын
Благодарю вас!
@АртёмСоловьёв-н4лАй бұрын
Отличное объяснение. Только не совсем ясно какие градиенты получатся для тех букв, которые не входят в слово, а следовательно никак не учавствуют в создании матриц альфа и бета. Я правильно понимаю, что если этих букв нет в слове, то и градиент получится нулевым?
@hr0me325Ай бұрын
Я правильно понимаю, что раскладывать I(x+u, y+v) в ряд Тейлора мы можем потому, что у нас не подразумевается резких скачков в яркости пикселей? 15:40
@razinkovАй бұрын
Да)
@AndreiChegurovRobotics2 ай бұрын
лекция топ, спасибо за Ваш труд
@razinkov2 ай бұрын
Спасибо, Андрей!
@nurse_is_bully2 ай бұрын
Спасибо большое за вашу лекцию. Очень помогла разобраться в теме. Жалею, что раньше вас не встретил. Прошу вас ответить на маленький вопрос. Почему мы считаем mean squered error по формуле: 1/2 по сумме квадратов разности нужного значения с полученным почему именно 1/2? мы предполагаем, что там 2 выхода или это всегда так?
@AndreiChegurovRobotics2 ай бұрын
Евгений, замечательная лекция - спасибо Большое)
@AndreiChegurovRobotics2 ай бұрын
19:06 кажется матрица Wo имеет размерность h*dmodel x dmodel
@alexskryp16262 ай бұрын
Крутая лекция, Спасибо.
@razinkov2 ай бұрын
Спасибо, что смотрите!
@AndreiChegurovRobotics2 ай бұрын
отличная лекция
@AndreiChegurovRobotics2 ай бұрын
очень очень крутые лекции спасибо Большое!
@razinkov2 ай бұрын
Спасибо за лестный отзыв! И спасибо, что смотрите)
@jutich-o9x2 ай бұрын
Блин почему ты только первые 3 шага + частично Cls (в основном только его название) объясняешь, почему нельзя всю архитектуру с енкодером, вниманием и декодером объяснить
@razinkov2 ай бұрын
Может быть потому, что я обленился) А может быть, потому что у меня в этом курсе до этого было три лекции про механизмы внимания) SDPA: kzbin.info7siDicen3a4?feature=share MHA: kzbin.infoL6IsrTV-FI8?feature=share Свойства MHA: kzbin.infoPtKdN0Cn48Y?feature=share А может быть потому, что я рассказал про архитектуру в целом и декодер в этих лекциях: Архитектура: kzbin.infos8uzBNSmyMU?feature=share Декодер: kzbin.infooJ0zAgqNx00?feature=share А может быть, я не рассказываю в лекции ViT про декодер просто потому, что в ViT декодера нет, есть только энкодер)
@_AbUser2 ай бұрын
Евгений решил широкий формат штурмовать.. Одобряем ! )))
@SNiks_X2 ай бұрын
Бредятина ....❤
@lesshishkin3712 ай бұрын
добавлю свой плюс за обратное распространение через слои трансформера)
@razinkov2 ай бұрын
Эти лекции прочитаны :) kzbin.infotks8CF-nqJQ kzbin.infoGEC_MzpzA5M P.S. Осторожно, нудятина)
@user-qp8wo5sf5l3 ай бұрын
27:35 Если вычисляется софтмакс, который все приведет к единичной сумме, то делить на корень из dk нет никакого смысла, также как и умножать на любую константу.
@razinkov3 ай бұрын
Нет, это не так) Сумма не изменится (останется 1), а вот баланс между компонентами изменится
@user-qp8wo5sf5l3 ай бұрын
@@razinkov а как может измениться баланс если все компоненты делятся на одно и то же число? Возможно я что то упустил..
@razinkov3 ай бұрын
@@user-qp8wo5sf5l Они же делятся до возведения экспоненты в эту степень) А показательная функция - нелинейная)
@62349143 ай бұрын
На слайде 53:10 похоже некорректная нотация для полиномиальной регрессии от одной переменной: значения базисных функций без индексов (если это вектора возводятся в степень, должны быть жирным шрифтом).
@golezafron5473 ай бұрын
где этому учат? куда поступать?
@razinkov3 ай бұрын
Теперь сюда: razinkov.ai/school
@golezafron5473 ай бұрын
@@razinkov благодарю, объясняешь бомбезно, ни у кого не понимал так хорошо, как у тебя
@razinkov3 ай бұрын
@@golezafron547 Спасибо)
@Skayfaks4 ай бұрын
Огонь! Спасибо большое!!
@user-gakf46ueyi4 ай бұрын
это SLL сненерила такую тягомотину?
@sergejskorohodov92014 ай бұрын
Евгений, огромное спасибо за то, что продолжаешь процесс нашего обучения. Ситация складывается таким образом, что самые актуальные знания появляются прямо сейчас на наших глазах. И ты являешься тем человеком который ввиду своих способностей извлекает эти знания и в очень доступной форме передаёт их нам. Понятно что , ввиду того, что сейчас всё очень динамично, сложно выстроить сразу качественный пайплайн нашего обучения. Но всё, что ты до сих пор делал было достойно. Спасибо тебе за твой труд. Хорошего тебе дня.
@razinkov4 ай бұрын
Сергей, спасибо за постоянную поддержку, очень ценю
@SergeySlesarenko4 ай бұрын
Большое спасибо! Очень нравится такой подход, от общей картины с постепенным приближением, с пониманием взаимосвязи между этапами
@razinkov4 ай бұрын
Спасибо за отклик)
@user-mb8mw2ou7s4 ай бұрын
Кое-что не понял. Буду благодарен, если кто-нибудь поможет разобраться. * Законно ли брать начальные веса, отличные от 1/N? Ранее рассматривался вариант для смещенной выборки, когда начальные веса каждого из классов различались. Но из формального вывода следует необхдимость 1/N. Хотя интуитивно понятно, что веса в процессе обучения все равно подстроятся и их выбор скорее повлияет только на число слабых классификаторов * Можно ли было исключать веса слабых классификатров при выборе целевой функции для очередного слабого классификатра? Кажется, здесь допущена ошибка в рассуждениях (48:00)
@naturesoundstage4 ай бұрын
То же самое прохожу в Германии. Ожидаемо много практики и мало теории. А Ваши лекции как утренний кофе в летней садовой беседке.
@razinkov4 ай бұрын
Спасибо, очень приятно)
@angryworm804 ай бұрын
Я 100-й лайк поставил :) 🤓
@kotikGGG4 ай бұрын
Интересно - Почему енкодеру нужно 6 слоёв чтобы сформировать скрытое представление? Чем эта цифра обусловлена? Размером словаря и предложения на входе?
@ArtemBolotov74 ай бұрын
+
@swalda51224 ай бұрын
Евгений, если курс будет продолжаться бесконечно, то он принципиально потеряет полноту и возможность пройти его полностью. Превратится просто в "журнал" про LLM, который выходит каждые 2 недели. Лучше всё таки выбрать какие темы мы хотим обсудить, и за конечный срок их пройти.
@kotikGGG4 ай бұрын
Лучше всех рассказал про этеншн и трансформер...
@alexandrdeveloper12424 ай бұрын
Небольшое юмористическое замечание: нет, человек который изобретает инструмент и понятия не имеет как им пользоваться! Он лишь знает, как он ХОТЕЛ БЫ им пользоваться сам. Т е он даже про себя всего не знает. Как пример рассмотрим молоток: 1. Вряд ли изобретатель молотка знал, что боек будет слетать с ручки и лететь в произвольном направлении, но очень часто ему же в лоб 😂 2. Вряд ли он ожидал, что к нему придет его сосед и скажет: "слушай Каин, ты такой классный инструмент придумал! Его ручку так удобно использовать вместо рычага и вместо подкладки под камень, когда его колишь. Мы тут камни вчера всей деревней так кололи, на год накололи вперёд... " 😁 Так что, нет, изобретатели обычно и понятия не имеют, что они на самом деле изобрели.
@kiryllshynharow90584 ай бұрын
"изобретение" означает привнесение новой сущности, в то время как "открытие" означает осознание сущности объективно существующей изобретения часто имеют эмерджентные свойства, как например компьютер или Интернет вышли далеко за пределы первоначально мыслимых задач но в случае с LLM речь идет похоже не просто об инструменте решения прикладных задач - ученые нащупали важный аспект того как работает интеллект, думаю Илья имеет в виду это, и очень интересно как достижения LLM повлияют на исследования биологического мозга
@alexandrdeveloper12424 ай бұрын
Во первых спасибо, что выкладываешь свои лекции. Получаются они весьма качестыенными, как минимум для руского языка. Во вторых немного выскажу своё мнение на то что услышал в этом видео: 1. Наблюдение первое: Насчёт потери работы и agi. Как я уже писал, не может большая китайскся комната заменить разум и даже интеллект полностью. "разум" здесь употребляется в контексте именно человеческой способности изобретать. Самый простейший пример из этого - доказательства по индукции. Да, я знаю, что были и такие опыты с инс, но врят ли достижения здесь можно считать окончательными. Интеллект же - как сугубо формальные рассуждения. Здесь банальный алгориим на прологе дает фору LLM любого размера. 2. Наблюдение второе. Вычислительные ресурсы, размер выборки и контаминация данных. На мой взгляд надо наоборот уменьшать размеры корпуса обучения. Почему? Помнишь ли ты свою лекцию, где сравнивал llm с универсальным компрессором данных, который увеличичает энтропию? Так вот, из тех же соображений - чем меньше обучаюшая выборка при тех же результатах на тестировании, тем выше эта способность к компрессии. Когда в обучающий корпус засунули весь интернет и все книги - это не есть хорошо. Уже видно, что эти большие llm переобучены. Хотя бы потому, что они пытаются отвечать на любой вопрос, выдавая "галики" или напрямую копируют исходный текст с источника, вместо того, что бы сказать "не знаю" или привести своё оригинальное рассуждение. В контексте этого, современные llm вообще говоря с интеллектом ничего общего не имеют. И что самое плохое - совершенно не понятно, как это поправить. Ну и не сможет такая модель определить кто убийца в достаточно длинной книге, по той же причине, как при игре в шахматы через некоторое количество ходов она начинает нарушать правила (говорят в гпт4 это поправили, но не верю. Думаю, за кулисами прикрутили к ней шахматный спец. алгоритм. Это легко проверить, заставив ее играть с измененными правилами, например, когда пешка может ходить назад или прыгать через фигуру) 3. Монополии. Да, это фигово. Но ещё ни одна монополия не захватила мир. И науку двигают не компании, а как раз университеты. И теперь, когда университеты уже во многом за бортом, компании сейчас довыжмут всë из трансформеров и упрутся в стену. А новое будет в университетах и не факт, что быстро. Может через год, а может через 20. Курс обещает быть интересным, поэтому, пожалуйста, продолжай.
@user-gakf46ueyi4 ай бұрын
не розстраюйся
@brianastasia30784 ай бұрын
Здорово закончить этот курс 29 марта, понимая что завтра первая лекция нового курса. Будто у любимого сериала вышел новый сезон, а ты только досмотрел предыдущий.🤓
@alexandrdeveloper12424 ай бұрын
"AGI, который ... почти пришёл", говориои они 😁 Почти как адепты первого интерпретатора лисп. Они даже строили своë железо, совсем как нынешние дрессировщики трансформеров. Ах, как жаль их.... 😂. А потом гранты закончились 😢 Но спустя какое-то время пришли адепты пролога и сделали всë тоже самое, в точности повторив судьбу любителей лисп, но только быстрее и с меньшей помпой... И их тоже жаль. Потом ещё были объединенные усилия, не увенчавшиеся ничем, кроме сравнительно небольшой стопки различных полууспешных и не успешных алгоритмов для трудных, но ограниченных задач. Среди этих алгоритмов были и попытки в ИНС, но с треском рухнули, проиграв обычным статистическим решениям... И вот следующая волна... И опять они думают, что им, не знающим почти ничего о том, что они хотят создать, это уже почти удалось. Их не смущает, как мало известно о процессе мышления человека - единственного прототипа создаваемого нечто. А надо ли упомянуть про определение сознания и о его полной несостоятельности в не гуманитарного смысла ? А через него в науках о мышлении и психике определено всё остальное... Ну это не говоря уже о набившем оскомину философском "камне": " Способна ли машина мыслить? ". Тут сейчас вопрос проще: способен ли мыслить алгоритм, напоминающий очень большую китайскую комнату, с настраеваемыми табличками и с послушной обезьяной внутри? Пока что я видел пример, где он не смог правильно даже буквы в слове посчитать, т к оно токенизировалось без последней буквы - сэкономили называется 😢 На мой взгляд ответ очевиден. Нет, трансформеры - это здорово, но возлагать такие надежы... Забавно наблюдать за зарождением новой ИИ-зимы.(наверное, теперь правильно будет agi-зима 😁) Сегодня читал новость, что каждые 8 месяцев появляются LLM , которые вдвое уменьшают потребности в вычислительных ресурсах... Сравнивают с "законом" Мура... И когда только они успели вывести очередной "закон", если этим LLM даже по меркам IT-отрасли без году неделя... Быстрые, как мотыльки-однодневки 😂 Посмотрим, что от этого "закона" останется через 2 года. 😢 ПС: но автору выражаю благодарность за лекции. Знать последние новости из мира ИИ необходимо, даже если будет зима. В конце-концов это крайне увлекательно.