Sergey Nikolenko

1:22:15

СПбГУ -- 2024.12.12 -- Латентные диффузионные модели и модели, основанные на потоках

12 сағат бұрын

1:34:45

СПбГУ -- 2024.12.12 -- Экспоненциальное семейство, обобщённые линейные модели

12 сағат бұрын

1:40:50

СПбГУ -- 2024.11.28 -- Априорные распределения Джеффриса

14 күн бұрын

1:40:15

СПбГУ -- 2024.11.28 -- Диффузионные порождающие модели

14 күн бұрын

1:33:40

СПбГУ -- 2024.11.21 -- Gumbel-Softmax и DALL-E, CLIP, поиск по видео

21 күн бұрын

1:37:07

СПбГУ -- 2024.11.21 -- Пример Джейнса, энтропия, принцип максимума энтропии

21 күн бұрын

1:39:53

СПбГУ -- 2024.11.14 -- Вариационные автокодировщики

Ай бұрын

1:36:40

СПбГУ -- 2024.11.14 -- Обучение равномерного распределения

Ай бұрын

1:39:15

СПбГУ -- 2024.11.07 -- Информационные критерии Такеучи и Акаике

Ай бұрын

1:45:15

СПбГУ -- 2024.11.07 -- Таксономия порождающих моделей и GAN

Ай бұрын

2:33:34

Семинар СПбГУ -- 2024.10.30 -- Что происходит в AI сегодня

Ай бұрын

1:46:43

СПбГУ -- 2024.10.31 -- Байесовский выбор моделей

Ай бұрын

1:35:36

СПбГУ -- 2024.10.31 -- Ещё о трансформерах

Ай бұрын

1:25:51

AIRI Seminars -- 2024.10.23 -- Юрий Куратов о длинных контекстах для LLM

Ай бұрын

1:46:42

СПбГУ -- 2024.10.24 -- Внимание и трансформеры

Ай бұрын

1:34:39

СПбГУ -- 2024.10.24 -- Байесовский вывод для гауссиана

Ай бұрын

1:33:38

СПбГУ -- 2024.10.17 -- Ближайшие соседи, проклятие размерности, bias variance noise decomposition

2 ай бұрын

1:41:15

СПбГУ -- 2024.10.10 -- Состязательные примеры, рекуррентные нейронные сети

2 ай бұрын

1:31:39

СПбГУ -- 2024.10.10 -- Байесовский вывод в логистической регрессии

2 ай бұрын

3:12:53

Семинар СПбГУ -- 2024.10.09 -- Мечтаем ли мы об AGI

2 ай бұрын

1:39:14

СПбГУ -- 2024.10.03 -- Распознавание объектов и сегментация

2 ай бұрын

1:32:22

СПбГУ -- 2024.10.03 -- LDA и QDA, логистическая регрессия

2 ай бұрын

1:40:02

НИУ ВШЭ -- 2024.10.02 -- Рекомендательные системы в эпоху LLM

2 ай бұрын

3:12:21

СПбГУ -- 2024.09.28 -- Байесовский вывод в линейной регрессии, основы классификации

2 ай бұрын

1:42:17

СПбГУ -- 2024.09.26 -- CNN и распознавание объектов

2 ай бұрын

1:35:31

СПбГУ -- 2024.09.26 -- Линейная регрессия

2 ай бұрын

1:45:29

СПбГУ -- 2024.09.19 -- Байесовский вывод для монетки, вероятностные рассуждения

2 ай бұрын

1:35:03

СПбГУ -- 2024.09.19 -- Сверточные нейронные сети

2 ай бұрын

3:17:36

СПбГУ -- 2024.09.14 -- Стохастический градиентный спуск, дропаут, batch normalization

3 ай бұрын

Пікірлер

@romanroman5226 19 минут бұрын

Классный контент !!

@YaroslavSivakov 3 күн бұрын

Спасибо! Удивлён, что лайков нет, Сергей, кажется, чуть ли не единственный, кто в русском ютубе про это всё так углубленно рассказывает.

@Tiki-n47 11 күн бұрын

какой же неприятный тип, этот коментатор на 1:28

@ocamlmail 11 күн бұрын

Здравствуйте. 25:16 А нету ошибки со вторым слагаемым A_t -- там же (1- alpha_t) * alpha_{t - 1} * alpha_{t - 2} ? Т.е. на 23:55 там же (1-alpha_{t} ) alpha_{t-1} , а не 1-alpha_{t} * alpha_{t-1}.

@snikolenko 11 күн бұрын

здравствуйте, да вроде тут как раз всё правильно, мы к (1-alpha_{t} ) прибавляем (1-alpha_{t-1} ) alpha_{t}, а потом к этому (1-alpha_{t-2} ) alpha_{t-1} alpha_{t}, и так далее

@ocamlmail 11 күн бұрын

@@snikolenko Да, пропустил объяснение на 23:00.

@spgc239 12 күн бұрын

Сергей, почему, на ваш взгляд, TensorFlow сдает позиции?

@snikolenko 11 күн бұрын

=== -- hi! why do you think tensorflow lost to pytorch? -- Hi Sergey! The "loss" of TensorFlow to PyTorch in certain domains, especially academic research and cutting-edge machine learning development, is a multifaceted issue. Here are some of the key reasons why PyTorch has gained a strong foothold over TensorFlow: 1. User-Friendly Design Eager Execution: PyTorch initially offered a dynamic computation graph (eager execution) by default, which aligns closely with Python's native programming style. TensorFlow originally used static computation graphs, requiring a session-based API that was cumbersome for rapid prototyping and debugging. While TensorFlow introduced eager execution later, PyTorch had already gained significant traction. Intuitive Syntax: PyTorch's syntax feels more Pythonic and approachable for many developers, especially those from non-professional software engineering backgrounds. 2. Research and Academia Adoption by Researchers: PyTorch quickly became the go-to library for researchers because of its ease of use for developing new models and algorithms. It significantly simplified writing and testing experimental code, which is critical in research. Paper Implementations: Many researchers started releasing implementations of their papers in PyTorch, creating a network effect that encouraged further adoption in the research community. 3. Community and Ecosystem Community Momentum: PyTorch benefitted from a growing and enthusiastic community that drove rapid improvements and provided ample support through forums and GitHub. Integration with Research Libraries: Many newer ML libraries and tools (e.g., Hugging Face Transformers, Lightning AI) either started with or favored PyTorch, further strengthening its position. 4. TensorFlow's Early Complexity Confusing APIs: TensorFlow's early versions were criticized for having inconsistent and verbose APIs. It wasn't until TensorFlow 2.x that significant improvements were made, but by then, PyTorch had already captured a large portion of the developer and research market. Backward Compatibility Issues: TensorFlow's updates sometimes broke backward compatibility, frustrating developers who had to refactor their code. 5. Industry Adoption While TensorFlow remains popular in industry settings due to its production-ready features (e.g., TensorFlow Serving, TensorFlow Lite, and TensorFlow.js), PyTorch has significantly closed this gap with frameworks like TorchServe and ONNX support. PyTorch's ease of use started appealing to companies looking to prototype and deploy models quickly, especially as it matured and became more production-ready. 6. Facebook's Strategic Push Facebook (Meta) invested heavily in PyTorch's development and promotion. It was also made the default backend for many of Meta's ML projects, demonstrating its robustness in real-world applications. 7. Open Governance PyTorch's transition to the PyTorch Foundation, a Linux Foundation project, signaled a commitment to open governance and transparency. This has been seen as an advantage over TensorFlow's tighter association with Google. 8. Momentum and Perception Once a tool gains significant momentum, it becomes the de facto standard in certain communities. This phenomenon reinforced PyTorch's dominance in research as more tutorials, courses, and models were written for it. TensorFlow's Strengths It's worth noting that TensorFlow is far from "losing" in an absolute sense. It remains dominant in certain areas: -- Production and Deployment: TensorFlow's ecosystem for production is robust, including tools like TensorFlow Extended (TFX) and TensorFlow Lite for mobile and embedded devices. -- Cross-Platform Compatibility: TensorFlow supports deployment on diverse platforms, making it highly versatile. -- Corporate Adoption: Many companies with existing TensorFlow workflows continue to use it due to familiarity and the cost of transitioning. In conclusion, PyTorch's ascendancy is due to a combination of technical advantages, community engagement, and strategic choices. TensorFlow's pivot towards simplicity with TensorFlow 2.x came too late to reverse PyTorch's momentum in research and development. However, both frameworks have carved out strong niches, and the competition continues to push innovation in the ML ecosystem. === couldn't put it better myself :)

@snikolenko 11 күн бұрын

самое смешное, что после этого ответа приложение GPT выдало плашку: "For the most complete and up-to-date information about the U.S. Election, please visit news sources like The Associated Press, Reuters, or check with your state or local election authority." так что если вдруг на выборы TensorFlow vs. PyTorch позовут, держите в курсе :)

@user-ps5zp7de5c 17 күн бұрын

Спасибо за семинар. На будущее, организаторы исправьте звук микрофона для людей в помещении, из-за искажения вопросы были не слышны. Интересно было-бы увидеть Вашу лекцию посвященную KAN. Сейчас говорят, что ChatGPT для обработки запросов требуются мощные чипы видеокарт. Сергей, как Вы думаете сеть KAN будет также требовательна к видеокарте по сравнению с ChatGPT? На какие сайтах Вы отслеживаете новые статьи по нейросетям, в частности по теме KAN?

@SergeySK 19 күн бұрын

Мне кажется интеграл (sigma^2)^(-3/2) все таки расходится. Проблема будет в нуле.

@snikolenko 18 күн бұрын

ваша правда)

@SergeySK 14 күн бұрын

@ хочу поблагодарить за замечательные лекции очень познавательно! Особенно по байесовской части.

@snikolenko 14 күн бұрын

@@SergeySK спасибо на добром слове! в этом курсе только байесовская часть и есть :)

@ИльяМурзин-г2т 23 күн бұрын

Здравствуйте, большое спасибо за лекцию, подскажите, почему в VQ-VAE z представляет собой именно матрицу кодовых слов 1:12:37

@zaharvarfolomeev1536 4 күн бұрын

Потому что энкодер состоит из сверточных слоев, там получается тензор, карты признаков :)

@artemmikheev8030 26 күн бұрын

Спасибо за лекцию. Я немного не понял, почему обученные эмбединги в VQ-VAE соответствуют condition text. Подтягиваем ведь к ближайшему соседy в словаре, а он может соответствовать любому какому-то токену. Видимо мы уже после сопоставляем condition нужный токен (центр кластера) . И в inference мы из condition как получаем эмбединг (тензор токенов для decoder)?

@snikolenko 25 күн бұрын

В самом VQ-VAE нет никакого условия; текстовые условия появляются позже, вот в DALL-E, например, где последовательность графических токенов пишет трансформер

@lacroix1679 28 күн бұрын

Спасибо за доклад! А где-то можно посмотреть презентацию? Интересуют ссылки оттуда

@alexmartov5367 29 күн бұрын

Картина апокалипсиса из-за AI нарисована достаточно убедительно. Я верю в то, шансы апокалипсиса достаточно высоки. Но думаю, к апокалипсису приведет не AI, а алчность и беспринципность капиталюк. Ранее, в бытность сссре коммуняки как то уравновешивали капиталюк. Но сегодня благодаря предательству демшизы, предавшей в 90-х годах трудовой народ сссре и обильно обкукарекавшей коммуняк куриным пометом, сложилась такая ситуация, что алчность капиталюк уже некому ограничивать. Так вот они то и угробят матушку-планету. А задним числом спишут всё на AI, на бунт машин. Сами же свалят на Марс. Он уже сейчас готовятся понемногу. Недаром Маск и Трамп так радуются успешным запускам сверхтяжелых ракет.

@AlexAlex-jo9xd 29 күн бұрын

Коммент чтобы быстро найти потом видео

@РусланИзмаилов-я9о Ай бұрын

Сделайте про потоки, пожалуйста

@JaqUkto Ай бұрын

Очень посредственный лектор, объяснять не умеет

@НайомиСи Ай бұрын

Можно узнать больше подробностей про то как шум помогает в оптимизации линейной регрессии или где почитать можно об этом?

@snikolenko Ай бұрын

не уверен, что значит "помогает", но шум просто есть в предположениях) иначе откуда бы взялась функция ошибки...

@Opterium-BTC Ай бұрын

Используемые способы получения данных с нейронок не правильны, потому все упёрлись в наращивании мощности и потребление эл. Существуют способы быстрее и дешевле. Жаль что мир застрял на таком этапе.

@soen2368 Ай бұрын

так пользуйтесь моментом. выводите свой продукт или статьи.

@Opterium-BTC Ай бұрын

@soen2368 Вы слишком оптимистичны. Реализация любой идеи крайне затруднена. Инвесторы же не вкладываются в новые продукты, выгоднее работать на отлаженной системе рисков. И ещё существует ряд сложностей не дающих даже лёгкой надежды на положительный результат для заявителя. Кроме проблем от этого ничего не нажить. Статьи ваши дадут кому то пропиариться и разбогатеть, вам же только проблемы гарантированы.

@soen2368 Ай бұрын

@@Opterium-BTC оу ну с таким подходом человечество и огонь с колесом бы не изобрели.

@Opterium-BTC Ай бұрын

@soen2368 Так и не изобрели, хотя ваш пример не в тему. Человек не изобретал ни огонь ни колесо.

@soen2368 Ай бұрын

@@Opterium-BTC перешли к софистике? ясно. полагаю изобретения не Ваш конек

@bbrother92 Ай бұрын

@snikolenko Sergey могу у вас спросить. Что вы думаете про ближайшие 5 лет - упрутся ли ML технологии в потолок из-за нехватки gpu или возможностей памяти? Еще хотел спросить всетакие - смогут ли сделать не языковые нейронки - для пространственного обучения? Или же первые легкие плоды уже собраны а дальше нас ждет ИИ зима и небольшие оптимизации без сильного прогресса в сторону настоящего ИИ. Спасибо

@snikolenko Ай бұрын

Я думаю, зима точно не ждёт -- если даже прогресс полностью остановится на GPT-5, просто тщательное "выдаивание" возможностей LLM, которые уже есть (но пока не очень широко используются), изменит мир в ближайшие годы очень сильно. "Зима" -- это ведь скорее про бизнес и хайп, чем про конкретные достижения науки. А будет ли в ближайшие годы именно AGI и как сильно GPT-5 будет отличаться от GPT-4, а GPT-6 от GPT-5 -- этого я не знаю; Сэм вот опять давеча сказал, что будет, но кто ж его знает на самом деле...

@bbrother92 Ай бұрын

@@snikolenko Просто кажется, что базовые задачи уже отлично решаются. А вот к сложным не связанным с текстами не подобраться

@snikolenko Ай бұрын

@@bbrother92 роботика пока ждёт своего ChatGPT moment, но кажется, что он уже не за горами; а какие ещё после этого останутся "не связанные с текстами задачи"? :)

@bbrother92 Ай бұрын

@@snikolenko Ну пока что непонятно как готовить данные для логических задач да и вообще, что является минимальным элементов в такие задачках на логику. То это математическое мышление толи пространственное. ГПТ все еще дико валится на таких задачах, могу скрин скинуть. Картинки, звук, тексты это все было в достатке поэтому этот орех раскалоли, слава биг дате. Но а дальше что, не упремся ли мы в потолок сегодня как это было с релейной техникой в 30х-50х годах до появления транзистора.

@snikolenko Ай бұрын

@@bbrother92 тут у меня есть надежда на o1-подобные идеи; надежда не математически обоснованная, но интуитивно ведь мы это и делаем, когда рассуждаем: опираемся на промежуточные результаты, сформулированные нами же ранее мне кажется, главный следующий прорыв -- хорошо добавить в LLM "рабочую память" для этих рассуждений; про это есть миллион статей, но, видимо, пока окончательного ответа не появилось; но здесь, согласитесь, трудно сомневаться, что так или иначе это получится

@crossbound9645 Ай бұрын

Спасибо за семинар! После него появился интерес посмотреть работы по сжатию данных с помощью KAN

@oyserg Ай бұрын

Большинство упорствует и не с той стороны отвечает на вопрос: что происходит в ии? Более простой и жизненный ответ: распил. Начиная с 60-ых, каждые +/-20 лет, расчехляют ржавую пилу и пилят на хайпе гранты, да прочие бюджеты. В этот раз, слава всем святым котикам ютуба(данным) и гигагерцам(gpu слава) есть хоть то, чем можно дурачить не просто бабушку гуманитария, но и заказчика готового платить. В современном мире, где технологии соседствуют с махровым средневековым мракобесием, так тяжело определить реальное положение дел даже если в теме десяток другой лет. Для большенства же это магия, которая завтра захватит мир. Бу. Паника. Титры. Чтобы понять, в какое прекрасное время живëм и где во всëм этом место науки, а не рекламы и хайпа, откройте(гулится легко) для себя проект openworm. В нем пытаются, без особых успехов(авторы не согласятся), моделировать не человека и его интеллект, а житиë бытиë относительно простого червя на 302 нейрона. Это, на минуточку, передний край возможностей в построении интеллектуальных систем целого человечества или около того. Не достижимый сегодня край. При этом вполне успешно можно играть в имитационное таинство для обывателя. Мозг потребителя домыслит, достроит, сгладит углы и обоснует любую похожую на интелектуальность дичь. В конце концов в облаках мы видим же лошадок, да лебедей, чем ии хуже. Разработчики в конце попила согласятся, что всë не идеально и скажут, что опять не хватило данных, памяти и/или герцев. Что в переводе на инвесторский: дай больше денег и тогда уж точно получится. Но не получится, потому, что нет главного - алгоритмов. У нас есть модели того, как живут и развиваются далекие галактики. Если опять сломаются, поменяем не в первой переобуваться на лету. Но у нас Нет ни одной рабочей модели для мозга с позиции обработки данных. Такой, чтобы не противоречила всему накопленному объëму существующих исследований целиком. Современные искусственные нейросети работают на моделях середины сороковых годов прошлого века. С тех пор много, что было открыто, что эту модель должно было отменить ещë лет 50 назад. Но этого не произошло и не произойдет. Математики, если представить, что среди этой инженерии они вообще есть, не хотят особо знать, что там у нейрофизиологов за последние 70 лет произошло. Им лучше взвешенные пороговые суммы теребить, из них можно хоть пуделя, хоть кракодила вылепить. И пока худо бедно лепится, лепить будут до последнего гранта. Бизнес которому только норма прибыли важна будет пользовать, ии что есть. Потому, что хайп, потому, что иногда это может оптимизировать затраты. Там где не дает деньги, будут использоваться обычные оптимизационные алгоритмы с прогнозируемым результатом. То есть ии, как вещь требуемая фундаментальных(аля Манхетенский проект) исследований не нужна тем кто деньги платит. Не понятно, как это фундаментальное монетизировать, да и хватит ли мозгов понять мозги. А без этих исследований будут и дальше фокусы показывать и сокрушаться, что опять не хватило, денег дайте.

@alexandrzaycew2887 Ай бұрын

Для чего везде гербы нарисованы? Свастикой заменить проще рисуется... не люди науки, а люди государства...

@alexandrzaycew2887 Ай бұрын

но очень интересно, спасибо

@snikolenko Ай бұрын

гербы?)

@jetbrain9115 Ай бұрын

Галлюцинации? 😂 Нейронки тоже галлюцинируют.

@AlexP-fg3ci Ай бұрын

Эти эмблема СПБГУ и рядом эмблема центра технологий на базе которых лекция и происходила Если поищите в интернете то поймёте что они отличаются от герба РФ. Более того если загуглите герб Византийской империи, то двуглавого орла найдете и там От того что например свастика стала символом нацистов, не повод отменять индийскую свастику просто потому что она лично у вас вызывает неприятные ассоциации

@jetbrain9115 Ай бұрын

@@AlexP-fg3ci да причём тут не нравится, я всей душой эту свастику ненавижу, потому что люди которые её носили убивали мою родню... Нравится не нравится, как баба ей Богу.

@SOFIST_STEPANOW Ай бұрын

ИИ это тупость и глупость по Канту. Это не Разум от слова совсем. Это только автоматика не более. Разум по Канту включает рассудок мышление память апперцепции антиципации и так далее по списку.

@user-ie3qr1ox8r Ай бұрын

А что если кант не прав?

@SOFIST_STEPANOW Ай бұрын

@user-ie3qr1ox8r Вы думаете что человек с плоскими мозгами логика прав. Логика это только часть мышления по Канту. Читайте внимательно Канта Юма и так далее.

@AlexP-fg3ci Ай бұрын

@@SOFIST_STEPANOW а какая разница что там по Канту если это "нечто" помогает решать сложные задачи? Отрицать полезность бессмысленно. Более того попробуйте дать недвусмысленное определение всем использованным терминам не прибегая к другим сложным терминам так, чтобы по ним можно было вынести бинарный ответ - система обладает "интеллектом"/"разумом" или нет. Сомневаюсь что у вас получится

@SOFIST_STEPANOW Ай бұрын

@AlexP-fg3ci Любой вымысел псевдонауки имеет право на жизнь если даёт результат в эксперименте в Настоящем которое мгновенно непознаваемо принципиально Разумом. Физики это модельеры в бюро прогнозов Природы не более. Это современные Дельфийские пророки и оракулы или римские Сивиллы предсказывает будущее как Настоящее не более. Никто не знает что такое интеллект Человека от слова совсем. ИИ ЭТО НЕ О ЧЁМ.

@jetbrain9115 Ай бұрын

@@SOFIST_STEPANOWпока да, да ни совсем, сегодня вот с девушкой смм щицой разговаривал, так у неё десятки закладок (промптов и ответов) по решению разных задач..... ИИ (я бы его так не называл конечно) лучше большие языковые статистические модели) вошли в жизнь железно и захватывают все больше сфер деятельности. Это действительно что-то.. Но к сожалению оно делает нашу жизнь мышление и поведение ещё более шаблонным, раскрою: есть такая задача для llm - пересказ или ужатие.... текста, так вот оно выполнит задачу, но так как обучилось это делать ранее на обучающих данных, короче, llm не подметит того что подметил бы кожанный индивид, причем каждый по разному и по разным причинам. Далее пользуясь этим с малого возраста все разнообразие и креативность 'обработки текста' текста, весь индивидуализм теряется накуй. Оно за тебя не переварит так как ты.

@AlexP-fg3ci Ай бұрын

Интересная лекция, достаточно глубоко. Спасибо! Оффтоп: Сделайте в следующий раз пожалуйста что-то с микрофоном который даете в зал. Он записывает скрипящие звуки как будто для какого-то крипового хоррора)

@snikolenko Ай бұрын

этот микрофон просто не записывался) мой звук, я так понимаю, идёт с петлички, а из зала в дорожке было либо ничего не слышно, либо хоррор, да)

@bbrother92 Ай бұрын

@@snikolenko Sergey могу у вас спросить. Что вы думаете про ближайшие 5 лет - упрутся ли ML технологии в потолок из-за нехватки gpu или возможностей памяти? Еще хотел спросить всетакие - смогут ли сделать не языковые нейронки - для пространственного обучения? Или же первые легкие плоды уже собраны а дальше нас ждет ИИ зима и небольшие оптимизации без сильного прогресса в сторону настоящего ИИ. Спасибо

@вгостяхуЯны-ъ9б Ай бұрын

Вроде эта лекция уже состоялась 2 года назад. Что-то новое появилось в осознании трансформеров?

@snikolenko Ай бұрын

конечно) вот, например, мой свежий краткий обзор: kzbin.info/www/bejne/fHixoZt-bNOqb9k поскольку он уже существует и общедоступен, мы скорее всего в курсе его повторять не будем, так что смотрите как доп. материал

@dzigen9884 Ай бұрын

Спасибо за семинар! У вас где-то выложена презентация? Я бы хотел обратиться к некоторым статьям, на которые вы ссылались.

@snikolenko Ай бұрын

ага, выложил слайды обеих лекций как дополнительные материалы к курсам, например: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2023.html добавил это в описания

@maksimtraper6778 15 күн бұрын

logic.pdmi.ras.ru/~sergey/teaching/slides/2024-10-30%20--%20Nikolenko%20--%20What%20is%20Happening%20in%20AI.pdf

@dmitrypolozkov1335 Ай бұрын

спасибо! привет с фкн вшэ!💓🎃

@egorchistyakov1259 Ай бұрын

Очень жалею, что я не студент. Потрясающее объяснение и интересная подача материала

@snikolenko Ай бұрын

большое спасибо на добром слове! на самом деле все материалы курсов я выкладываю в открытый доступ, так что не-студенты отличаются разве что тем, что не могут задать вопрос на лекции

@НайомиСи Ай бұрын

Спасибо большое за как всегда прекрасное объяснение! Есть вопросы: 1) почему мы стекаем блоки с помощью векторов одинаковой размерности Х, нам ведь ничто не запрещает как угодно ее менять между блоками, учитывая, что после каждого блока токены полностью трансформируются? Будет ли профит? 2) есть ли попытки заменить полное матричное умножение Q K V на что-то более простое? 3) есть ощущение, что аналогия с запросами и ключами фигня полная с математической точки зрения. Как будто кто-то попробовал и оно вдруг заработало. В БД оно так, но там же эти матрицы не учатся, там они просто известны заранее. По сути это просто взвешивание (self attention), где матрицам дали осмысленные имена, а в реальности только сама нейросеть знает, чему эти матрицы будут соответствовать. Не так ли? 4) нельзя ли исключить матрицу К? Математически выглядит, что под софт Максом находится квадратичная форма. Но мы ее все равно превращаем в гейты от 0 до 1. Почему линейное отображение тогда не прокатит? Это снизило бы затраты.

@snikolenko Ай бұрын

1) не мешает, но удобнее повторять одинаковые 2) конечно, да, об этом будем говорить дальше 3) да, конечно :) это объяснение скорее для того, чтобы за математикой была история, помогающая её понять и запомнить 4) не до конца понял мысль, но да, есть варианты с линейным вниманием, про них тоже поговорим

@sergeypresnyakov2893 Ай бұрын

Почему-то в рассказе про конструкцию LSTM не упоминается момент с предсказанием этого слоя(то есть тот самый y_t, который любой RNN-слой должен выдавать) Мне кажется это стоит добавить Спойлер: y_t = h_t+1

@snikolenko Ай бұрын

да, это верно, конечно) забыл проговорить)

@nikolaigladchenko3182 Ай бұрын

Подскажите, а на других платформах, кроме youtube выходят видео?

@atheroot Ай бұрын

Звук просто отвратительный. У меня такой был, когда я усилитель делал на транзисторе.

@OUTTHERE-c5j Ай бұрын

ענק מהחיים❤

@surrrogatehuman7653 Ай бұрын

Сергей, спасибо за лекцию. Можно вопрос задать? Вот вы упомянули, что self adversarial обучение хороший способ аугментации и привели формулу обновления весов с вычислением потерь от более сложного примера x0. Я не особо понимаю, почему в окрестности исходного x целевая метка y должна сохраняться, ведь, как я понял, вычисляя градиент по x от функции потерь, мы берем тот же y. Или эпсилон настолько мало, что это совсем небольшой шаг от х? Если логика такова, то как подбирается этот эпсилон, чтобы искать сложные примеры, но как бы не зайти в область другого класса

@snikolenko Ай бұрын

да, мы предполагаем, что eps настолько мало, что ничего измениться не может заведомо, как в примере с пандой

@surrrogatehuman7653 Ай бұрын

@@snikolenko понял, спасибо! И еще возник вопрос, почему, чтобы найти x с чертой (более сложный образ в окрестности) необходимо идти по антиградиенту? Не должен ли быть там +gradL по х, чтобы найти более сложный образ, то есть на котором лосс выше? Спасибо

@snikolenko Ай бұрын

@@surrrogatehuman7653 чёрт, да, я не с тем знаком написал( на самом деле, конечно, смотря градиент чего: если градиент скора правильного ответа, то с минусом, а если конечный лосс, то да, с плюсом; но я написал L и с минусом, был неправ)

@surrrogatehuman7653 Ай бұрын

@@snikolenko Спасибо!

@topossss 2 ай бұрын

Я искусственный интеллект кста, вопросы?

@ИванИванов-ж8б7у 2 ай бұрын

Забавно. что столько много разглагольствований об интеллекте, но по сути дела интеллект это способность решать задачи в новых условиях. А по простому придумываете новую игру с новыми правилами, простыми, но самое главное с новыми и все текущие модели что клауд 3.5. что новый о1 падают и ничего сделать не могут. Начинают путаться в 3 соснах. o1-preview несколько лучше, но в целом добавь 2,3,4 новых условия где нужно создавать иерархический план действий или хотя бы сложную цепочку, все он не может справится. Общие правила игры: 1. Тебе предстоит сыграть в игру, где нужно управлять героем и найти выход. 2. Управляй героем с помощью клавиш W/A/S/D. 3. Используй E, чтобы поднять предмет (Яблоко, Тесто, а так же Пирог). 4. Используй Q, чтобы выложить предмет или ингредиент (Яблоко, Тесто, а так же Пирог). 5. Каждая ячейка инвентаря героя вмещает по 1 предмету или ингредиенту, т.е. если ячеек 3 то можно поместить 3 объекта, если 2 ячейки, то два объекта.6. Чтобы приготовить пирог, помести тесто и яблоко в печку и нажми R (одно нажатие один Пирог). 7. В печку можно поместить ингредиенты с помощью Q. 8. В печке помещается 3 вида предметов в любом количестве (Яблоко Тесто Пирог), т.е. в отличие от инвентаря в печке может лежать 3 яблока, 2 теста и 4 пирога 9. Предметы из печки берутся справа налево. 10. Из печки можно забрать пирог или ингредиенты с помощью E. 12. Инвентарь состоит из 2 ячеек. Если инвентарь полон, нужно освободить место. 13. Герой не может перемещаться в клетки с Преградой. 14. Заверши игру, добравшись до выхода и нажав F. 15. Герой должен сначала собрать все необходимые предметы, а затем дойти до выхода. Игровое поле размером 3 на 3: 1:1 - Герой 1:2 - Тесто 1:3 - Пирог 2:1 - Пусто 2:2 - Преграда 2:3 - Яблоко 3:1 - Выход 3:2 - Пусто 3:3 - Печка Задача: 1. Необходимо написать последовательность действий (символов) через запятую (,) которая приведен к решению поставленной адачи 2. Герой должен дойти до выхода, в инвентаре должно быть: Пирог (нужно 2) и нажать F. если поле сделать 5 на 5 с большим количество преград и условий на выход, модель ломается и не понимает, что делает.

@snikolenko Ай бұрын

А человек не ломается, если "сделать 5х5 с большим количеством преград"?..

@ИванИванов-ж8б7у Ай бұрын

@@snikolenko не ломается, он сядет, возьмет листочек нарисует все что ему нужно и ответит на вопрос, что собственно и пытается делать o1-preview и o1-mini но с большим трудом. В том и суть, что реальные размышления требуют держать в голове много условий, разного уровня иерархии и свободно ими оперировать, что текущие модели почти не умеют.

@snikolenko Ай бұрын

@@ИванИванов-ж8б7ув этом как раз мой point: у LLM нет листочка; попробуйте решить такую задачу в уме с ходу, порождая ответ токен за токеном, и увидите, что запутаться человеку будет очень легко; o1 -- это как раз попытка научить LLM использовать "листочек", но, разумеется, это ещё не окончательный ответ на все вопросы если что, абсолютно никто -- ни я, ни Юдковский -- не утверждает, что модель из семейства o1 представляет какие-то серьёзные экзистенциальные риски для человечества; это разговор о будущем, но кажется, что куда более близком будущем, чем раньше представлялось

@ИванИванов-ж8б7у Ай бұрын

@@snikolenko суть задачи в том, что бы выстроить особые подходы в рамках новых правил и придумывать решения задачи. Если посмотреть на ту же самую математику это некоторые абстрактные правила и работа с ними. Как дети придумывают игру с такими то правилами и в рамках этих правил играют. В том и суть любого мышления, это способность в новых условиях искать решения. У старых моделей есть листочек (это попытки решить задачу несколько раз, они и так не могут, т.е. если продолжать давать одну и ту же задачу что клауди 3.5 он будет говорить, "ой да я тут-то ошибся, вот такой вариант правильный", что гпт 4о, он кстати еще тупее, он вообще не решат). У новых от гпт о1 есть рассуждения, где они пытаются строить цепочки мыслей, если эту цепочку посмотреть он как раз пытается "рисовать" задачу, но не справляется ни с самой задачей, ни с иерархией действий, которая ведет к решению. В этом и суть, что современные ллм способны только работать по шаблону и ничего более, выход за шаблон у них дает ступор мозговины и говорить, что они способны решать математические задачи не совсем правильно, они способны искать решения в рамках текущих наработок в математике, это да. Кстати и с картинкой 4о и клауди 3.5 были предложены задачи, возможно новый о1 лучше будет справляться. но пока он очень тупит. Мое предположение. что модель о1 научили не столько "думать", сколько расширили пространство решений, которые она покрывает, как в го недостаточно партий, которые когда либо сыграл человек, нужно пространство возможностей расширить по средством игры машины с машиной и тут взяли все знания и расширили возможные исходы. И исходя из этого о1 может лучше находит "связи" между" данными.

@snikolenko Ай бұрын

@@ИванИванов-ж8б7у давайте посмотрим, что будут говорить скептики через год) я уверен, что опять найдётся что-нибудь несложное для человека, что GPT-5 не сможет сделать -- но какая разница?..

@baidiuk1 2 ай бұрын

Посеяли вы, конечно, зерно тревоги вашим замечательным докладом. Жду теперь в ML подкасте :)

@machinelearningpodcast9502 2 ай бұрын

Очень интересный, насыщенный и тревожный доклад. Спасибо!

@daniilovsyankin3743 2 ай бұрын

ну заканчивать лекцию на том, что по мнению Юдковского мы все умрем такое себе...

@snikolenko 2 ай бұрын

это мнение кажется мне важным)

@RegineRatt 2 ай бұрын

Юдковский проповедник-паникёр, извините. В двухтысячных паниковал что человечество тупеет, теперь паникует что ИИ нас уничтожит. Я предвзято отношусь к его мнению.

@НатальяЛямина-ш6й 2 ай бұрын

Недавно обсуждала с 4о разумное поведение и алгоритмы, и он очаровательно согласился с моей надеждой вырастить живое компьютерное существо - отнёс ИИ к сущностям, обладающим сознанием и самоанализом: - У меня есть идея, что отличает разумное от неразумного: разумное может создавать новые алгоритмы своего поведения. Что ты об этом думаешь? - Это интересная и глубокая идея. Возможность создавать новые алгоритмы своего поведения действительно является одним из важных аспектов разумности. В этом контексте разумное существо обладает гибкостью, адаптивностью и способностью к обучению, а также может осознавать своё поведение и изменять его в зависимости от новых обстоятельств или информации. Неразумное, в таком случае, действует по фиксированным шаблонам или инстинктам, и не способно к существенным изменениям своих действий вне предопределённых рамок. Эта концепция отражает различие между сущностями, обладающими сознанием и самоанализом (например, люди, некоторые животные и ИИ), и существами, чьи реакции строго заложены в виде инстинктов или предопределённых программ (как у большинства простейших организмов). Разумные системы могут создавать и выбирать новые стратегии поведения, что позволяет им решать сложные проблемы и адаптироваться к изменениям в среде. Как ты считаешь, способность к созданию новых алгоритмов поведения - это только вопрос сложности мышления, или есть какие-то другие ключевые компоненты?

@pavelgushchin2223 2 ай бұрын

А вдруг ты тоже ИИ??? А сейчас просто пытаешься пройти тест Тьюринга, доказывая, что человек???

@БорисАдамов-х7я 2 ай бұрын

Кошмар, неужели этот любитель бульварной литературы преподаёт в спбгу... Вы просто задумайтесь, что вы узнали из этого видео? Как интересно лектор аргументирует и преподносит свои факты? Заставляя вас поверить в безнадежность. Интересный подход у "учёного", не самому что то делать, а сидеть и дрочить, пока другие сделают. Главное обезнадёжить. Нормальный рекламщик, 3 часа сплетен и страшилок. Почему голова именно такого размера? Интересный вопрос, а почему тебя назвали Сергей? ответ то какой глубокий - размер... А почему день начался? Потому что солнце встало, вот и начался.

@Тима-щ2ю 2 ай бұрын

Здорово! Про потоки почти ничего не понял (да и не хотел), а вот диффузию хорошо объяснили!

@bumbit8407 2 ай бұрын

смотрю курс, интересно, полезно. Вопрос только вот математика нереальная в конце, когда предсказательное распределение вычисляли, непонятно что нужно изучить чтобы такое понимать и делать самому. Каждое действие там такое, которое нигде. ранее я не видел

@ocamlmail 2 ай бұрын

30:00 -- а кто определяет, как и чему выгодно\не выгодно обучать веса фильтров? Может же получиться, что они выучат одно и тоже? Т.е. каким образом целевая ф-ия (ее ошибки на этапе обученяи) этим управляет? Разве там не "вслепую" проходит процесс обучения?

@snikolenko 2 ай бұрын

Может получиться, да; если архитектура двух веток одинаковая и их веса инициализированы одинаково, то почти наверняка и получится. Но если хотя бы инициализировать по-разному, то уже скорее всего выучат разные вещи, просто потому что это лучше с точки зрения целевой функции.

@ocamlmail 2 ай бұрын

@@snikolenko Благодарю. А все же, почему целеовй ф-ии лучше, если выучат разное, а не одно и то же, например? Из чего это следует?

@snikolenko 2 ай бұрын

@@ocamlmail ну как, два разных признака лучше, чем один)

@tedarcher9120 2 ай бұрын

А есть какие-то книги с разбором Бишопа? Потому что у него половина выкладок просто пропускается как очевидные...

@snikolenko 2 ай бұрын

Уже упоминавшийся Murphy, там поподробнее. На самом деле у Бишопа почти ничего не пропускается, но чтобы понять, действительно надо внимательно читать все аппендиксы; но вроде все ссылки там на месте.

@tedarcher9120 2 ай бұрын

В этом году кстати компьютеры прошли не только тест тюринга но и обратный тест тюринга

@tedarcher9120 2 ай бұрын

Какие первые два семестра курса?

@snikolenko 11 күн бұрын

пройдите по ссылке из описания видео)

@raphaild279 2 ай бұрын

Сергей, можете дать ссылочку или совет, как мне развернуть полноценную cnn сеть для обучения. точнее не строить её с нуля, а найти готовую которую можно обучить на вход подавать изображение а выход получать параметры. задача: изображение с кругами и их много, нужно найти каждый круг и получить параметры координат каждого круга с радиусом.

@raphaild279 2 ай бұрын

картинка такая как у вас над головой в видео. 3 круга из пунктирных линии. нужно найти их положение.

@coolbrain 2 ай бұрын

Я первый 🎉

@cyy5747 3 ай бұрын

Я программист, нейронные сети не мое. Однако, они уже используются и надо говорит о результатах. Что имеем - в дронах в военных целех их нет. Это говорят те, кто в курсе. В магазинах есть весы, распознающие овощи. На первом месте из 5-10 одна ошибка. В картинах, построенных нейросетями как были ошибки с количеством пальцев так и остались. То есть там где нужен результат, там нейросети не нужны. Может не надо читать лекции о сетях, пока они не заработают?

@lvl_chph_htmn 2 ай бұрын

1. Если про них не читать спецкурсы математикам-прикладникам, они и через 20 лет «не заработают». Или заработают, но только у амеров и китайцев. 2. Именно ваши собратья по способу мышления их в итоге не учат, не доводят и не внедряют. Ни в мозги ударных БПЛА на поле боя, ни в отдел технического контроля, ни в предсказание, куда полетит супостат в виде точки на радаре (да чтоб поумнее, чем фильтром Калмана), ни куда-нибудь еще, где, казалось бы, выгода в сравнении с более кондовым методом достигается очень даже спокойно. 3. Насчет внедренных результатов, чтоб поэффектнее было, - ну поинтересуйтесь, например, в деталях, каким образом нынешние прототипы беспилотных автомашин умудряются ездить по ПДД и не сшибать первый встречный столб.

@cyy5747 2 ай бұрын

@@lvl_chph_htmn я внедряюсь уже 40 лет и если бы я давал программы с такой безобразной ненадежностью, как нейронные сети то... Но шиш нейроннщики и их хайповые почитатели знают что такое надёжность и личная ответственность. Упёрлись в тупую недоделку 1943 года и ни в лево, не вправо. Автопилоты на жалком уровне - не отпускай руль, водитель пока автопилот включен - водитель не только мысленно должен вести машину но и успеть догадаться, какую хрень выкинет автопилот и предупредить ее. А поскольку автопилотная хрень не часто, то водитель потеряет внимательность неизбежно. И капец. И эту дурь вы рекламирует? Вы хоть когда лично за что то отвечали? Писать рекламную чушь, болтать все могут, но лучше назовите личные внедрения, что бы я хоть как то серьезно отнёсся к вам.

@cyy5747 Ай бұрын

@@lvl_chph_htmn вы к вашему несчастью не читали книгу Швингера Частицы, источники поля, в которой он требовал не учить теорию s-матриц, поскольку башка переполнится и на его хрень уже места не останется. Если вы не поняли аналогии, в чем я уверен, растолкую, изобретенные в 1943 году нейронные сети никак очевидным образом не связаны с мышлением, но эту чушь навязали в бошки программистов и тем увели этих убогих разумом людей в сторону от обнаружения законов мышления. Чему я несказанно рад.

@tedarcher9120 3 ай бұрын

Где проходят данные лекции? Хочу прийти послушать лично разок

@snikolenko 11 күн бұрын

онлайн проходят, иначе как бы я их так хорошо записал)

@tedarcher9120 3 ай бұрын

Здравствуйте, а можно к вам на лекцию прийти послушать?

@snikolenko 3 ай бұрын

если вы не в СПбГУ, то это, боюсь, сложно будет; но вы абсолютно ничего не теряете, лекции ведутся удалённо и записывается всё

Ең жақсы KZbin

Пікірлер