Как LLM учится рисовать через код: новый взгляд на языковые модели

  Рет қаралды 2,405

Михаил Исаев

Михаил Исаев

Күн бұрын

Пікірлер: 98
@nataliya6429
@nataliya6429 7 күн бұрын
Спасибо! Прикольно! Генерация монстров улыбнула 😀Интересно, что все рисунки похожи на аппликации из бумаги, как будто одни детали наложены на другие... Смотрела с удовольствием)
@MrDewiar
@MrDewiar 3 күн бұрын
Так и есть)) Это рисование на холсте работает методом генерации простых геометрических фигур=) Иногда это выглядит очень мило)))
@АндресДеФонсека
@АндресДеФонсека 4 ай бұрын
Идея гениальна! ) Это гораздо глубже, чем может показаться изначально! Поздравляю!
@MrDewiar
@MrDewiar 4 ай бұрын
Спасибо Вам за высокую оценку
@kkellaxx
@kkellaxx 3 ай бұрын
Даааа ето же жесть, етому его никто не учил, реально САМА. Я на Си игрушки делал и знаю что ето не так просто как кажется. Ето X, Y + RGB. Ей надо понять что ето дожно быть круглым и подставить фомулу круга потом его закрасить. А как понять на что лицо пожоже, если она разберется что на круг то ето прям крутая нейронка, а ещееее и на овал и формулу подставит и все правильно соединит... Гениально, ето пожоже на самообучение. Кто тему не понял, учите матчасть
@MrDewiar
@MrDewiar 3 ай бұрын
@@kkellaxx благодарю за экспертный отзыв 👍
@AlexeiRybalkin
@AlexeiRybalkin 4 ай бұрын
Гениально, клубокое виденье и нетривиальный подход. Михаил спасибо за знания.
@MrDewiar
@MrDewiar 4 ай бұрын
@@AlexeiRybalkin спасибо за отзыв!
@daddaylenny
@daddaylenny 4 ай бұрын
Михаил Вас можно даже поздравить с рождением творца,в этой модели просматривается будущее.Человек рассказывает о своих воспоминаниях и тут же получает их в виде образов...благодарю 🎉
@MrDewiar
@MrDewiar 4 ай бұрын
@@daddaylenny Благодарю. Ждем Gpt5, посмотрим на что она будет способна в рамках этого решения 🤝
@Жизньврассказах-ъ8ш
@Жизньврассказах-ъ8ш 4 ай бұрын
Это похоже на маленького ребенка, который начинает рисовать. В будущем я думаю, благодаря Вам возможно будет и создавать тексты и картинки в одном окне, так сказать. Михаил, благодарю!
@MrDewiar
@MrDewiar 4 ай бұрын
Будем развивать! Спасибо Вам!
@SankuroSanki
@SankuroSanki 4 ай бұрын
Идея лучшая из всех что я видел за 2 года изучение возможностей нейронок
@MrDewiar
@MrDewiar 4 ай бұрын
Вот такой комментарий совсем не ожидал увидеть! Благодарю!
@oliverhann
@oliverhann 4 ай бұрын
Очень крутая идея и подход!
@MrDewiar
@MrDewiar 4 ай бұрын
Спасибо!
@valerimihailov4819
@valerimihailov4819 4 ай бұрын
Интересное решение. На самом деле, таким образом проверять мировоззрение и логику нейронок очень интересно. Я похожим образом заставлял нейронки рисовать, но давал команду,- нарисуй собаку с помощью текстовых символов. Получались забавные изображения. А иногда билиберда. Мне такой вариант очень понравился, а моя дочка думаю будет в восторге! 😊
@MrDewiar
@MrDewiar 4 ай бұрын
Валерий, благодарю!
@ВалентинВоробей-ц2х
@ВалентинВоробей-ц2х 4 ай бұрын
Круто! Очень интересный подход вы разработали! По такой системе можно воспроизводить и музыку, и интонацию ответов ии, и даже осознанные движения и мимику, если конвертировать язык запрос в робота. Ой, кажется только что мы подошли еще на один шаг ближе к скорому киберпанку😅
@MrDewiar
@MrDewiar 4 ай бұрын
Валентин, да, интересное движение мысли у Вас.. будем развивать!
@jonathanloder2789
@jonathanloder2789 4 ай бұрын
Клод по такому принципу может генерировать SVG-изображения. Фактически Вы добавили такую возможность на любую языковую модель. Получилось здорово! Думаю, что здесь большой потенциал!
@MrDewiar
@MrDewiar 4 ай бұрын
Спасибо. SVG я тоже пробовал, но тяжеловато дается LLM, иногда так долго думает, что невозмоно работать. Может быть я что-то не так делал, но пока с SVG не выходит сделать решения
@РоманКудрявский
@РоманКудрявский 4 ай бұрын
@@MrDewiar GPT-4, GPT-4o, Claude 3.5 Sonet, Llama 3.1 свободно генерят svg. На нормальном железе никаких проблем.
@MrDewiar
@MrDewiar 4 ай бұрын
@@РоманКудрявский Да, делают.. я пробовал. Но даже таких простых изображений как в этом моем решении я не смог получить на SVG, хотя сам очень уважаю этот формат за надежность и простоту
@A.Bedulev
@A.Bedulev 4 ай бұрын
Очень интересная мысль и тестирование.
@MrDewiar
@MrDewiar 4 ай бұрын
Спасибо большое. Сегодня сделал еще и в виде арены dewiar.com/dew_ai/arena-graphics Можно будет сравнивать модели между собой одновременно. Со дня на день станет доступна новая GPT-o1, сразу посмотрим что у нее с "воображением"
@anatolykosychenko8038
@anatolykosychenko8038 4 ай бұрын
Hi Ya & best wishes. SuperB! Thanks for work. Be Happy. Sevastopol/Crimea.
@MrDewiar
@MrDewiar 4 ай бұрын
Спасибо Вам!
@sergeykondrashov4188
@sergeykondrashov4188 4 ай бұрын
Классно! Можно визуализировать мат. графы, электрические схемы и т. п..
@MrDewiar
@MrDewiar 4 ай бұрын
@@sergeykondrashov4188 нужно пробовать, да
@oksanastrelnikova6970
@oksanastrelnikova6970 4 ай бұрын
Или рисовать архитектурные планы по описанию. Например: создай оптимальную внутреннюю планировку первого этажа 2х этажной виллы, включающую прихожую, гостиную, кухню, спальню и туалет в пространстве 5 х 12 м. Переведи в формат .dwg (или .rvt). Было бы ну просто подарком для архитекторов, рабоющих в архикаде или ревите
@MrDewiar
@MrDewiar 4 ай бұрын
@@oksanastrelnikova6970 это более тонкая задача. Быстрее всего ее нужно решать другими инструментами.. например, если бы такое уже работало в браузере как программа.. осталось бы добавить управление через ИИ
@monsier_chess
@monsier_chess 4 ай бұрын
Классная идея! Нечто похожее приходило, так как сам тесно использвал формат SVG, с помощью которого сам что-то простенькое составлял кодом. Не знал кстати что в целом языковые модели справляются с такой задачей лучше чем я мог бы ожидать. По поводу идеи для уроков, мне кажется стоит использовать некий комбинированный подход: скорее не генерировать картинки, а подбирать их из интернета, заранее сгенерированной базы или чего-то подобного. Задачей ИИ скорее будет анимировать имеющиеся картинки.
@MrDewiar
@MrDewiar 4 ай бұрын
Да, я такой подход тоже продумывал. Как вариант, можно использовать CSS шрифты, есть иконочные шрифты - они векторные, на SVG построены. Можно их использовать. Но получится такой вид, как бы инфографикой-иконками.
@artdiksonSTAR
@artdiksonSTAR 4 ай бұрын
Крутой тест. Это я вам подтверждаю как художник.
@MrDewiar
@MrDewiar 4 ай бұрын
Благодарю! Стоит ли это сделать теперь в виде "арены нейросетей" - чтобы можно было одновременно запустить несколько нейронок, и чтобы каждая из них нарисовала свое видение на наш запрос в отдельном окошке на единой страничке?
@artdiksonSTAR
@artdiksonSTAR 4 ай бұрын
@@MrDewiar было бы неплохо дать нейронке дорисовывать детали и давать ей изображение что бы она пыталась срисовать. Не перерисовывать весь лист а дорисовывать детальки и менять. Тогда она могла бы создавать векторные файлы. Наверно)))). Это я так. Теоретизирую)))). А если ввести режим одновременного рисунка в соседних блоках по одному промпту - это был бы шикарный тест.
@MrDewiar
@MrDewiar 4 ай бұрын
@@artdiksonSTAR Благодарю. А по дорисовке, я сделаю отдельное решение. Готовлю его 👍
@расслабон
@расслабон 4 ай бұрын
Михаил- Вы просто монстр!) 👏👏👏
@MrDewiar
@MrDewiar 4 ай бұрын
@@расслабон благодарю 🤝
@whoareyouqqq
@whoareyouqqq 4 ай бұрын
Очень креативная идея, спасибо!
@MrDewiar
@MrDewiar 4 ай бұрын
Спасибо!
@ShulmanAlex
@ShulmanAlex 3 ай бұрын
Обалдеть! Подход бомба
@MrDewiar
@MrDewiar 3 ай бұрын
Спасибо, будем развивать!
@VasylynaSkyba
@VasylynaSkyba 4 ай бұрын
Благодарю, было очень интересно
@MrDewiar
@MrDewiar 4 ай бұрын
@@VasylynaSkyba спасибо Вам за отзыв
@VasylynaSkyba
@VasylynaSkyba 4 ай бұрын
@@MrDewiar kzbin.info/www/bejne/mF6zqYaChtSIY6ssi=L2A1l8KW5PVxpuEH оох, я не вставила ссылку)
@user-of-world
@user-of-world 4 ай бұрын
У блендера вроде есть api. Идея использовать генерацию кода для рисования как бенчмарк креативности это огонь!
@MrDewiar
@MrDewiar 4 ай бұрын
Если у блендера есть АПИ, это будет очень здорово.. я изучу этот момент.. если это есть, обязательно сделаю решение на его основе!
@vitall789
@vitall789 4 ай бұрын
Приберегите идею, для большее мощного граф. инструментария + будущей мощной модели, это действительно выход из ресурсного капкана!
@MrDewiar
@MrDewiar 4 ай бұрын
@@vitall789 согласен с Вами
@romanbolgar
@romanbolgar 4 ай бұрын
Согласен необычно интересно. Может в дальнейшем будут какие-то более прикладные применения. Хотя действительно я бы не стал на этом заострять внимание. 20:02 - Интересно что они себя позиционируют как антропоморфных существ. Рисуют лицо глаза. Я почему-то думал они начнут рисовать связи Сложные алгоритмы компьютеры. Ещё Интересно насколько точно . Насколько известно даже у самых продвинутых нейросетей почему-то была проблема с рисованием пальцев. Почему-то для них так сложно было понять что пальцев на одной руке должно быть пять. Может здесь рисовали бы лучше потому что логика работает То есть другой принцип. Я пробовал даже сложные модели В основном выдают какой-то бред когда я им полностью описываю Как должна выглядеть структура молекулы воды. Уже молчу про более сложные молекулы. Может как-то двигаться в этом направлении... То есть делать упор на точность понимания. И эти две технологии возможно когда-то друг друга дополнят. Но как всегда некогда расписывать
@MrDewiar
@MrDewiar 4 ай бұрын
На самом деле я сам думаю, что нам хватило бы и трех пальцев)))) В остальном, да, мне не приходили такие мысли, Вы тонко подметили особенности в передаче этих моментов
@dolotube
@dolotube 4 ай бұрын
Как-то я мучал Клода на тему "обсуждаем идею иллюстрации для статьи". И когда я сказал "что-то не представляю, как это уместить", Клод мне выдал рисунок в HTML+CSS, где расположил основные элементы - вот тут гора, вот тут человечек, вот тут кнопка, символизирующая то-то. Это было очень мило. Тем более, что у Клода уже были реализованы артефакты. Основная проблема идеи в том, что LLM обучались не многофакторно, а только в L-измерении. Они понятия не имеют, что такое "верх" или "лево", как визуально "внутри" отличается от "снаружи", не отличат "круг" от "квадрата". Они видят разницу по использованию слов в том или ином контексте, но не увязывают это с визуальным измерением. У языковых моделей специализация другая. И поэтому упомянутый выше рисунок от Клода был лишен смысла. P.S. 21:06 Согласен с выводом "маленькое чудо".
@MrDewiar
@MrDewiar 4 ай бұрын
@@dolotube интересно это наблюдать, и иногда это даже трогает, когда у LLM получается удачно и мило
@YakovenkoPsy
@YakovenkoPsy 4 ай бұрын
Интересная идея
@MrDewiar
@MrDewiar 4 ай бұрын
Спасибо
@ДмитрийАнатольевич-р5ш
@ДмитрийАнатольевич-р5ш Ай бұрын
А интересно, можно ИИ связать с общественной онлайн рисовалкой? чтобы он рисовал мышкой на мониторе, а потом его векторный рисунок пересохранить ?
@MrDewiar
@MrDewiar Ай бұрын
Идея интересная.. здесь нужна аппаратная совместимость
@Neurodelok
@Neurodelok 4 ай бұрын
Я так год назад анимацию заката делал и снеговик и снег идёт (это другая)
@Neurodelok
@Neurodelok 4 ай бұрын
Мало кто оценил))😊
@MrDewiar
@MrDewiar 4 ай бұрын
@@Neurodelok оно не слишком впечатляюще смотрится, больше как детские рисунки.. людям подавай 3д графику)))
@Neurodelok
@Neurodelok 4 ай бұрын
Вчера заставил пиксельарт рисовать 20×20.. может скину если реализую "коллекцию" навесив атрибуты нейро.
@Neurodelok
@Neurodelok 4 ай бұрын
А так да, анимаци заката в стиле word office.. )
@MrDewiar
@MrDewiar 4 ай бұрын
@@Neurodelok да, было бы интересно глянуть
@whoareyouqqq
@whoareyouqqq 4 ай бұрын
Не надо забывать что языковую модель можно отдельно тюнить работать с канвасом, если бы специфических данных в корпусе не было совсем то никакая модель ничего толкового не нарисовала бы. И это хорошо видно на локальных моделях
@MrDewiar
@MrDewiar 4 ай бұрын
Я попробую прокачать свою локальную модель.. в ней 9 миллиардов параметров, и у нее пока очень плохо получается.. посмотрю, удастся ли улучшить это отдельными инструкциями
@Xaero546
@Xaero546 2 ай бұрын
Это ответ на мысли многих философов. Можно ли через текст описать окружающий мир не видя его. При том, что значения слов определяются через друг друга.
@MrDewiar
@MrDewiar Ай бұрын
Проводя такие эксперименты сам открываю для себя новые грани понимания многих вещей. Этим данное направление и интересно.
@МихаилБелый-р9б
@МихаилБелый-р9б 4 ай бұрын
"Жаль, что у Вас ограниченные возможности. Таким, как Вы, нужно давать неограниченные ресурсы и команду для создания шедевров."
@MrDewiar
@MrDewiar 4 ай бұрын
Спасибо! Постепенно добавляются люди из разных точек нашей планеты. Есть ощущение, что скоро может появиться больше возможностей.. удивительно, что это постепенно вырастает в более серьезны проект
@HEDELKA
@HEDELKA 4 ай бұрын
Вы не пробовали просить пиксели? Типо если получить все пиксели и через код преобразовать их в фото, то может быть будет возможность получать те же самые изображения, тут будет большой + можно писать полноценные видео, так как у нас будет доступ к предыдущим ответам прекрепляя их мы будем вести целые цепочки
@MrDewiar
@MrDewiar 4 ай бұрын
Я размышлял, их очень много, будет идти много токенов.. как только увеличиваем количество элементов на выдаче от ИИ, он начинает сильно медленно выдавать результат, и много путается
@АлексКорсун-з6г
@АлексКорсун-з6г 4 ай бұрын
Привет, идея интересная. насколько ее можно применить к черчению ?
@MrDewiar
@MrDewiar 4 ай бұрын
@@АлексКорсун-з6г можно пробовать, но быстрее всего будут неточности, это будет неприемлемо для точной дисциплины
@sergeykondrashov4188
@sergeykondrashov4188 4 ай бұрын
Попробовал визуализатор, велосипед абстрактный получился. А вот с визуализацией задачи Эйлера о семи мостах Кёнигсберга не справился. А ментальная карта с этой задачей получилась забавной и поучительной)
@MrDewiar
@MrDewiar 4 ай бұрын
Креативно))
@МаксимМедведев-ф9м
@МаксимМедведев-ф9м 4 ай бұрын
хммм а если мы готовую картинку загрузим - сможем с ней работать ?
@MrDewiar
@MrDewiar 4 ай бұрын
Быстрее всего он не сможет.. хотя... нужно будет попробовать... (идея для следующего видео)))))
@d_meroving
@d_meroving 4 ай бұрын
Вообще с GPT обретают вторую жизнь многие ранее странные доменно-специфичные языки, такие как PostScript или Latex
@MrDewiar
@MrDewiar 4 ай бұрын
Да, теперь многое зависит просто от креативности.. да и маркдаун, формат разметки благодаря LLM получил вторую жизнь..
@my-rules
@my-rules 4 ай бұрын
класс
@MrDewiar
@MrDewiar 4 ай бұрын
Спасибо!
@Alter-Ego-Persona
@Alter-Ego-Persona 4 ай бұрын
@@MrDewiar Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок. Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же. Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому
@Alter-Ego-Persona
@Alter-Ego-Persona 4 ай бұрын
Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок. Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же. Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому
@MrDewiar
@MrDewiar 4 ай бұрын
Благодарю! Приятно видеть своих людей. Мой телеграм @isaev_mp Буду рад связи
@VasylynaSkyba
@VasylynaSkyba 4 ай бұрын
Миша, сохраните это видео. Это БОЛЬШАЯ идея А ещё лучше удалите, у вас украдут идею вот о проблемах данных для обучения. Они НЕ ЗНАЮТ к а к ещё учить ИИ
@MrDewiar
@MrDewiar 4 ай бұрын
Сегодня пришла мысль разделить эту программу на много экранов, и сделать одновременное рисование любой задачи сразу несколькими моделями ИИ.. мы получим визуальный тест "воображения" .. это может быть эффективнее, чем различные сложные тесты, которые всегда лучше у производителей моделей, но которые мы никак не можем проверить
@VasylynaSkyba
@VasylynaSkyba 4 ай бұрын
@@MrDewiar а если наоборот усложнять задачи на одной модели и потом посмотреть научивается ли она. Но вообще и это ерунда. Как эту идею развить в алгоритм обучения. Ну вот трансформер, это по сути алгоритм в алгоритме, и то какой прорыв. Ведь если текстовую модель учить рисовать, то это уже не работа с подборов весов, а качественное развитие связей. И ведь она(модель) вам ответила, она нарисовала, ну как на меня, это охренительно само по себе. Если скажем пойти от обратного, к а к у ю задачу можно дать модели, которая генерирует картинки? Что и как задать этой модели?
@MrDewiar
@MrDewiar 4 ай бұрын
@@VasylynaSkyba Да, такие подходы позволяют выявлять новые грани моделей.. нужно подумать над продолжением, куда дальше это можно будет двинуть
@vitall789
@vitall789 4 ай бұрын
По этому даже можно определить политический предпочтения модели - нарисовал себя негром!
@MrDewiar
@MrDewiar 4 ай бұрын
@@vitall789 я только сейчас заметил.. точно..GPT4 - видит себя темнокожим)))
@Сергей-р1ю1ь
@Сергей-р1ю1ь 4 ай бұрын
Бесполезная штука, если ты ни разу не дергал нейронки! в будущем да будет крут о если мощностя будут
@MrDewiar
@MrDewiar 4 ай бұрын
Сейчас это только вариация на тему.. и альтернатива проверки мощности LLM на простом холсте. Могу добавить нейросеть от Яндекса.. сразу увидите качество (достаточно низкое). Можно и другие модели добавлять.. лучше ведь один раз увидеть, чем слышать хвалебные слова от разработчиков конкретной нейронки
@2009Spread
@2009Spread 4 ай бұрын
Категорически не согласен. Тут речь идет о том что языковые модели реально могут воображать так как мы это себе представляем, а не какой-то рандомный мусор на выходе. У людей спошь и рядом такая проблема ты ему про одно говоришь а он вообразил вообще другое.
@Trendish_channel
@Trendish_channel 18 күн бұрын
да, но также это можно было бы использовать в генерации каких либо звуков вместо того, чтобы ползать с микрофоном за $2 000 и потом еще и обрабатывать
@MrDewiar
@MrDewiar 18 күн бұрын
Вообще использовать языковые модели для других, совершенно не типичных, задач - интересный эксперимент. По звукам, я еще не думал над этим
Vampire SUCKS Human Energy 🧛🏻‍♂️🪫 (ft. @StevenHe )
0:34
Alan Chikin Chow
Рет қаралды 138 МЛН
GIANT Gummy Worm #shorts
0:42
Mr DegrEE
Рет қаралды 152 МЛН
"Идеальное" преступление
0:39
Кик Брейнс
Рет қаралды 1,4 МЛН
Введение в большие языковые модели (LLM)
45:28
Как остановят YouTube | ТСПУ и DPI | Cоздатель GoodbyeDPI
27:30
Visually explaining Byte Latent Transformers - LLMs just got a massive breakthrough!
36:55
Введение в LLM
54:26
REU Data Science Club
Рет қаралды 1,3 М.
Transformers (how LLMs work) explained visually | DL5
27:14
3Blue1Brown
Рет қаралды 4,3 МЛН
Vampire SUCKS Human Energy 🧛🏻‍♂️🪫 (ft. @StevenHe )
0:34
Alan Chikin Chow
Рет қаралды 138 МЛН