Как LLM учится рисовать через код: новый взгляд на языковые модели

Рет қаралды 2,405

Күн бұрын

Пікірлер: 98

@nataliya6429 7 күн бұрын

Спасибо! Прикольно! Генерация монстров улыбнула 😀Интересно, что все рисунки похожи на аппликации из бумаги, как будто одни детали наложены на другие... Смотрела с удовольствием)

@MrDewiar 3 күн бұрын

Так и есть)) Это рисование на холсте работает методом генерации простых геометрических фигур=) Иногда это выглядит очень мило)))

@АндресДеФонсека 4 ай бұрын

Идея гениальна! ) Это гораздо глубже, чем может показаться изначально! Поздравляю!

@MrDewiar 4 ай бұрын

Спасибо Вам за высокую оценку

@kkellaxx 3 ай бұрын

Даааа ето же жесть, етому его никто не учил, реально САМА. Я на Си игрушки делал и знаю что ето не так просто как кажется. Ето X, Y + RGB. Ей надо понять что ето дожно быть круглым и подставить фомулу круга потом его закрасить. А как понять на что лицо пожоже, если она разберется что на круг то ето прям крутая нейронка, а ещееее и на овал и формулу подставит и все правильно соединит... Гениально, ето пожоже на самообучение. Кто тему не понял, учите матчасть

@MrDewiar 3 ай бұрын

@@kkellaxx благодарю за экспертный отзыв 👍

@AlexeiRybalkin 4 ай бұрын

Гениально, клубокое виденье и нетривиальный подход. Михаил спасибо за знания.

@MrDewiar 4 ай бұрын

@@AlexeiRybalkin спасибо за отзыв!

@daddaylenny 4 ай бұрын

Михаил Вас можно даже поздравить с рождением творца,в этой модели просматривается будущее.Человек рассказывает о своих воспоминаниях и тут же получает их в виде образов...благодарю 🎉

@MrDewiar 4 ай бұрын

@@daddaylenny Благодарю. Ждем Gpt5, посмотрим на что она будет способна в рамках этого решения 🤝

@Жизньврассказах-ъ8ш 4 ай бұрын

Это похоже на маленького ребенка, который начинает рисовать. В будущем я думаю, благодаря Вам возможно будет и создавать тексты и картинки в одном окне, так сказать. Михаил, благодарю!

@MrDewiar 4 ай бұрын

Будем развивать! Спасибо Вам!

@SankuroSanki 4 ай бұрын

Идея лучшая из всех что я видел за 2 года изучение возможностей нейронок

@MrDewiar 4 ай бұрын

Вот такой комментарий совсем не ожидал увидеть! Благодарю!

@oliverhann 4 ай бұрын

Очень крутая идея и подход!

@MrDewiar 4 ай бұрын

Спасибо!

@valerimihailov4819 4 ай бұрын

Интересное решение. На самом деле, таким образом проверять мировоззрение и логику нейронок очень интересно. Я похожим образом заставлял нейронки рисовать, но давал команду,- нарисуй собаку с помощью текстовых символов. Получались забавные изображения. А иногда билиберда. Мне такой вариант очень понравился, а моя дочка думаю будет в восторге! 😊

@MrDewiar 4 ай бұрын

Валерий, благодарю!

@ВалентинВоробей-ц2х 4 ай бұрын

Круто! Очень интересный подход вы разработали! По такой системе можно воспроизводить и музыку, и интонацию ответов ии, и даже осознанные движения и мимику, если конвертировать язык запрос в робота. Ой, кажется только что мы подошли еще на один шаг ближе к скорому киберпанку😅

@MrDewiar 4 ай бұрын

Валентин, да, интересное движение мысли у Вас.. будем развивать!

@jonathanloder2789 4 ай бұрын

Клод по такому принципу может генерировать SVG-изображения. Фактически Вы добавили такую возможность на любую языковую модель. Получилось здорово! Думаю, что здесь большой потенциал!

@MrDewiar 4 ай бұрын

Спасибо. SVG я тоже пробовал, но тяжеловато дается LLM, иногда так долго думает, что невозмоно работать. Может быть я что-то не так делал, но пока с SVG не выходит сделать решения

@РоманКудрявский 4 ай бұрын

@@MrDewiar GPT-4, GPT-4o, Claude 3.5 Sonet, Llama 3.1 свободно генерят svg. На нормальном железе никаких проблем.

@MrDewiar 4 ай бұрын

@@РоманКудрявский Да, делают.. я пробовал. Но даже таких простых изображений как в этом моем решении я не смог получить на SVG, хотя сам очень уважаю этот формат за надежность и простоту

@A.Bedulev 4 ай бұрын

Очень интересная мысль и тестирование.

@MrDewiar 4 ай бұрын

Спасибо большое. Сегодня сделал еще и в виде арены dewiar.com/dew_ai/arena-graphics Можно будет сравнивать модели между собой одновременно. Со дня на день станет доступна новая GPT-o1, сразу посмотрим что у нее с "воображением"

@anatolykosychenko8038 4 ай бұрын

Hi Ya & best wishes. SuperB! Thanks for work. Be Happy. Sevastopol/Crimea.

@MrDewiar 4 ай бұрын

Спасибо Вам!

@sergeykondrashov4188 4 ай бұрын

Классно! Можно визуализировать мат. графы, электрические схемы и т. п..

@MrDewiar 4 ай бұрын

@@sergeykondrashov4188 нужно пробовать, да

@oksanastrelnikova6970 4 ай бұрын

Или рисовать архитектурные планы по описанию. Например: создай оптимальную внутреннюю планировку первого этажа 2х этажной виллы, включающую прихожую, гостиную, кухню, спальню и туалет в пространстве 5 х 12 м. Переведи в формат .dwg (или .rvt). Было бы ну просто подарком для архитекторов, рабоющих в архикаде или ревите

@MrDewiar 4 ай бұрын

@@oksanastrelnikova6970 это более тонкая задача. Быстрее всего ее нужно решать другими инструментами.. например, если бы такое уже работало в браузере как программа.. осталось бы добавить управление через ИИ

@monsier_chess 4 ай бұрын

Классная идея! Нечто похожее приходило, так как сам тесно использвал формат SVG, с помощью которого сам что-то простенькое составлял кодом. Не знал кстати что в целом языковые модели справляются с такой задачей лучше чем я мог бы ожидать. По поводу идеи для уроков, мне кажется стоит использовать некий комбинированный подход: скорее не генерировать картинки, а подбирать их из интернета, заранее сгенерированной базы или чего-то подобного. Задачей ИИ скорее будет анимировать имеющиеся картинки.

@MrDewiar 4 ай бұрын

Да, я такой подход тоже продумывал. Как вариант, можно использовать CSS шрифты, есть иконочные шрифты - они векторные, на SVG построены. Можно их использовать. Но получится такой вид, как бы инфографикой-иконками.

@artdiksonSTAR 4 ай бұрын

Крутой тест. Это я вам подтверждаю как художник.

@MrDewiar 4 ай бұрын

Благодарю! Стоит ли это сделать теперь в виде "арены нейросетей" - чтобы можно было одновременно запустить несколько нейронок, и чтобы каждая из них нарисовала свое видение на наш запрос в отдельном окошке на единой страничке?

@artdiksonSTAR 4 ай бұрын

@@MrDewiar было бы неплохо дать нейронке дорисовывать детали и давать ей изображение что бы она пыталась срисовать. Не перерисовывать весь лист а дорисовывать детальки и менять. Тогда она могла бы создавать векторные файлы. Наверно)))). Это я так. Теоретизирую)))). А если ввести режим одновременного рисунка в соседних блоках по одному промпту - это был бы шикарный тест.

@MrDewiar 4 ай бұрын

@@artdiksonSTAR Благодарю. А по дорисовке, я сделаю отдельное решение. Готовлю его 👍

@расслабон 4 ай бұрын

Михаил- Вы просто монстр!) 👏👏👏

@MrDewiar 4 ай бұрын

@@расслабон благодарю 🤝

@whoareyouqqq 4 ай бұрын

Очень креативная идея, спасибо!

@MrDewiar 4 ай бұрын

Спасибо!

@ShulmanAlex 3 ай бұрын

Обалдеть! Подход бомба

@MrDewiar 3 ай бұрын

Спасибо, будем развивать!

@VasylynaSkyba 4 ай бұрын

Благодарю, было очень интересно

@MrDewiar 4 ай бұрын

@@VasylynaSkyba спасибо Вам за отзыв

@VasylynaSkyba 4 ай бұрын

@@MrDewiar kzbin.info/www/bejne/mF6zqYaChtSIY6ssi=L2A1l8KW5PVxpuEH оох, я не вставила ссылку)

@user-of-world 4 ай бұрын

У блендера вроде есть api. Идея использовать генерацию кода для рисования как бенчмарк креативности это огонь!

@MrDewiar 4 ай бұрын

Если у блендера есть АПИ, это будет очень здорово.. я изучу этот момент.. если это есть, обязательно сделаю решение на его основе!

@vitall789 4 ай бұрын

Приберегите идею, для большее мощного граф. инструментария + будущей мощной модели, это действительно выход из ресурсного капкана!

@MrDewiar 4 ай бұрын

@@vitall789 согласен с Вами

@romanbolgar 4 ай бұрын

Согласен необычно интересно. Может в дальнейшем будут какие-то более прикладные применения. Хотя действительно я бы не стал на этом заострять внимание. 20:02 - Интересно что они себя позиционируют как антропоморфных существ. Рисуют лицо глаза. Я почему-то думал они начнут рисовать связи Сложные алгоритмы компьютеры. Ещё Интересно насколько точно . Насколько известно даже у самых продвинутых нейросетей почему-то была проблема с рисованием пальцев. Почему-то для них так сложно было понять что пальцев на одной руке должно быть пять. Может здесь рисовали бы лучше потому что логика работает То есть другой принцип. Я пробовал даже сложные модели В основном выдают какой-то бред когда я им полностью описываю Как должна выглядеть структура молекулы воды. Уже молчу про более сложные молекулы. Может как-то двигаться в этом направлении... То есть делать упор на точность понимания. И эти две технологии возможно когда-то друг друга дополнят. Но как всегда некогда расписывать

@MrDewiar 4 ай бұрын

На самом деле я сам думаю, что нам хватило бы и трех пальцев)))) В остальном, да, мне не приходили такие мысли, Вы тонко подметили особенности в передаче этих моментов

@dolotube 4 ай бұрын

Как-то я мучал Клода на тему "обсуждаем идею иллюстрации для статьи". И когда я сказал "что-то не представляю, как это уместить", Клод мне выдал рисунок в HTML+CSS, где расположил основные элементы - вот тут гора, вот тут человечек, вот тут кнопка, символизирующая то-то. Это было очень мило. Тем более, что у Клода уже были реализованы артефакты. Основная проблема идеи в том, что LLM обучались не многофакторно, а только в L-измерении. Они понятия не имеют, что такое "верх" или "лево", как визуально "внутри" отличается от "снаружи", не отличат "круг" от "квадрата". Они видят разницу по использованию слов в том или ином контексте, но не увязывают это с визуальным измерением. У языковых моделей специализация другая. И поэтому упомянутый выше рисунок от Клода был лишен смысла. P.S. 21:06 Согласен с выводом "маленькое чудо".

@MrDewiar 4 ай бұрын

@@dolotube интересно это наблюдать, и иногда это даже трогает, когда у LLM получается удачно и мило

@YakovenkoPsy 4 ай бұрын

Интересная идея

@MrDewiar 4 ай бұрын

Спасибо

@ДмитрийАнатольевич-р5ш Ай бұрын

А интересно, можно ИИ связать с общественной онлайн рисовалкой? чтобы он рисовал мышкой на мониторе, а потом его векторный рисунок пересохранить ?

@MrDewiar Ай бұрын

Идея интересная.. здесь нужна аппаратная совместимость

@Neurodelok 4 ай бұрын

Я так год назад анимацию заката делал и снеговик и снег идёт (это другая)

@Neurodelok 4 ай бұрын

Мало кто оценил))😊

@MrDewiar 4 ай бұрын

@@Neurodelok оно не слишком впечатляюще смотрится, больше как детские рисунки.. людям подавай 3д графику)))

@Neurodelok 4 ай бұрын

Вчера заставил пиксельарт рисовать 20×20.. может скину если реализую "коллекцию" навесив атрибуты нейро.

@Neurodelok 4 ай бұрын

А так да, анимаци заката в стиле word office.. )

@MrDewiar 4 ай бұрын

@@Neurodelok да, было бы интересно глянуть

@whoareyouqqq 4 ай бұрын

Не надо забывать что языковую модель можно отдельно тюнить работать с канвасом, если бы специфических данных в корпусе не было совсем то никакая модель ничего толкового не нарисовала бы. И это хорошо видно на локальных моделях

@MrDewiar 4 ай бұрын

Я попробую прокачать свою локальную модель.. в ней 9 миллиардов параметров, и у нее пока очень плохо получается.. посмотрю, удастся ли улучшить это отдельными инструкциями

@Xaero546 2 ай бұрын

Это ответ на мысли многих философов. Можно ли через текст описать окружающий мир не видя его. При том, что значения слов определяются через друг друга.

@MrDewiar Ай бұрын

Проводя такие эксперименты сам открываю для себя новые грани понимания многих вещей. Этим данное направление и интересно.

@МихаилБелый-р9б 4 ай бұрын

"Жаль, что у Вас ограниченные возможности. Таким, как Вы, нужно давать неограниченные ресурсы и команду для создания шедевров."

@MrDewiar 4 ай бұрын

Спасибо! Постепенно добавляются люди из разных точек нашей планеты. Есть ощущение, что скоро может появиться больше возможностей.. удивительно, что это постепенно вырастает в более серьезны проект

@HEDELKA 4 ай бұрын

Вы не пробовали просить пиксели? Типо если получить все пиксели и через код преобразовать их в фото, то может быть будет возможность получать те же самые изображения, тут будет большой + можно писать полноценные видео, так как у нас будет доступ к предыдущим ответам прекрепляя их мы будем вести целые цепочки

@MrDewiar 4 ай бұрын

Я размышлял, их очень много, будет идти много токенов.. как только увеличиваем количество элементов на выдаче от ИИ, он начинает сильно медленно выдавать результат, и много путается

@АлексКорсун-з6г 4 ай бұрын

Привет, идея интересная. насколько ее можно применить к черчению ?

@MrDewiar 4 ай бұрын

@@АлексКорсун-з6г можно пробовать, но быстрее всего будут неточности, это будет неприемлемо для точной дисциплины

@sergeykondrashov4188 4 ай бұрын

Попробовал визуализатор, велосипед абстрактный получился. А вот с визуализацией задачи Эйлера о семи мостах Кёнигсберга не справился. А ментальная карта с этой задачей получилась забавной и поучительной)

@MrDewiar 4 ай бұрын

Креативно))

@МаксимМедведев-ф9м 4 ай бұрын

хммм а если мы готовую картинку загрузим - сможем с ней работать ?

@MrDewiar 4 ай бұрын

Быстрее всего он не сможет.. хотя... нужно будет попробовать... (идея для следующего видео)))))

@d_meroving 4 ай бұрын

Вообще с GPT обретают вторую жизнь многие ранее странные доменно-специфичные языки, такие как PostScript или Latex

@MrDewiar 4 ай бұрын

Да, теперь многое зависит просто от креативности.. да и маркдаун, формат разметки благодаря LLM получил вторую жизнь..

@my-rules 4 ай бұрын

класс

@MrDewiar 4 ай бұрын

Спасибо!

@Alter-Ego-Persona 4 ай бұрын

@@MrDewiar Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок. Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же. Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому

@Alter-Ego-Persona 4 ай бұрын

Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок. Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же. Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому

@MrDewiar 4 ай бұрын

Благодарю! Приятно видеть своих людей. Мой телеграм @isaev_mp Буду рад связи

@VasylynaSkyba 4 ай бұрын

Миша, сохраните это видео. Это БОЛЬШАЯ идея А ещё лучше удалите, у вас украдут идею вот о проблемах данных для обучения. Они НЕ ЗНАЮТ к а к ещё учить ИИ

@MrDewiar 4 ай бұрын

Сегодня пришла мысль разделить эту программу на много экранов, и сделать одновременное рисование любой задачи сразу несколькими моделями ИИ.. мы получим визуальный тест "воображения" .. это может быть эффективнее, чем различные сложные тесты, которые всегда лучше у производителей моделей, но которые мы никак не можем проверить

@VasylynaSkyba 4 ай бұрын

@@MrDewiar а если наоборот усложнять задачи на одной модели и потом посмотреть научивается ли она. Но вообще и это ерунда. Как эту идею развить в алгоритм обучения. Ну вот трансформер, это по сути алгоритм в алгоритме, и то какой прорыв. Ведь если текстовую модель учить рисовать, то это уже не работа с подборов весов, а качественное развитие связей. И ведь она(модель) вам ответила, она нарисовала, ну как на меня, это охренительно само по себе. Если скажем пойти от обратного, к а к у ю задачу можно дать модели, которая генерирует картинки? Что и как задать этой модели?

@MrDewiar 4 ай бұрын

@@VasylynaSkyba Да, такие подходы позволяют выявлять новые грани моделей.. нужно подумать над продолжением, куда дальше это можно будет двинуть

@vitall789 4 ай бұрын

По этому даже можно определить политический предпочтения модели - нарисовал себя негром!

@MrDewiar 4 ай бұрын

@@vitall789 я только сейчас заметил.. точно..GPT4 - видит себя темнокожим)))

@Сергей-р1ю1ь 4 ай бұрын

Бесполезная штука, если ты ни разу не дергал нейронки! в будущем да будет крут о если мощностя будут

@MrDewiar 4 ай бұрын

Сейчас это только вариация на тему.. и альтернатива проверки мощности LLM на простом холсте. Могу добавить нейросеть от Яндекса.. сразу увидите качество (достаточно низкое). Можно и другие модели добавлять.. лучше ведь один раз увидеть, чем слышать хвалебные слова от разработчиков конкретной нейронки

@2009Spread 4 ай бұрын

Категорически не согласен. Тут речь идет о том что языковые модели реально могут воображать так как мы это себе представляем, а не какой-то рандомный мусор на выходе. У людей спошь и рядом такая проблема ты ему про одно говоришь а он вообразил вообще другое.

@Trendish_channel 18 күн бұрын

да, но также это можно было бы использовать в генерации каких либо звуков вместо того, чтобы ползать с микрофоном за $2 000 и потом еще и обрабатывать

@MrDewiar 18 күн бұрын

Вообще использовать языковые модели для других, совершенно не типичных, задач - интересный эксперимент. По звукам, я еще не думал над этим