Лингвист объясняет как ChatGPT научился говорить

Лингвист объясняет как ChatGPT научился говорить - Александр Пиперски

Рет қаралды 8,943

Күн бұрын

Читай статьи в блоге Anywhere Club: bit.ly/awclub-ru
Полный Гёдель - это гиковский подкаст про науку, инженерию, технологии и необычные технарские профессии. Здесь ведущий Артем Малышев будет выяснять, как IT меняет классические технические сферы, и как аналоговые технологии взаимодействуют с цифровым миром.
Гость первого выпуска - лингвист Александр Пиперски. Он объяснит, как GPT и другие языковые модели генерируют текст. Расскажет, как исследователи десятилетиями пытались научить компьютеры говорить, и что теперь думают, когда компьютеры наконец научились.
АУДИОВЕРСИЯ ПОДКАСТА
🔸 Google Podcasts: bit.ly/awclub-ru-google
🔸 Apple Podcasts: bit.ly/awclub-ru-apple
🔸 Spotify: bit.ly/awclub-ru-spotify
🔸 Скачать mp3: anywhereclub-ru.simplecast.co...
НАВИГАЦИЯ
0:00 - Интро
2:20 - Что нейросети пишут лучше людей
3:55 - Как лингвисты больше полувека учили компьютеры говорить
13:03 - Как лингвисты превратили слова в числа
17:41 - Как нейросети генерируют текст подбором букв
24:32 - Почему тексты ChatGPT выглядят осмысленными
28:13 - Как нейросети распознают юмор
30:40 - Как ChatGPT держится в рамках заданного стиля
32:21 - Непредсказуемость - главный вызов, который поставят нам нейросети
36:46 - Высокая поэзия оказалась для нейросетей проще, чем бульварные детективы
43:31 - Как ChatGPT отличает нейросетевые тексты от человеческих
46:04 - Прогноз, как люди могут зарегулировать нейросетевой контент
49:53 - Как научное сообщество относится к ChatGPT
55:45 - Что если школьники перестанут делать домашние задания сами
58:58 - Как Александр использует ChatGPT в повседневной работе
1:01:01 - Деградируют ли человеческие языки со временем
1:07:22 - Каково быть лингвистом в 2023 году
ANYWHERE CLUB В ИНТЕРНЕТЕ
🔸 Сайт: aw.club
🔸 Discord: epa.ms/acd
🔸 Telegram: t.me/aw_club
🔸 Instagram: / anywhere_club_it
#awclub #anywhereclub #полныйгёдель

Пікірлер: 45

@denlogv Жыл бұрын

Стоит всё-таки отметить, что трансформеры (используемые в GPT), как правило, используют не буквы в качестве слова, а так называемые субтокены, которые являются частью слова. Наиболее используемый алгоритм для этого -- это SentencePiece, где ты просто указываешь, на сколько слов ты хочешь разбить корпус, например, на 30000, и он в соответствии с этим находит субтокены. "Словами" там, например, могут быть наиболее часто используемые приставки, суффиксы, корни и основы слов :) Надо ещё понимать, что у доступных обычным людям трансформеров ограничение на контекст - 512 токенов. Буквы тут не очень хорошо подходят + энтропия выше

@shapovalentine 5 ай бұрын

SentencePiece - в BERT, в GPT-подобных используется BytePairEncoding

@titanovsky Жыл бұрын

Сейчас заценим) Но за теорему Гёделя, не грех лайк поставить с трёх, а может и с четырёх аккаунтов.

@Dina-Barbur Жыл бұрын

Спасибо за выпуск! Пиперски - потрясающий спикер. Взахлёб.

@denisdavydov9021 Жыл бұрын

Хорошее интервью. Адекватно, аргументировано, интересно. Спасибо!

@lorddark222 Жыл бұрын

Лингвистов всегда приятно слушать.

@tarasvolunteer5442 Жыл бұрын

Приветствую! Я ничего в этом не смыслю, но видео познавательное, благодарю за просвещение. А обзор по Interlingua iala language будет? Успехов и благополучия Вам!

@aw-club-ru Жыл бұрын

Про обзор наверно ничего сказать не можем, но спасибо!)

@elenagavrilova3109 2 ай бұрын

Классное интервью! Явно, время потрачено не зря. Все-таки AI developer, работающий с языковыми моделями и нейросетями может в бОльших деталях пояснить как это работает. Геометрия, алгебра (вектора, нелинейные функции). Еще интересно будущее ЯМ, мне кажется, это промежуточный шаг, может быть, через 2, 3 года уже не будет...

@stormd2902 Жыл бұрын

крутая тема, спасибо

@dr_zamenhof 6 ай бұрын

Как интересно!

@VasiliyKolpaxidis Жыл бұрын

Ооо интересно

@dmitriydomnikov6326 8 ай бұрын

Отлично

@fumanchez 9 ай бұрын

вопросы хорошие, ответы интересные, за просмотры только обидно

@vovation Жыл бұрын

Какая модель микрофона у ведущего? Подскажите, пожалуйста )

@aw-club-ru Жыл бұрын

blue snowball

@semeonivanov 4 ай бұрын

я самую интересную вещь заметил в прошлом году. в каментах цэрэушного ютюба какието технологии пробуют. временами полгода никто не отвечает, а бывает в один день десятки каких то разговоров про политику затевают со мной. и я заметил и удивился такой прикольной вещи. както нереально грамотно и разумно ведётся со мной этот ненужный никому разговор. не может быть такого! люди в каментах ютюба никогда не разговаривают разумно, это бот 100%. я помню всю жизнь слышал про такую хрень как тест тьюринга, пройдёт ли его когда нибудь машина в 35 веке... и вот к какому приколу пришли в 2023...

@a_demergi Жыл бұрын

Пацаны, не жмитесь на лайки Классная ведь тема!

@4rtochka Жыл бұрын

МЫ Anywhere'чины

@shishlinsv Жыл бұрын

Anywhere'щики?

@vanmihaylovich Жыл бұрын

24:43 персептрон - это только математическая модель биологического нейрона на заре нейро-физиологии. В действительности сравнивать нельзя, т.к. сейчас нейрон не описать математически. Например, по словам проф.Савельева если попытаться в архитектуре современных ПК описать работу мозга, то транзисторы в процессоре такого ПК сами в произвольном порядке будут перепаивать себя, сменяя архитектуру процессора при том генерить парадигмы программирования случайным образом в зависимости от контекста от сигналов с устройств ввода данных. По-сути, на современной архитектуре ПК нет возможности воссоздать работу мозга. Потому остаётся довольствоваться ИИ, который вообще не является интеллектом, но подобен по ряду признаков ;)

@vladimirkalashnikov1067 3 ай бұрын

глупости, всегда можно эмулировать работу любой тьюринг-полной системы на любой другой тьюринг-полной системе. В случае с нейросетями - 0 нет связи, не 0 - есть связь. Матрица связей "каждый с каждым" и задаёт произвольную сеть. А вот дальше уже вопросы эффективности и наличия алгоритмов...... т.к. в теории такая полносвязная нейросеть может эмулировать произвольную машину тьюринга, а на практике нет алгоритмов её обучения для доведения до такого состояния.

@lorddark222 Жыл бұрын

Иваново сила! Иваново 2023 !!

@zakmer1 3 ай бұрын

боюсь нейросетей будушщего 😂

@pingodev2896 Жыл бұрын

тёма, вернись на "разрабы"

@Denis_QA Жыл бұрын

Видимо, для этого нужно опять жить рядом с Филом...

@semeonivanov 4 ай бұрын

пиперский страшно толковый чувак. наверно вообще единственный, кто понимает происходящее во всей глубине. обычно учёные натренировали свои нейросеточки на конкретную хрень - интеграл какой нибудь или падежи китайских глаголов, а что в мире происходит не способны даже задуматься, и даже что происходит в их работе не видят. вообще наука закончилась, сколько... наверно тыщ шесть лет с шумера все эти части речи, падежи, времена... а оказалось что ничего этого не существует, всё вымышленная хрень. кстати, пиперский не так хорош, щас слушал лекцию про фонетику, и он там не понимает, что никаких звуков речи не существует, они появляются только после того, как ты выучишь буквы. хотя может боится, что его не поймут, если скажет. начал тут было писать как мир на самом деле устроен... но внезапно стало лень...

@3412alien 10 ай бұрын

Боже, да это не GPT такой умный, это люди думают что они шибко умные. Мы примерно так же все анализируем и размышляем.

@Valentin_I 7 ай бұрын

GPT не умный, а скорее начитанный. "Умный" он настолько, сколько вложили в его алгоритм люди - генерация новых знаний из большого массива доступной информации. Нужно понимать точность новых знаний, которая может быть весьма приближенной, а то и вовсе бредом. Но то зависит от алгоритма и параметров, которые настраивают люди, автомату всё равно что он выдаёт.

@3412alien 7 ай бұрын

@@Valentin_Iбудем посмотреть, что Маск покажет. Возможно тот будет именно умным.

@irinasher7269 7 ай бұрын

шиБко

@vanmihaylovich Жыл бұрын

36:46 поэзия для ИИ не составляет труда, т.к. любая рифма строится по временному ряду со свойственной ей математикой, которую изучают все музыканты. Пусть меня простят мусульмане, но рифма текстов Корана имеет свою математику, и по тому так складно запоминается, воспринимается, как нечто божественное. Все "рифмованное" всегда имеет фазо-частотную или частотно-амплитудную характеристику, потому раскладывается на гармоники, шифруется и пересоздается, воспроизводится когда необходимо любыми доступными устройствами. Меня больше интересуют смыслы и образы, которыми пользуются люди в своём деловом обороте. Ведь машинам доступны только синтаксис знаковой системы, но не смыслы и образы.

@shishlinsv Жыл бұрын

Такой вопрос возник, если ChatGPT плохо умеет считать, почему не научить его считать например столбиком?)

@4rtochka Жыл бұрын

GPT гуманитарий

@aw-club-ru Жыл бұрын

Скорее потому что он хорошо умеет именно продолжать тексты ,а не считать математику)

@user-iw9ln6ld7c 4 ай бұрын

Одна нейронная сеть может что-то одно. Одна рисовать, другая петь, третья танцевать. Хотя если объеденить сети, это другое дело. Видимо это будущее.

@shishlinsv 4 ай бұрын

@@user-iw9ln6ld7c мысль была в том, что по сути счёт столбиком больше напоминает "текст"

@user-iw9ln6ld7c 4 ай бұрын

@@shishlinsv Нейросеть не училась в школе, откуда она может научиться столбиком считать? Разве что она могла взять это в учебниках арифметики для детей, их мало и "столбик" не является текстом, а скорее картинкой.

@semeonivanov 4 ай бұрын

чувак очень тупой. как это как это? одно и то же два часа спрашивает. ему два часа и так и эдак отвечают, но всё равно как это как это как это... надо просто пошырше объяснять. както доносить мысль того, что нейросети без разницы, через неё прогнали картинки с котиками - она узнаёт котиков, прогнали базу с миллионом клиентов банков - она узнаёт хороших клиентов банков... прогнали буквы - узнаёт буквы... это всё одно и то же, просто биты информации, по которым получены миллиарды других битов весов. вопрос что там есть в тексте, как там она этот текст... такой же нелепый как что там в котике, по каким законам она узнаёт котика... или мой любимый пример ещё больше 15 лет назад был и остаётся (купил тогда телефон с идеальным распознаванием улыбки) - по каким законам она распознаёт улыбку. объясните мне всё таки какими алгоритмами она узнаёт улыбку... както ведь надо доказать логически улыбка это или нет в конце концов...

@vanmihaylovich Жыл бұрын

Неубедительно звучит из уст лингвиста. Складывается ощущение, что он вовсе не знаком с методами машинного обучения нейросетей. Если бы по частотному принципу сочетания букв в слова, а слов в предложения то, на выходе нейросеть выдавала бы великое множество безсмысленных утверждений, которые лексически верны, но ложны или обманчивы, например, как софизмы. Потому все ответы ИИ всегда проверяйте на смыслы, а иначе тот выдаст все, что может вам присниться. Как знаете, дурному дурное снится ;)

@user-ww6qi2sd7k Жыл бұрын

а она разве не выдает? я недавно впервые в жизни пять минут поговорила с Алисой, она за это время мне успела сообщить, что "улитки - самые яркие бабочки" и еще пару таких же вещей)

@irinasher7269 7 ай бұрын

Вообще-то, начинал Пиперски как математик...

@vladimirkalashnikov1067 3 ай бұрын

ну так и модель то сложнее, чем марковская цепь - чем баловались во времена фидо (и ранее)