Анализируем отзывы YELP сетью LSTM | Нейросети для анализа текстов

  Рет қаралды 9,524

Andrey Sozykin

Andrey Sozykin

4 жыл бұрын

Определение тональности отзывов из набора данных YELP с помощью нейронной сети LSTM. Страница курса - www.asozykin.ru/courses/nnpython
Набор данных YELP - www.yelp.com/dataset
Наборы данных курса fast.ai - course.fast.ai/datasets
Ноутбук с кодом из видео - colab.research.google.com/dri...
00:40 - Набор данных YELP
04:35 - Загрузка набора данных YELP в Colab
Добавляйтесь в друзья в социальных сетях:
вКонтакте - avsozykin
Instagram - / sozykin_andr
Facebook - / asozykin
Twitter - / andreysozykin
Мой сайт - www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs

Пікірлер: 84
@sergafanasiev7956
@sergafanasiev7956 4 жыл бұрын
Дай бог тебе здоровья, милый человек!
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Большое спасибо!
@user-kf5bl1ny3m
@user-kf5bl1ny3m Жыл бұрын
Делаю диплом, связанный с нейросетями. Считаю Ваши видео очень полезными, большое спасибо!👍👍👍👍👍
@AndreySozykin
@AndreySozykin Жыл бұрын
Спасибо за приятнй отзыв!
@user-sg5md2os7i
@user-sg5md2os7i 8 ай бұрын
Такая же ситуация) Если не секрет, как защитился? Какая была тема?
@internetweb3.069
@internetweb3.069 2 ай бұрын
@@user-sg5md2os7i ахахах товарищи, теперь и у меня та же история я в процессе написания
@Euronull
@Euronull Жыл бұрын
Спасибо, Андрей. Вас очень приятно смотреть и слушать. Очень хорошо поставлена речь.
@leobonston11
@leobonston11 9 ай бұрын
Очень крутые у вас видео. Спасибо огромное за ваш труд))😀
@bralbral
@bralbral 4 жыл бұрын
Отлично "разжёвываете" для новичков! Спасибо!
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Пожалуйста! Рад, что нравится!
@paulil
@paulil 4 жыл бұрын
Андрей! Ты супер!!!
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Спасибо!
@user-lw7sy6vn7s
@user-lw7sy6vn7s 4 жыл бұрын
Здорово! Спасибо! Ждем детектирование и сегментацию изображений на своем наборе данных)
@AndreySozykin
@AndreySozykin 4 жыл бұрын
По обработке изображений буду переделывать большую часть видео на Tensorflow 2.0 и tf.data. Там много изменений именно в подготовке своих наборов данных.
@user-ej5up4bk8o
@user-ej5up4bk8o 4 жыл бұрын
Заработало!!! Респект за настойчивость. Как всегда всё по теме и как надо. Жду следующие видео.
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Отлично!
@dimonickb.5423
@dimonickb.5423 3 жыл бұрын
Невероятно круто. Спасибо
@web_kub
@web_kub 4 жыл бұрын
Здоровья тебе и твоим близким! Спасибо!
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Спасибо!
@funnix6922
@funnix6922 3 жыл бұрын
Делаю диплом, связанный с нейросетями. Считаю твои видео очень полезными, большое спасибо!
@AndreySozykin
@AndreySozykin 3 жыл бұрын
Пожалуйста! Рад, что видео полезны!
@web_kub
@web_kub 4 жыл бұрын
Ты супер! Спасибо!
@shaha2411
@shaha2411 4 жыл бұрын
Рад Вас увидеть снова, долга ждал Вас! Спасибо за видео
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Пожалуйста!
@nihao_nadya
@nihao_nadya 2 жыл бұрын
Спасибо!!!
@p0z1ck
@p0z1ck 4 жыл бұрын
Крутой канал! Андрей, продолжайте снимать! Нужно немного подтянуть произношение английских слов)
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Спасибо за приятный отзыв! Над английским работаю.
@IExSet
@IExSet 3 жыл бұрын
С этим откликом для сохранения лучшего результата прям очень полезная штука. Минусом всего курса считаю, что не понятна размерность всех объектов, которые представлены в нейронной сети. Неплохо бы покомпонентно всё визуализировать. К тому же Питон, являясь динамическим языком, скрывает типы передаваемых аргументов. По сути это решается на практике, например отдельно можно погонять слой Embedded, отдельно рекурентные с разными опциями - return_sequence и т.п., свёрточные так вообще странные, говорит 100 ядер свёртки. Мне лишь важно, что в результате мы получим 100 слоёв с проекциями ядер длинной в 5 элементов (????), т.е. 100 векторов, размерностью 96 (из-за краёв), потом пуллинг смотрит в какой то точке сквозь эти 100 векторов и выбирает максимальный элемент в пределах 1 или 2-х, обратно получаем 1 вектор длиной 96 или 48. Кстати не понятно, что хорошего от того, что мы валим всё в кучу со 100 свёрток, по сути метим на векторе исходных данных "здесь что то нашли, а что именно забыли", по идее тут бы тоже порождать плотный вектор меньшей размерности, как для унитарного кодирования слов, ведь набор свёрток в какой точке это как бы код смысла в этой точке.
@oldudot6940
@oldudot6940 4 жыл бұрын
Класс
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Спасибо!
@websoda
@websoda 3 жыл бұрын
спасибо
@AndreySozykin
@AndreySozykin 3 жыл бұрын
Пожалуйста!
@user-fx1rw6lq9l
@user-fx1rw6lq9l 4 жыл бұрын
Привет, Андрей Созыкин
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Привет ;-)
@user-fx1rw6lq9l
@user-fx1rw6lq9l 4 жыл бұрын
@@AndreySozykin Ты похож на телеведущего программы "Мир наизнанку" )
@bfdhtfyjhjj
@bfdhtfyjhjj 4 жыл бұрын
Топ
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Спасибо!
@alexmangir
@alexmangir 3 жыл бұрын
Токинайзер ведь запоминает не только слова, но и символы. Поэтому в плохом комментарии скорее всего будет встречаться грустный смайлик, а в хорошем наоборот веселый. Я бы предложил для начала почистить данные и убрать все что не является словом. Из-за того что сеточка может запомнить смайлики, она выучит в основном только их и даже если в добром комменте встретится грустный смайлик, она ошибется. Так же было бы неплохо еще разбивать слова на стэмы.
@AndreySozykin
@AndreySozykin 3 жыл бұрын
Все, что вы пишите, правильно. Но у меня в курсе основной акцент на нейронки разной архитектуры. Поэтому про подготовку данных информация минимальна, иначе до нейронок многие слушатели не дойдут :-)
@RustemShaimagambetov
@RustemShaimagambetov 4 жыл бұрын
Андрей, еще вопрос, будут ли уроки касательно переводов аудио дорожек в текстовые значения. Спасибо что отвечаешь на каждый оставленный комментарии.
@AndreySozykin
@AndreySozykin 4 жыл бұрын
К сожалению, я в этом не разбираюсь совершенно. Поэтому вряд ли смогу сделать хорошее видео.
@bfdhtfyjhjj
@bfdhtfyjhjj 4 жыл бұрын
Андрей, хотелось бы посмотреть реализацию переводчика на нейросетях. Уж очень мало информации в интернете по данной теме.
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Да, будет. Это одна из задач анализа текстов
@RustemShaimagambetov
@RustemShaimagambetov 4 жыл бұрын
Добрый день, Андрей! Подскажите, а в будущем вообще есть вероятность что-нибудь будет на pytorch
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Про PyTorch не уверен. Это хороша библиотека, но она сложнее, чем Keras. Для вводного курса по нейронкам Keras, на мой взгляд, подходит лучше всего. Тяжело изучать одновременно нейронные сети и сложную библиотеку на Python. После освоения основ нейросетей можно уже переходить к PyTorch.
@etudarium5387
@etudarium5387 3 жыл бұрын
Спасибо за видео. А если загружать данные на Windows, там код другой уже нужен или такой же как и для Линукса, как у вас?
@AndreySozykin
@AndreySozykin 3 жыл бұрын
Насколько я понимаю, такой же. Но сам не пробовал.
@siigma_music_01
@siigma_music_01 4 жыл бұрын
Вот обучили нейросеть классифицировать текст на обучающей выборке, и что будет если тестировать на тех словах которые не встречались в словаре при обучении? что выведет модель?
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Это слова не будут учитываться. Вместо них может быть специальный код "неизвестное слово". А токенизатор Keras для неизвестных слов вообще не выдаёт чисел.
@aleksandr2871
@aleksandr2871 2 жыл бұрын
Добрый день, спасибо за видео! Подскажите, пожалуйста, а случайно нет ноутбука с кодом для полного набора файлов (full)?
@AndreySozykin
@AndreySozykin 2 жыл бұрын
Добрый день. К сожалению, нет.
@user-ef5db5ld9r
@user-ef5db5ld9r 4 жыл бұрын
Норм
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Спасибо!
@macondos20
@macondos20 4 жыл бұрын
Андрей, а есть ли смысл, в плане, во-первых, скорости обучения, во-вторых, качества для слоя Embedding использовать словарь GloVe, Word2Vec? И будет ли это работать например с русским языком? А также имеет ли смысл делать лемматизацию исходных форм слов? Особенно актуально это, я думаю, для русского языка.
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Использовать предварительно обученные Embedding'и почти всегда имеет смысл. GloVe уже устарел, лучше использовать Word2Vec или fasttext, у которых выше качество. Об этом будет отдельное видео.
@yuriyshepard4694
@yuriyshepard4694 3 жыл бұрын
Спасибо большое за курс! Есть вопрос, вот у вас в эпохах написано количество сэмплов: Epoch 1/5 57084/504000 у меня вместо 504000 написано 275, при этом самих новостей/комментариев намного больше - где-то 40тыс. Вопрос, что указывает этот параметр конкретно. Не могу понять. Извините, если вопрос ламерский - я в этом совсем ноль ещё
@AndreySozykin
@AndreySozykin 3 жыл бұрын
Возможно, у вас написано количество мини-выборок, а не сэмплов.
@zzzCyberzzz
@zzzCyberzzz 4 жыл бұрын
Давайте уже перейдем к предсказанию цены акций с помощью НС)). Просто как эксперимент: получится/не получится.
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Точно не работает. Я против таких вещей, даже в демо режиме.
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Скорее всего, 3 вариант. Особенно неприятно будет, если кто-то мое демо решение возьмет и будет на его основе реально торговать :-( Так что даже демо не буду выкладывать. Кто хочет, может у Siraj Raval посмотреть ;-)
@user-wp5hc5do8j
@user-wp5hc5do8j 3 жыл бұрын
Андрей, спасибо большое за курс, это просто находка! Собрал ноутбук на своих отзывах, проверяю тестовую выборку model.evaluate(x_test, y_test, verbose=1). Возник вопрос: x_test у меня ~8000 записей, а результаты evaluate показывает 276/276 [============] - 1s 4ms/step - loss: 0.1068 - accuracy: 0.9650. Почему только 276 записей из тестовой выборки обрабатывается?
@AndreySozykin
@AndreySozykin 3 жыл бұрын
276 - это не записей, а мини-выборок (batch).
@user-wp5hc5do8j
@user-wp5hc5do8j 3 жыл бұрын
@@AndreySozykin другими словами весь тестовый набор прогнался, точность 96,5%?
@user-eh2mw2ys2y
@user-eh2mw2ys2y 4 жыл бұрын
что делать если обучение не происходит? Обучение начинается и дальше надписи Epoch 1/4 никуда не двигается
@user-vn5wv6ix7z
@user-vn5wv6ix7z 4 жыл бұрын
Здравствуйте будут ли уроки по сети и системы коммуникаций ?
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Да, будут. После того, как закончу курс по анализу текстов нейросетями.
@dimitriywhite7728
@dimitriywhite7728 4 жыл бұрын
как думаете, Tokenizer Keras'а подойдёт для русскоязычных текстов?
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Попробуйте ;-)
@cassidy7172
@cassidy7172 4 жыл бұрын
Здравствуйте, при загрузке собственных данных на том этапе, где "обучаем токенизатор на отзывах" выдаёт ошибку на строчке "text = text. lower()" и подписывает, что это "AttributiveError: 'float' object has no attribute 'lower'. В коде ничего не менялось, помимо того, что были вставлены другие данные. Подскажите, пожалуйста, с чем это может быть связано.
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Судя по сообщению об ошибке, тип данных float. То есть попытка у float вызвать метод lower(), которого нет. Смотрите, что в переменной text.
@dennagato
@dennagato 3 жыл бұрын
Здравствуйте. Подскажите, а зачем ограничивать максимальную длину отзыва? Разве LSTM не работает с входными данными произвольной длины?
@AndreySozykin
@AndreySozykin 3 жыл бұрын
С данными произвольной длины длины можно работать в режиме sequence to sequence. А для классификации нужно ограничивать длину.
@dennagato
@dennagato 3 жыл бұрын
@@AndreySozykin то есть я правильно понимаю, что если мы хотим использовать РНС для задач классификации, то мы не можем подавать вектора произвольной длины? Если да, то почему так?
@boriswithrazor6992
@boriswithrazor6992 2 жыл бұрын
@@AndreySozykin Спасибо за лекцию! А можете подробнее ответить, почему все-таки нельзя использовать вектора произвольной длины в задачах классификации
@Jenya__S
@Jenya__S 4 жыл бұрын
Привет =) перерыл весь интернет, не могу найти ответ : otvet.mail.ru/question/193137720 Пожалуйста помогите разобраться с настройкой драйвера сотового 4G модема
@AndreySozykin
@AndreySozykin 4 жыл бұрын
В таком не разбираюсь, к сожалению!
@dmitryponomarenko2250
@dmitryponomarenko2250 4 жыл бұрын
Андрей, здравствуйте! Есть задача по определению номера объекта в промышленных условиях. Могли бы Вы помочь с этим? Пжлст, напишите - steel-logic@ya.ru Заранее признателен!
Scary Teacher 3D Nick Troll Squid Game in Brush Teeth White or Black Challenge #shorts
00:47
Дарю Самокат Скейтеру !
00:42
Vlad Samokatchik
Рет қаралды 6 МЛН
Can You Draw A PERFECTLY Dotted Line?
00:55
Stokes Twins
Рет қаралды 111 МЛН
Делайте эту практику перед сном и измените свою жизнь
15:11
Алексей Якубан | Коучинг на Миллион
Рет қаралды 617 М.
Отдых для геймера? 😮‍💨 Hiper Engine B50
1:00
Mastering Picture Editing: Zoom Tools Tutorial
0:52
Photoo Edit
Рет қаралды 507 М.
OZON РАЗБИЛИ 3 КОМПЬЮТЕРА
0:57
Кинг Комп Shorts
Рет қаралды 1,7 МЛН
Сколько реально стоит ПК Величайшего?
0:37
Мой инст: denkiselef. Как забрать телефон через экран.
0:54
1$ vs 500$ ВИРТУАЛЬНАЯ РЕАЛЬНОСТЬ !
23:20
GoldenBurst
Рет қаралды 1,7 МЛН