No video

Представление текста вектором One Hot Encoding | Нейросети для анализа текстов

  Рет қаралды 9,602

Andrey Sozykin

Andrey Sozykin

5 жыл бұрын

Представление текста в виде вектора One Hot Encoding для анализа нейронной сетью. Страница курса - www.asozykin.r...
Лекция "Представление текста в цифровом виде для нейросети" - • Представление текста в...
Лекция "Анализ тональности отзывов на фильмы IMDB" - • Анализ тональности отз...
Ссылка на ноутбук в Colaboratory - colab.research...
Как можно поддержать курс:
1. Яндекс Кошелек - money.yandex.r...
2. PayPal - www.paypal.me/...
Заранее спасибо за помощь!
Добавляйтесь в друзья в социальных сетях:
вКонтакте - avsozykin
Instagram - / sozykin_andr
Facebook - / asozykin
Twitter - / andreysozykin
Мой сайт - www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs

Пікірлер: 25
@AndersonSilva-dg4mg
@AndersonSilva-dg4mg 5 жыл бұрын
Я еще не приступал к курсу по нейронным сетям, но пришел сказать спасибо! В будущем пригодится.
@AndreySozykin
@AndreySozykin 5 жыл бұрын
Пожалуйста! Надеюсь, что действительно пригодится.
@Lasteg
@Lasteg 3 жыл бұрын
Андрей, вы крутой, спасибо, сначала прошёл курс на openedu, впечатлившись как прикольно объясняете, а потом чисто случайно нашёл ваш ютуб
@AndreySozykin
@AndreySozykin 3 жыл бұрын
Рад, что курс на OpenEdu понравился. Там скоро откроется еще один раздел по NLP.
@user-ms8wc3ql2f
@user-ms8wc3ql2f 2 жыл бұрын
Андрей, очень круто! Благодарю Вас за Ваш огромный труд!
@sergafanasiev7956
@sergafanasiev7956 4 жыл бұрын
Лучший автор в российском сегменте!
@AndreySozykin
@AndreySozykin 4 жыл бұрын
На мой взгляд, это преувеличение. Но все равно спасибо!
@RustemShaimagambetov
@RustemShaimagambetov 5 жыл бұрын
Ну просто 🔥🔥🔥
@AndreySozykin
@AndreySozykin 5 жыл бұрын
Спасибо!
@Gleb_Pastushenko
@Gleb_Pastushenko 3 жыл бұрын
Здравствуйте. Почему на 3:08 после единицы точка? По идее нам нужна единичка "полегче" типа одинарного целого.
@ccfytrr
@ccfytrr 3 жыл бұрын
В sklearn есть встроенный класс для кодирования OneHotEncoding. sklearn.feature_extraction.text.CountVectorizer. Его можно использовать вместо функции vectorize_sequences. По умолчанию в метод fit нужно подавать список текстов, которые будут поделены на токены автоматически. В примере из видео токенизация уже произведена, поэтому в параметрах конструктора нужно ее отключить. Для этого убираем analyzer. Пусть он просто возвращает элементы последовательности. По умолчанию CountVectorizer возвращает количество раз, когда токен встречался в тексте. Нам же нужно, что б он возвращал 1, если токен встречается хотя бы раз. Для этого надо добавить параметр binary=True. В итоге аналог функции vectorize_sequences будет выглядеть так: vectorizer = CountVectorizer(binary=True, analyzer=lambda x: x, max_features=10000) x_train=vectorizer.fit_transform(x_train).toarray() Последняя строка вернет объект scipy.sparse.csr_matrix. Что бы представить ее в виде массива надо вызвать метод toarray()
@AndreySozykin
@AndreySozykin 3 жыл бұрын
Да, так тоже можно делать. Я стараюсь не уходить далеко от Keras и TensorFlow, чтобы не запутывать людей на этапе изучения.
@johntheripper2553
@johntheripper2553 3 жыл бұрын
@@AndreySozykin Андрей, спасибо Вам большое за ваш труд. Подскажите, правильно ли я понимаю , что чтобы реализовать BoW надо вместо =1 в функции векторизатора написать +1?
@user-ho1qm2xc8t
@user-ho1qm2xc8t 4 жыл бұрын
the best
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Thank you!
@levran4ik
@levran4ik 5 жыл бұрын
Очень полезно! Пожалуйста покажите работу с LSTM сетью - представляется эффективность должна быть выше?
@AndreySozykin
@AndreySozykin 5 жыл бұрын
Про LSTM обязательно расскажу.
@user-zh5ro2wg8m
@user-zh5ro2wg8m 3 жыл бұрын
Надо сказать, ваше неторопливо-размеренная речь лучше помогает понимать материал. Спасибо огромное за ваш труд! Но представленное в лекции кодирование - не назывется one-hot-enconing (когда в кодовом представлении каждого объекта только одна единица, остальные - нули. В данном случае каждому комментарию сопоставляется вектор, в котором может быть более одной единицы, это более общий случай двоичного кода, но не унитарный (не one-hot)).
@prokazzza8402
@prokazzza8402 4 жыл бұрын
Здравствуйте Андрей. Помогите разобраться как извлечь набор данных из текстового файла для построчного разбиения этих данных на столбцы и преобразования их в числовые значения. Для дальнейшего создания нейронной сети по этим данным.
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Обычно для этого используется библиотека pandas.
@prokazzza8402
@prokazzza8402 4 жыл бұрын
@@AndreySozykin я знаю. Я как раз ее сейчас изучаю. Но у меня почему-то в строках неправильно происходить разбиение на столбцы по разделителю ',' часть разделителей просто пропускается. Вот к примеру одна из строк в которой пропускается разделитель в конце перед временем - Nelaime,+3% (669),BBC Bayreuth - Brose Bamberg,Under 169.5 (Game Totals) @ 1.91,"Basketball / Germany / Kick off: 24 Sep 2019, 21:00"
@AndreySozykin
@AndreySozykin 4 жыл бұрын
pandas считает текст в кавычках одним полем. Время внутри кавычек, поэтому оно не выделяется.
@Morkovka7777
@Morkovka7777 4 жыл бұрын
One-hot encoding представляет вектор, где наличие/отсутствие слова в векторе обозначается 1/0?
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Да, именно так.
@user-qc2rr2qb3c
@user-qc2rr2qb3c 5 жыл бұрын
"Ни**я не понятно, но очень интересно"
Survive 100 Days In Nuclear Bunker, Win $500,000
32:21
MrBeast
Рет қаралды 153 МЛН
小丑和奶奶被吓到了#小丑#家庭#搞笑
00:15
家庭搞笑日记
Рет қаралды 7 МЛН
Проектируем соцсеть (задача с собеса)
19:44
Дорога багов
Рет қаралды 2,7 М.
One Hot Encoder with Python Machine Learning (Scikit-Learn)
9:03
Ryan & Matt Data Science
Рет қаралды 16 М.
Самое простое объяснение нейросети
16:30
Программный Кот
Рет қаралды 117 М.
Survive 100 Days In Nuclear Bunker, Win $500,000
32:21
MrBeast
Рет қаралды 153 МЛН