Представление текста вектором One Hot Encoding | Нейросети для анализа текстов

Рет қаралды 9,990

Andrey Sozykin

Күн бұрын

Пікірлер: 26

@AndersonSilva-dg4mg 5 жыл бұрын

Я еще не приступал к курсу по нейронным сетям, но пришел сказать спасибо! В будущем пригодится.

@AndreySozykin 5 жыл бұрын

Пожалуйста! Надеюсь, что действительно пригодится.

@Lasteg 4 жыл бұрын

Андрей, вы крутой, спасибо, сначала прошёл курс на openedu, впечатлившись как прикольно объясняете, а потом чисто случайно нашёл ваш ютуб

@AndreySozykin 4 жыл бұрын

Рад, что курс на OpenEdu понравился. Там скоро откроется еще один раздел по NLP.

@АлексейС-й2м 3 жыл бұрын

Андрей, очень круто! Благодарю Вас за Ваш огромный труд!

@Gleb_Pastushenko 4 жыл бұрын

Здравствуйте. Почему на 3:08 после единицы точка? По идее нам нужна единичка "полегче" типа одинарного целого.

@sergafanasiev7956 5 жыл бұрын

Лучший автор в российском сегменте!

@AndreySozykin 5 жыл бұрын

На мой взгляд, это преувеличение. Но все равно спасибо!

@ccfytrr 4 жыл бұрын

В sklearn есть встроенный класс для кодирования OneHotEncoding. sklearn.feature_extraction.text.CountVectorizer. Его можно использовать вместо функции vectorize_sequences. По умолчанию в метод fit нужно подавать список текстов, которые будут поделены на токены автоматически. В примере из видео токенизация уже произведена, поэтому в параметрах конструктора нужно ее отключить. Для этого убираем analyzer. Пусть он просто возвращает элементы последовательности. По умолчанию CountVectorizer возвращает количество раз, когда токен встречался в тексте. Нам же нужно, что б он возвращал 1, если токен встречается хотя бы раз. Для этого надо добавить параметр binary=True. В итоге аналог функции vectorize_sequences будет выглядеть так: vectorizer = CountVectorizer(binary=True, analyzer=lambda x: x, max_features=10000) x_train=vectorizer.fit_transform(x_train).toarray() Последняя строка вернет объект scipy.sparse.csr_matrix. Что бы представить ее в виде массива надо вызвать метод toarray()

@AndreySozykin 4 жыл бұрын

Да, так тоже можно делать. Я стараюсь не уходить далеко от Keras и TensorFlow, чтобы не запутывать людей на этапе изучения.

@johntheripper2553 3 жыл бұрын

@@AndreySozykin Андрей, спасибо Вам большое за ваш труд. Подскажите, правильно ли я понимаю , что чтобы реализовать BoW надо вместо =1 в функции векторизатора написать +1?

@RustemShaimagambetov 5 жыл бұрын

Ну просто 🔥🔥🔥

@AndreySozykin 5 жыл бұрын

Спасибо!

@levran4ik 5 жыл бұрын

Очень полезно! Пожалуйста покажите работу с LSTM сетью - представляется эффективность должна быть выше?

@AndreySozykin 5 жыл бұрын

Про LSTM обязательно расскажу.

@alexkom9070 19 күн бұрын

По примеру в видео обучение на 0,5 идет и не поднимается. Т.е. не обучается.

@prokazzza8402 5 жыл бұрын

Здравствуйте Андрей. Помогите разобраться как извлечь набор данных из текстового файла для построчного разбиения этих данных на столбцы и преобразования их в числовые значения. Для дальнейшего создания нейронной сети по этим данным.

@AndreySozykin 5 жыл бұрын

Обычно для этого используется библиотека pandas.

@prokazzza8402 5 жыл бұрын

@@AndreySozykin я знаю. Я как раз ее сейчас изучаю. Но у меня почему-то в строках неправильно происходить разбиение на столбцы по разделителю ',' часть разделителей просто пропускается. Вот к примеру одна из строк в которой пропускается разделитель в конце перед временем - Nelaime,+3% (669),BBC Bayreuth - Brose Bamberg,Under 169.5 (Game Totals) @ 1.91,"Basketball / Germany / Kick off: 24 Sep 2019, 21:00"

@AndreySozykin 5 жыл бұрын

pandas считает текст в кавычках одним полем. Время внутри кавычек, поэтому оно не выделяется.

@Morkovka7777 5 жыл бұрын

One-hot encoding представляет вектор, где наличие/отсутствие слова в векторе обозначается 1/0?

@AndreySozykin 5 жыл бұрын

Да, именно так.

@ЕвгенийШтепин-ю9с 3 жыл бұрын

Надо сказать, ваше неторопливо-размеренная речь лучше помогает понимать материал. Спасибо огромное за ваш труд! Но представленное в лекции кодирование - не назывется one-hot-enconing (когда в кодовом представлении каждого объекта только одна единица, остальные - нули. В данном случае каждому комментарию сопоставляется вектор, в котором может быть более одной единицы, это более общий случай двоичного кода, но не унитарный (не one-hot)).