Представление текста вектором One Hot Encoding | Нейросети для анализа текстов

  Рет қаралды 9,990

Andrey Sozykin

Andrey Sozykin

Күн бұрын

Пікірлер: 26
@AndersonSilva-dg4mg
@AndersonSilva-dg4mg 5 жыл бұрын
Я еще не приступал к курсу по нейронным сетям, но пришел сказать спасибо! В будущем пригодится.
@AndreySozykin
@AndreySozykin 5 жыл бұрын
Пожалуйста! Надеюсь, что действительно пригодится.
@Lasteg
@Lasteg 4 жыл бұрын
Андрей, вы крутой, спасибо, сначала прошёл курс на openedu, впечатлившись как прикольно объясняете, а потом чисто случайно нашёл ваш ютуб
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Рад, что курс на OpenEdu понравился. Там скоро откроется еще один раздел по NLP.
@АлексейС-й2м
@АлексейС-й2м 3 жыл бұрын
Андрей, очень круто! Благодарю Вас за Ваш огромный труд!
@Gleb_Pastushenko
@Gleb_Pastushenko 4 жыл бұрын
Здравствуйте. Почему на 3:08 после единицы точка? По идее нам нужна единичка "полегче" типа одинарного целого.
@sergafanasiev7956
@sergafanasiev7956 5 жыл бұрын
Лучший автор в российском сегменте!
@AndreySozykin
@AndreySozykin 5 жыл бұрын
На мой взгляд, это преувеличение. Но все равно спасибо!
@ccfytrr
@ccfytrr 4 жыл бұрын
В sklearn есть встроенный класс для кодирования OneHotEncoding. sklearn.feature_extraction.text.CountVectorizer. Его можно использовать вместо функции vectorize_sequences. По умолчанию в метод fit нужно подавать список текстов, которые будут поделены на токены автоматически. В примере из видео токенизация уже произведена, поэтому в параметрах конструктора нужно ее отключить. Для этого убираем analyzer. Пусть он просто возвращает элементы последовательности. По умолчанию CountVectorizer возвращает количество раз, когда токен встречался в тексте. Нам же нужно, что б он возвращал 1, если токен встречается хотя бы раз. Для этого надо добавить параметр binary=True. В итоге аналог функции vectorize_sequences будет выглядеть так: vectorizer = CountVectorizer(binary=True, analyzer=lambda x: x, max_features=10000) x_train=vectorizer.fit_transform(x_train).toarray() Последняя строка вернет объект scipy.sparse.csr_matrix. Что бы представить ее в виде массива надо вызвать метод toarray()
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Да, так тоже можно делать. Я стараюсь не уходить далеко от Keras и TensorFlow, чтобы не запутывать людей на этапе изучения.
@johntheripper2553
@johntheripper2553 3 жыл бұрын
@@AndreySozykin Андрей, спасибо Вам большое за ваш труд. Подскажите, правильно ли я понимаю , что чтобы реализовать BoW надо вместо =1 в функции векторизатора написать +1?
@RustemShaimagambetov
@RustemShaimagambetov 5 жыл бұрын
Ну просто 🔥🔥🔥
@AndreySozykin
@AndreySozykin 5 жыл бұрын
Спасибо!
@levran4ik
@levran4ik 5 жыл бұрын
Очень полезно! Пожалуйста покажите работу с LSTM сетью - представляется эффективность должна быть выше?
@AndreySozykin
@AndreySozykin 5 жыл бұрын
Про LSTM обязательно расскажу.
@alexkom9070
@alexkom9070 19 күн бұрын
По примеру в видео обучение на 0,5 идет и не поднимается. Т.е. не обучается.
@prokazzza8402
@prokazzza8402 5 жыл бұрын
Здравствуйте Андрей. Помогите разобраться как извлечь набор данных из текстового файла для построчного разбиения этих данных на столбцы и преобразования их в числовые значения. Для дальнейшего создания нейронной сети по этим данным.
@AndreySozykin
@AndreySozykin 5 жыл бұрын
Обычно для этого используется библиотека pandas.
@prokazzza8402
@prokazzza8402 5 жыл бұрын
@@AndreySozykin я знаю. Я как раз ее сейчас изучаю. Но у меня почему-то в строках неправильно происходить разбиение на столбцы по разделителю ',' часть разделителей просто пропускается. Вот к примеру одна из строк в которой пропускается разделитель в конце перед временем - Nelaime,+3% (669),BBC Bayreuth - Brose Bamberg,Under 169.5 (Game Totals) @ 1.91,"Basketball / Germany / Kick off: 24 Sep 2019, 21:00"
@AndreySozykin
@AndreySozykin 5 жыл бұрын
pandas считает текст в кавычках одним полем. Время внутри кавычек, поэтому оно не выделяется.
@Morkovka7777
@Morkovka7777 5 жыл бұрын
One-hot encoding представляет вектор, где наличие/отсутствие слова в векторе обозначается 1/0?
@AndreySozykin
@AndreySozykin 5 жыл бұрын
Да, именно так.
@ЕвгенийШтепин-ю9с
@ЕвгенийШтепин-ю9с 3 жыл бұрын
Надо сказать, ваше неторопливо-размеренная речь лучше помогает понимать материал. Спасибо огромное за ваш труд! Но представленное в лекции кодирование - не назывется one-hot-enconing (когда в кодовом представлении каждого объекта только одна единица, остальные - нули. В данном случае каждому комментарию сопоставляется вектор, в котором может быть более одной единицы, это более общий случай двоичного кода, но не унитарный (не one-hot)).
@МакимПоспелов
@МакимПоспелов 4 жыл бұрын
the best
@AndreySozykin
@AndreySozykin 4 жыл бұрын
Thank you!
@АртёмЖабский-е9ш
@АртёмЖабский-е9ш 5 жыл бұрын
"Ни**я не понятно, но очень интересно"
Thank you mommy 😊💝 #shorts
0:24
5-Minute Crafts HOUSE
Рет қаралды 33 МЛН
Непосредственно Каха: сумка
0:53
К-Media
Рет қаралды 12 МЛН
One Hot Encoder with Python Machine Learning (Scikit-Learn)
9:03
Ryan & Matt Data Science
Рет қаралды 28 М.
VxLAN и с чем его едят
1:10:21
IT-тренер Черепанов
Рет қаралды 1,4 М.
How do I encode categorical features using scikit-learn?
27:59
Data School
Рет қаралды 140 М.
Лекция 11. Random forest
50:12
Computer Science Center
Рет қаралды 20 М.