Я еще не приступал к курсу по нейронным сетям, но пришел сказать спасибо! В будущем пригодится.
@AndreySozykin5 жыл бұрын
Пожалуйста! Надеюсь, что действительно пригодится.
@Lasteg4 жыл бұрын
Андрей, вы крутой, спасибо, сначала прошёл курс на openedu, впечатлившись как прикольно объясняете, а потом чисто случайно нашёл ваш ютуб
@AndreySozykin4 жыл бұрын
Рад, что курс на OpenEdu понравился. Там скоро откроется еще один раздел по NLP.
@АлексейС-й2м3 жыл бұрын
Андрей, очень круто! Благодарю Вас за Ваш огромный труд!
@Gleb_Pastushenko4 жыл бұрын
Здравствуйте. Почему на 3:08 после единицы точка? По идее нам нужна единичка "полегче" типа одинарного целого.
@sergafanasiev79565 жыл бұрын
Лучший автор в российском сегменте!
@AndreySozykin5 жыл бұрын
На мой взгляд, это преувеличение. Но все равно спасибо!
@ccfytrr4 жыл бұрын
В sklearn есть встроенный класс для кодирования OneHotEncoding. sklearn.feature_extraction.text.CountVectorizer. Его можно использовать вместо функции vectorize_sequences. По умолчанию в метод fit нужно подавать список текстов, которые будут поделены на токены автоматически. В примере из видео токенизация уже произведена, поэтому в параметрах конструктора нужно ее отключить. Для этого убираем analyzer. Пусть он просто возвращает элементы последовательности. По умолчанию CountVectorizer возвращает количество раз, когда токен встречался в тексте. Нам же нужно, что б он возвращал 1, если токен встречается хотя бы раз. Для этого надо добавить параметр binary=True. В итоге аналог функции vectorize_sequences будет выглядеть так: vectorizer = CountVectorizer(binary=True, analyzer=lambda x: x, max_features=10000) x_train=vectorizer.fit_transform(x_train).toarray() Последняя строка вернет объект scipy.sparse.csr_matrix. Что бы представить ее в виде массива надо вызвать метод toarray()
@AndreySozykin4 жыл бұрын
Да, так тоже можно делать. Я стараюсь не уходить далеко от Keras и TensorFlow, чтобы не запутывать людей на этапе изучения.
@johntheripper25533 жыл бұрын
@@AndreySozykin Андрей, спасибо Вам большое за ваш труд. Подскажите, правильно ли я понимаю , что чтобы реализовать BoW надо вместо =1 в функции векторизатора написать +1?
@RustemShaimagambetov5 жыл бұрын
Ну просто 🔥🔥🔥
@AndreySozykin5 жыл бұрын
Спасибо!
@levran4ik5 жыл бұрын
Очень полезно! Пожалуйста покажите работу с LSTM сетью - представляется эффективность должна быть выше?
@AndreySozykin5 жыл бұрын
Про LSTM обязательно расскажу.
@alexkom907019 күн бұрын
По примеру в видео обучение на 0,5 идет и не поднимается. Т.е. не обучается.
@prokazzza84025 жыл бұрын
Здравствуйте Андрей. Помогите разобраться как извлечь набор данных из текстового файла для построчного разбиения этих данных на столбцы и преобразования их в числовые значения. Для дальнейшего создания нейронной сети по этим данным.
@AndreySozykin5 жыл бұрын
Обычно для этого используется библиотека pandas.
@prokazzza84025 жыл бұрын
@@AndreySozykin я знаю. Я как раз ее сейчас изучаю. Но у меня почему-то в строках неправильно происходить разбиение на столбцы по разделителю ',' часть разделителей просто пропускается. Вот к примеру одна из строк в которой пропускается разделитель в конце перед временем - Nelaime,+3% (669),BBC Bayreuth - Brose Bamberg,Under 169.5 (Game Totals) @ 1.91,"Basketball / Germany / Kick off: 24 Sep 2019, 21:00"
@AndreySozykin5 жыл бұрын
pandas считает текст в кавычках одним полем. Время внутри кавычек, поэтому оно не выделяется.
@Morkovka77775 жыл бұрын
One-hot encoding представляет вектор, где наличие/отсутствие слова в векторе обозначается 1/0?
@AndreySozykin5 жыл бұрын
Да, именно так.
@ЕвгенийШтепин-ю9с3 жыл бұрын
Надо сказать, ваше неторопливо-размеренная речь лучше помогает понимать материал. Спасибо огромное за ваш труд! Но представленное в лекции кодирование - не назывется one-hot-enconing (когда в кодовом представлении каждого объекта только одна единица, остальные - нули. В данном случае каждому комментарию сопоставляется вектор, в котором может быть более одной единицы, это более общий случай двоичного кода, но не унитарный (не one-hot)).