StandardScaler| MinMaxScaler | МАСШТАБИРОВАНИЕ ДАННЫХ

StandardScaler| MinMaxScaler | МАСШТАБИРОВАНИЕ ДАННЫХ | МАШИННОЕ ОБУЧЕНИЕ

Рет қаралды 7,586

Күн бұрын

Практическое задание boosty.to/machine_learrrning/...
Поддержать канал можно оформив подписку на boosty.to/machine_learrrning
Канал в TG t.me/machine_learrrning
Группа в VK machine_learrrning
Курсы на платформе Stepik:
1. Библиотеки Python для Data Science stepik.org/a/129105
2. Введение в нейронные сети (Keras/Tensorflow) stepik.org/a/127274
Вопросы, на которые найдем ответы в этом видео:
Что такое масштабирование данных и зачем оно нужно?
Как работать с StandardScaler (Стандартизация)?
Как работать с MinMaxScaler (Нормализация)?
Ноутбук из видео colab.research.google.com/dri...
0:00 Вводная
0:05 Зачем масштабировать данные
0:13 Получение данных
0:41 Обучение модели KNN
1:14 Плохие метрики на KNN
1:30 Обучение моделей
2:20 Поиск проблемы в данных
3:02 Признаки разных масштабов
3:36 Виды масштабирования данных
3:44 Нормализация данных
4:10 MinMaxScaler
5:05 Как вывести нормальные значения в numpy
6:00 MinMaxScaler transform
7:22 Почему после MinMaxScaler max не 1 или min не 0
8:52 Нормалиазация своими руками
10:36 Обучение моделей на нормализованных данных
11:57 Стандартизация данных
12:14 StandardScaler
13:21 Как вывести нормальные значения в pandas
14:06 Стандартизация тестовой выборки
14:21 Почему после StandardScaler std не 1 или mean не 0
15:00 Стандартизация своими руками
16:32 Обучение моделей на стандартизированных данных
18:00 DecisionTree и масштабирование данных
19:26 Практика на boosty.to/machine_learrrning
20:06 Резюме занятия

Пікірлер: 38

@TheKaramba321 2 жыл бұрын

ушки как большие признаки - все внимание забрали... пс. объясняете здорово, спасибо огромное

@aboba98159 2 жыл бұрын

балдеж чистой воды. огромное спасибо

@user-sh9jf2ge6z Жыл бұрын

Оч круто! Этой темы и в этом формате мне долго не хватало!

@baubekmynbaev666 Жыл бұрын

Отличное обучающее видео с примерами. Все по полочкам разложила. Спасибо 👍. Хотелось бы в дальнейшем видео о том какие модели чаще используются и в каких случаях. Заранее благодарю!

@polmaksim Жыл бұрын

Очень просто и доступно. Спасибо тебе, лучезарная!

@parvi5172 Жыл бұрын

Прекрасное объяснение! Лайк и подписка обеспечены. Даёшь больше крутого контента)

@user-gw2hb6nd6x Жыл бұрын

Отличное объяснение! Спасибо!

@user-co7zj4ce4e Ай бұрын

спасибо!

@user-ud1et9ub7g Жыл бұрын

Спасибо, очень полезный видеоурок!

@Sergey_Yrevich Жыл бұрын

Все по полкам, спасибо!

@olegtinkov6553 Жыл бұрын

Отличное видео!!!

@vyacheslavgadzhiev7803 2 жыл бұрын

Отличный урок

@user-gv9dg4ni5g Жыл бұрын

Какой балдëж и каеф🥰

@alexnatalchenko4471 7 ай бұрын

Видос суперский!

@skbalinez Жыл бұрын

Спасибо за такую подачу доступным языком. А после обучения модели на продакшене ей на вход надо тоже смасштабированные признаки подавать и получать в итоге смасштабированный таргет? И что с ним потом делать? Как "размасштабировать"?

@machine_learrrning Жыл бұрын

И вам спасибо за приятные слова! В продакшене тоже нужно признаки масштабировать, но целевое значение в целом лучше не масштабировать (что на обучении, что на тесте), а оставлять его в исходном виде. А если уже масштабировали, то через классы в sklearn это можно сделать: есть метод inverse_transform (scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler.inverse_transform), который и позволяет сделать обратное масштабирование

@MsGleaming 2 жыл бұрын

спасибо❤❤❤

@vukavuka7519 Жыл бұрын

Лучшая!

@datorikai9911 Жыл бұрын

Спасибо, Юля

@machine_learrrning Жыл бұрын

Всегда пожалуйста 😸

@sergeymarkevich6406 2 жыл бұрын

спасибо тебе

@user-jd6uz5si2f 6 ай бұрын

Юля как всегда патащила!!!

@RR-hq4cv Жыл бұрын

Спасибо за очень понятное видео! В который раз всё объяснено максимально подробно и с хорошими примерами! Оформил light+ подписку. Есть вопрос по видео: почему мы сначала делим выборку на train и test, а только потом делаем нормализацию/стандартизацию? Можем ли мы сначала весь датасет промасштабировать, а уже потом разделять его на train и test? Спасибо.

@machine_learrrning Жыл бұрын

Большое спасибо за приятные слова и за подписку! 😸 Сначала нужно разбить данные, а затем делать масштабирование данных, т.к. к выборке test относимся, как к настоящим, реальным данным, которые прислал заказчик, а он может прислать очень странные данные, дабы проверить нашу модель, поэтому мы должны быть готовы к этим странностям А можем подготовиться путем подсчета всех нужных нам показателей на выборке train, а затем только применять к test

@RR-hq4cv Жыл бұрын

@@machine_learrrning Я вас понял. К части test на этапе подготовки модели относимся как к реальным данным. Спасибо!

@deadmorose4741 3 ай бұрын

Что если у нас задача сложной регрессии и в разряде числа, которое подаем на вход модели, имеется важная информация? К примеру мы подаем номер квартир и хотим чтобы модель научилась узнавать номер этажа, на котором находится эта квартира. Те 220 квартира находится на 2-ом этаже. Если мы нормализуем такие значения то модель будет не состоянии уловить вот эту вот "логику", что разряд и есть ответ, тк мы удалим из входного значения нужное значение.

@Trading-Neural 8 ай бұрын

Здравствуйте! Как можно с Вами связаться?

@alexandershim6205 Жыл бұрын

Скажите, пожалуйста, должны ли мы приводить данные к нормальному распределению, когда подразумевается использование различных статистик (тот же Ф-тест Фишера) для проверки гипотез? Или мы просто подразумеваем, что данные распределены нормально? Если можно, дайте, пожалуйста, развернутый ответ. Надеялся, что будет раскрыта эта тема, касательно стандартизации.

@machine_learrrning Жыл бұрын

Нужно убедиться, что признаки имеют нормальное распределение, чтобы пользоваться такого рода статистическими критериями Если признак распределен не нормально, то нужно пользоваться другими стат. критериями

@wordofworld6874 Жыл бұрын

Вы используете R2 для задачи классификации?

@machine_learrrning Жыл бұрын

Предсказываем стоимость недвижимости - а это задача регрессии, так что можем использовать R2_score

@wordofworld6874 Жыл бұрын

Какой это плейлист?

@gobals8925 Жыл бұрын

Спасибо за ролик. Очень тихий звук (

@user-sy4zm9km5o Жыл бұрын

Главный вопрос после нормализации и стандартизации , когда обучим модель и будем делать на ней предсказание, нам в эту модель нужно подавать нормализованные или стандартизованные данные или в обычном формате? И если мы будем подавать в обученную модель нормализованные и стандартизованные данные, то как их переводить в прежний вид? Вот про это не было сказано.

@machine_learrrning Жыл бұрын

В обученную модель на масштабированных данных нужно подавать точно такие же масштабированные данные, только они будут новыми Перевести в обычный вид масштабированные данные можно применив к ним обратные преобразования, к примеру, для стандартизации нужно умножить на std и прибавив среднее арифметическое

@1dalgo 11 ай бұрын

А как действовать если на этапе обучения и тестирования, мы всё нормализовали, но в проде приходит значение которое не попадает в шкалу, и при transform(x), мы получаем значение >1?

@machine_learrrning 11 ай бұрын

Ничего страшного, что такое произойдет несколько раз, если это будет постоянно, тогда нужно будет собрать выборку с новыми значениями масштабируемого признака и снова обучить модель