Лекция 12. Boosting. Gradient boosting machine. Ключевые параметры модели

Лекция 10. Деревья классификации и регрессии

Лекция 7. XGboost. (Анализ данных на Python в примерах и задачах. Ч2)

Кто круче, как думаешь?

Уральские пельмени в Камеди 🥰 #ComedyClub #КамедиКлаб #овршоу #уральскиепельмени #тнт #харламов

Players push long pins through a cardboard box attempting to pop the balloon!

Теперь ты понял, кто Я такой | 5 серия | Сериал "ПрАкурор"

Лекция 12. Boosting. Gradient boosting machine. Ключевые параметры модели

Рет қаралды 17,549

Computer Science Center

Computer Science Center

Күн бұрын

Пікірлер: 26

@ukrosaur6910 3 жыл бұрын

Я поражен. Видел десятки объяснений метода максимального правдоподобия. Но это самое понятное. Вы мой проводник по миру машинного обучения. Огромное вам спасибо, Вадим Леонардович!

@icanfast 3 жыл бұрын

Спасибо за объяснение философии метода максимального правдоподобия, после нескольких лет я наконец понял откуда он берется 😤

@zhandosa77777 2 жыл бұрын

00:31:05 Метод максимального праводоподобия

@yummiem1811 5 жыл бұрын

супер!!!!

@MinisterDorado

@MinisterDorado Жыл бұрын

Жаль, что notebook с этой лекцией нет на сайте.

@sabbraxcaddabra

@sabbraxcaddabra 2 жыл бұрын

Здравствуйте! Не до конца понял как разница между фактическим значением отклика и предсказанным может быть любым числом в каком то промежутке, в задаче классификации. Ведь если на выходе f1 для какого то наблюдения получаем 1, а на деле там 0, то разве разница не 1(по модулю)? Или это работает только в случае бинарной классификации.

@Vadim_Abbakumov

@Vadim_Abbakumov 2 жыл бұрын

Происходит модификация задачи. Вместо распознавания кода класса распознается вероятность принадлежать классу. И на выходе может получаться любое число между 0 и 1

@sabbraxcaddabra

@sabbraxcaddabra 2 жыл бұрын

@@Vadim_Abbakumov Понял, спасибо Вам!

@КонстантинБогушев-т1ь

@КонстантинБогушев-т1ь 3 жыл бұрын

Существуют ли какие-то общие принципы оценки репрезентативности выборки? Как прикинуть ее сбалансированность и как это прикидка будет зависеть от объема данных? Или это все экспертные оценки аналитика и общего подхода в таких вещах нет?

@Vadim_Abbakumov

@Vadim_Abbakumov 3 жыл бұрын

Все есть, есть тесты, есть книги Гуглите что-то вроде Checking the Representativeness of a Sample

@Mikemacintosh-j4t

@Mikemacintosh-j4t 3 жыл бұрын

Вадим Леонардович, не могли бы вы объяснить, в чем смысл выборки валидации и чего мы хотим достичь с её помощью?

@Vadim_Abbakumov

@Vadim_Abbakumov 3 жыл бұрын

Подобрать внешние параметры (гиперпараметры). Подбирать на тестовом множестве неправильно.

@dronorange8595

@dronorange8595 3 жыл бұрын

@Вадим Аббакумов, а где вы преподаете?

@Vadim_Abbakumov

@Vadim_Abbakumov 3 жыл бұрын

Computer Science Center. Но основное место работы Газпром-нефть. В этом году еще читаю курс в ИТМО

@dronorange8595

@dronorange8595 3 жыл бұрын

@@Vadim_Abbakumov спасибо за ответ! Очень хорошие лекции, лучшее что я видел в интернете. Если я не ошибаюсь, csc это проект ШАДа? Большой привет с Екатеринбургского матмеха, приезжайте к нам на змш)

@Vadim_Abbakumov

@Vadim_Abbakumov 3 жыл бұрын

@@dronorange8595 Спасибо. За высокую оценку курса особенное спасибо. В CSC одно из отделений это Петербургский филиал ШАД, мой курс читается там. Уже год преподавание везде только из дому, все с записью курсов. Консультации по скайпу. Даже начал привыкать, думал никогда не смогу... Екатеринбургскому матмеху привет от Санкт-Петербургского матмеха. Несколько коллег ваши выпускники, классные ребята.

@ДмитрийЖ-п8ж 3 жыл бұрын

жаль что в прикрепленных файлах нет ноубука, там только 3 пдф статьи, было бы здорово создать репозиторий курса на гитхаб

@Vadim_Abbakumov

@Vadim_Abbakumov 3 жыл бұрын

Репозиторий скоро будет, в рамках новой версии курса, который сейчас записывается в ИТМО

@quantumwalk2069

@quantumwalk2069 2 жыл бұрын

@@Vadim_Abbakumov Здравствуйте Вадим Леонардович, Большое спасибо Вам за Ваши материалы. На 1:02:48 вы начинаете рассказывать о пользе того, что ответ может быть не знаю. Т.е. Вы получаете 3 класса - 1, 0, не знаю. Но в каких случаях это необходимо? Ведь классификатор всегда создаётся под конкретную задачу с новыми данными. Какой смысл в том, чтобы получить для новых данных ответ “не знаю”? Рассмотрим на примере конкретного кейса. В течении месяца во все отделения некоего банка поступило 2000 заявок на оформление кредита. Надо достаточно точно сказать, кому кредит может быть оформлен, а кому нет. Какой смысл в том, чтобы аналитик сказал: Вот этим 20% мы кредит оформить можем, вот этим 20% ни в коем случае. А вот про эти 60% (между прочим 1200 заявок) я сказать вообще ничего не могу. Если банк не хочет рисковать, то ведь можно просто поднять threshold и просто сказать, что кредит одобряем только тем, у кого МИНИМУМ 0.8 надёжности (это значение может вариироваться. И какой смысл в создании класса “не знаю”?

@ilyin_sergey Жыл бұрын

@@Vadim_Abbakumov если курс записан, можете дать ссылку на репозиторий?

@igorigor8128 4 жыл бұрын

Немного неясно в части GBN. Получили мы f1, f2, ...fn. А итоговый предсказанный Y - это сума результатов по всем f ? То есть, итоговый предсказанный Y = f1(x) + f2(x)+...+fn(x) ?

@Vadim_Abbakumov

@Vadim_Abbakumov 4 жыл бұрын

Так в XGBoost'e, а в GBM каждое дерево еще умножается на свое ро (см формулу 3), а затем еще на некоторую общую для всех деревьев лямбду. Только потом складываем.

@igorigor8128 4 жыл бұрын

@@Vadim_Abbakumov Большое спасибо за ответ.

@quantumwalk2069

@quantumwalk2069 2 жыл бұрын

Здравствуйте Вадим Леонардович, Большое спасибо Вам за Ваши материалы. На 1:02:48 вы начинаете рассказывать о пользе того, что ответ может быть не знаю. Т.е. Вы получаете 3 класса - 1, 0, не знаю. Но в каких случаях это необходимо? Ведь классификатор всегда создаётся под конкретную задачу с новыми данными. Какой смысл в том, чтобы получить для новых данных ответ “не знаю”? Рассмотрим на примере конкретного кейса. В течении месяца во все отделения некоего банка поступило 2000 заявок на оформление кредита. Надо достаточно точно сказать, кому кредит может быть оформлен, а кому нет. Какой смысл в том, чтобы аналитик сказал: Вот этим 20% мы кредит оформить можем, вот этим 20% ни в коем случае. А вот про эти 60% (между прочим 1200 заявок) я сказать вообще ничего не могу. Если банк не хочет рисковать, то ведь можно просто поднять threshold и просто сказать, что кредит одобряем только тем, у кого МИНИМУМ 0.8 надёжности (это значение может вариироваться. И какой смысл в классе “не знаю”?

@Vadim_Abbakumov

@Vadim_Abbakumov 2 жыл бұрын

В некоторых задачах смысла нет. А в некоторых есть. А аналитик думает и решает, нужно ли в его задаче использовать класс "не знаю". Например, если он формирует целевую аудиторию рекламной кампании, то класс "не знаю" сэкономит деньги его заказчику. Да и в банке в Вашем примере непонятные заявки можно передать на рассмотрение эксперту, кредитному менеджеру. Если таких заявок не 1200, а 60, это ему посильно. Кроме того, если в 60% случаев модель не знает, то ее стоит доработать. Ведь не знаю означает, что для таких заемщиков слишком велик процент ошибок. Кроме того, threshold должен определять не аналитик, а кредитный комитет.

@quantumwalk2069

@quantumwalk2069 2 жыл бұрын

@@Vadim_Abbakumov Большое спасибо за развёрнутый ответ!

Лекция 10. Деревья классификации и регрессии

1:43:19

Лекция 10. Деревья классификации и регрессии

Computer Science Center

Рет қаралды 25 М.

Лекция 7. XGboost. (Анализ данных на Python в примерах и задачах. Ч2)

1:18:43

Лекция 7. XGboost. (Анализ данных на Python в примерах и задачах. Ч2)

Computer Science Center

Рет қаралды 18 М.

Кто круче, как думаешь?

00:44

Кто круче, как думаешь?

МЯТНАЯ ФАНТА

Рет қаралды 6 МЛН

Уральские пельмени в Камеди 🥰 #ComedyClub #КамедиКлаб #овршоу #уральскиепельмени #тнт #харламов

00:58

Уральские пельмени в Камеди 🥰 #ComedyClub #КамедиКлаб #овршоу #уральскиепельмени #тнт #харламов

Comedy Club

Рет қаралды 7 МЛН

Players push long pins through a cardboard box attempting to pop the balloon!

00:31

Players push long pins through a cardboard box attempting to pop the balloon!

Daily Viral Brief

Рет қаралды 41 МЛН

Теперь ты понял, кто Я такой | 5 серия | Сериал "ПрАкурор"

22:48

Теперь ты понял, кто Я такой | 5 серия | Сериал "ПрАкурор"

Я ОТ САКЕ

Рет қаралды 692 М.

Тренировки по ML. Лекция 5: Градиентный бустинг, тонкости обучения

1:33:21

Тренировки по ML. Лекция 5: Градиентный бустинг, тонкости обучения

Young&&Yandex

Рет қаралды 8 М.

Лекция 9. Прогнозирование на основе регрессионной модели

1:01:42

Лекция 9. Прогнозирование на основе регрессионной модели

Computer Science Center

Рет қаралды 27 М.

Лекция. Градиентный бустинг

31:02

Лекция. Градиентный бустинг

Deep Learning School

Рет қаралды 27 М.

Градиентный Бустинг: самый частый вопрос на собеседовании на дата саентиста

52:29

Градиентный Бустинг: самый частый вопрос на собеседовании на дата саентиста

Глеб Михайлов

Рет қаралды 29 М.

Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы

1:15:04

Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы

Computer Science Center

Рет қаралды 150 М.

#42. Введение в бустинг (boosting). Алгоритм AdaBoost при классификации | Машинное обучение

18:35

#42. Введение в бустинг (boosting). Алгоритм AdaBoost при классификации | Машинное обучение

selfedu

Рет қаралды 9 М.

Лекция 7. A/B тестирование. Тест для пропорций

20:09

Лекция 7. A/B тестирование. Тест для пропорций

Computer Science Center

Рет қаралды 21 М.

Что такое градиентный бустинг? | Григорий Будорагин | karpov.courses

9:26

Что такое градиентный бустинг? | Григорий Будорагин | karpov.courses

karpov.courses

Рет қаралды 14 М.

Лекция 5. Проверка статистических гипотез (теоретическое введение)

2:36:30

Лекция 5. Проверка статистических гипотез (теоретическое введение)

Computer Science Center

Рет қаралды 48 М.

CatBoost - градиентный бустинг от Яндекса

1:20:53

CatBoost - градиентный бустинг от Яндекса

Computer Science Center

Рет қаралды 31 М.

Кто круче, как думаешь?

00:44

Кто круче, как думаешь?

МЯТНАЯ ФАНТА

Рет қаралды 6 МЛН