Эффективное использование Jupyter и PySpark на Hadoop для анализа больших данных| Технострим

  Рет қаралды 15,711

VK Team

VK Team

4 жыл бұрын

Самые значимые и интересные доклады от наших партнеров - известных отраслевых конференций, теперь доступны на канале "Технострим". У нас вы найдете 5-10 лучших докладов с прошедших конференций для программистов и разработчиков.
Доклады Moscow Python 2018.
Эффективное использование Jupyter и PySpark на Hadoop для анализа больших данных
Павел Тарасов (ЦИАН)
Руководитель отдела машинного обучения ЦИАН, кандидат физ.-мат. наук, ассистент на кафедре дискретной математики ФИВТ МФТИ.
Одно из самых важных в работе data scientist'а и аналитика - уметь быстро проверять гипотезы. Есть много информации, курсов, конкурсов, как построить хорошую модель. Но кому будет нужна ваша модель, если на ее построение уйдут месяцы? А если вы не сможете быстро из модели собрать прототип?
Бывают простые гипотезы:
* Есть ли нужные данные?
* Как их загрузить из другого источника?
* Достаточно ли их, и корректны ли они?
* Можно ли на них обучить модель, каково ее качество?
Бывают гипотезы сложнее:
* Что, если нужно применить сложную самописную функцию к большому количеству объектов?
А теперь еще добавим, что все задачи необходимо решать не просто на продакшн-кластере, но там, кроме вас, работают еще человек 10 (или 50...).
Я расскажу, как действительно быстро проверять такие гипотезы на Jupyter и PySpark, какими дополнительными инструментами пользоваться и как не подраться с продом и коллегами за ресурсы.
___
ТЕХНОСТРИМ - образовательный канал для IT специалистов.
___
ПОДПИСЫВАЙСЯ, ЕСЛИ ТЕБЕ ИНТЕРЕСНО УЗНАТЬ:
✔ как наши преподаватели - топовые специалисты Mail.Ru Group руководят разработкой в таких проектах, как Почта, ВКонтакте, Облако, Maps.me, Одноклассники, и решают сложные задачи каждый день
✔ реальные примеры из практики с анализом их достоинств и недостатков
✔ современные технологии, которые применяются в проектах-лидера Рунета
✔ о митапах, мастер-классах, вебинарах и других мероприятиях, которые проводятся на базе вузов и Mail.Ru Group.
Нажмите здесь для подписки ‣ kzbin.info?sub_con...
Все наши лекции проходят в ведущих вузах страны: МГУ, МГТУ, МФТИ, МИФИ, СПбПУ.
___
ТЫ СТУДЕНТ?
Вступай в наши образовательные проекты и участвуй в чемпионатах. Лучшие студенты получают возможность стажировки в Mail.Ru Group. Отбор - каждые полгода!
Технопарк при МГТУ им. Баумана ‣ park.mail.ru
Техносфера при МГУ им. Ломоносова ‣ sphere.mail.ru
Технотрек при МФТИ ‣ track.mail.ru
Техноатом при МИФИ ‣ technoatom.mail.ru/
Технополис при СПбПУ ‣ polis.mail.ru
Чемпионаты для программистов ‣ cups.mail.ru/
Mail.Ru Group для образования ‣ mrgforedu

Пікірлер
Про Kafka (основы)
49:23
Владимир Богдановский
Рет қаралды 352 М.
How I prepare to meet the brothers Mbappé.. 🙈 @KylianMbappe
00:17
Celine Dept
Рет қаралды 45 МЛН
Разбудила маму🙀@KOTVITSKY TG:👉🏼great_hustle
00:11
МишАня
Рет қаралды 3,9 МЛН
Can You Draw The PERFECT Circle?
00:57
Stokes Twins
Рет қаралды 88 МЛН
PySpark Tutorial for Beginners
48:12
coder2j
Рет қаралды 45 М.
Пришёл Intern - оказался JUNIOR Strong / Интервью на позицию DevOps Engineer / Мок собес  / 1
1:36:38
Алексей Зиновьев - Kafka льёт, а Spark разгребает!
1:07:48
Евгений Борисов - Spring Patterns
56:38
TechTrain
Рет қаралды 126 М.
The ONLY PySpark Tutorial You Will Ever Need.
17:21
Moran Reznik
Рет қаралды 117 М.
How I prepare to meet the brothers Mbappé.. 🙈 @KylianMbappe
00:17
Celine Dept
Рет қаралды 45 МЛН