ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ

  Рет қаралды 25,794

DataLearn

DataLearn

2 жыл бұрын

На вебинаре хочу рассказать про появление Apache Spark, его применение в современном стеке дата-инструментов, а также на практике показать как запустить Spark на своём компьютере и написать первый ETL пайплайн!
🔔 План:
📌 Как и почему появился Apache Spark
📌 Какие задачи решает
📌 Основные концепции
📌 Практика 1 - установка и запуск PySpark локально
📌 SparkSQL API
📌 Практика 2 - делаем ETL в PySpark
📌 Q&A
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить новые видео и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале datalearn.ru/
👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.

Пікірлер: 52
@ManticoreRoko
@ManticoreRoko 10 ай бұрын
Великолепный материал для тех кто только начинает погружаться в PySpark. Благодарности ведущему и основателям канала
@illiakaltovich
@illiakaltovich Жыл бұрын
Отличная вводная лекция по Spark 🙂 Таймкоды: 1:38 - План вебинара 3:05 - Для кого этот вебинар 3:48 - О спикере 5:00 - Начало. Пример задачи, под которую заточен Spark 11:59 - Что такое Spark? 17:36 - Модель распределенных вычислений в Spark 22:40 - Нужен ли Spark’y Hadoop? 22:25 - Практика. Установка Spark локально 27:04 - Установка Pyspark из pip 35:15 - Запуск Spark из Docker 38:26 - Запуск Spark в Google Colab 45:35 - Обзор собранной статистики о слушателях 46:00 - Q&A сессия 51:08 - Про режимы работы Spark 54:02 - Что можно делать в PySpark? 56:24 - Компоненты PySpark приложения 1:05:54 - Подробнее о DataFrame 1:08:41 - Читаем данные в DataFrame 1:15:08 - О трансформации данных 1:17:26 - О записи данных 1:18:54 - SQL в Spark 1:23:26 - Практика. DataFrame API 2:24:39 - DataFrame API: основные методы в использовании 2:25:36 - SQL functions: основные методы в использовании 2:27:40 - Общие принципы Spark приложения 2:34:08 - Q&A сессия
@annicioua
@annicioua Жыл бұрын
Спасибо тебе добрый человек =)
@olegzaba4756
@olegzaba4756 2 жыл бұрын
вообще классно всё объяснил - 3 часа как одно мгновение ... очень жду продолжение!
@user-jy9iw9no5q
@user-jy9iw9no5q 2 жыл бұрын
Лучшая вводная лекция, которую я видел. Но, ребята, что за звук? 2021й год и треск микрофона?! Вы серьезно?)
@user-xl1zq2ic5f
@user-xl1zq2ic5f 2 жыл бұрын
Сильный спикер, спасибо!
@bbbkkk930
@bbbkkk930 6 ай бұрын
хороший эфир ... авторам спасибо
@user-ms9sv3tz4o
@user-ms9sv3tz4o Жыл бұрын
Кайфовый вэбик. Вы как всегда на уровне бог. Спасибо Олегу!
@sergeystrikanov2302
@sergeystrikanov2302 2 жыл бұрын
Большое спасибо! Очень круто для понимания и знакомства с PySpark.
@anastasiyaivanova6992
@anastasiyaivanova6992 2 жыл бұрын
Спасибо, очень полезная информация для ознакомления с PySpark. Как раз то что было нужно.
@petrodyak
@petrodyak Жыл бұрын
Thanks for the introduction to the PySpark! It was very useful.
@user-zo6cz2er8k
@user-zo6cz2er8k 2 жыл бұрын
Спасибо, долго искал что-то подобное на ру-ресусрах)
@igorbulenko6335
@igorbulenko6335 2 жыл бұрын
Спасибо, очень круто, хотелось бы продолжения ))
@aliaksandrsiamenau9922
@aliaksandrsiamenau9922 Жыл бұрын
Замечательный стрим, спасибо
@faizalimuhammadzoda4731
@faizalimuhammadzoda4731 2 жыл бұрын
Спасибо за хороший контент.
@salivona
@salivona 2 жыл бұрын
Очень здорово, спасибо!
@254598
@254598 2 жыл бұрын
Ребята вы лучшие! Купила курс на gb, в итоге модуль про спарк изучаю по вашему видео)
@itrunner
@itrunner 2 жыл бұрын
Очень крутой доклад!
@vandriichuk
@vandriichuk 2 жыл бұрын
Спасибо. Для меня очень полезный материал. Особенно ценно, что на русском.
@elazul8363
@elazul8363 2 жыл бұрын
Отличный доклад! Гораздо лучше всяких индусов
@denisbaranoff
@denisbaranoff 2 жыл бұрын
Прекрасно, это прям ну очень просится па мастеркласс по пайспар в какой- нибудб юдеми👍👍👍
@nikitakrutikov9697
@nikitakrutikov9697 2 жыл бұрын
Респектище, помогло очень
@gpankov
@gpankov 4 ай бұрын
лучшее объяснение!
@user-zl3rb8rr3t
@user-zl3rb8rr3t 2 жыл бұрын
Шикарно
@lerosh7894
@lerosh7894 7 ай бұрын
вебинар огонь
@Vanzer77
@Vanzer77 2 жыл бұрын
Отличное видео для начала работы с PySpark! Есть вопрос по части, где нужно посчитать статистики по полю manufacturer_name. Из моего опыта с СУБД и Pandas, очень плохой тон делать группировки по текстовым полям - они работают значительно медленнее чем по целочисленным полям / датам. Понимаю, что в видео поле manufacturer_name было выбрано для примера, но как в целом у спарка обстоят дела с группировкой по тестовым колонкам?
@annicioua
@annicioua Жыл бұрын
Как жаль, что ведущий вебинара не рассказал, что просто так ты не заинсталлишь Spark через pip install , если не создашь специальные системные переменные среды, а у лектора всё уже готовенько, а у него pyspark к моменту записи вебинара уже давно установлен был..
@maksimkuznetsov2132
@maksimkuznetsov2132 Жыл бұрын
Интересно было бы ещё узнать, где чаще всего бывают затыки по производительнсти.
@qweras79
@qweras79 8 ай бұрын
Привет. Спасибо большое за видео. Можно вопрос, будь ласка? я попробовала работать в сессии Спарка прямо из Визуал Студио Код - єто очень неудобно по ряду причин. Установила взяла отдельно Юпитер. но сессия Спарка в Юпитера не запускается. Єто невозможно или я что-то делаю не так?
@maksimkuznetsov2132
@maksimkuznetsov2132 Жыл бұрын
Спасибо большое! По ETL вообще мало чего есть в русскоязычном сегменте ютуба. На мой взгляд лучший способ передачи опыта - видео. Питон немного изучал. Сейчас я PL/SQL разработчик, но думаю смещаться в ETL. Дико привык к SQL. И все эти методы кажатся извращением. Вообще БД-шные спецы плюются на спарк и ORM
@529aff
@529aff 2 ай бұрын
в spark можно писать и на sql
@Asylum_M
@Asylum_M 2 жыл бұрын
Спасибо, а когда продолжение? На ютубе одни вводные лекции для pyspark, а хотелось бы более глубокого погружения.
@maksimkuznetsov2132
@maksimkuznetsov2132 3 ай бұрын
Привет. Кстати, как успехи с пайспарком? Вообще мне показалось, что всего, что тут есть хватит для старта карьеры в этом стэке. Сейчас пытаюсь стартовать в этом имея за плечами большой опыт на SQL и материал этого видео. ))
@maksimsvirskiy6828
@maksimsvirskiy6828 2 жыл бұрын
Огромное спасибо - было очень понятно! а где посмотреть презентацию и ссылки все на гит и т.д.?!
@Frezer911
@Frezer911 9 ай бұрын
В чатике трансляции
@dmitryanoshin8004
@dmitryanoshin8004 2 жыл бұрын
Очень круто! Добавим к модулю 7 DE-101!
@anton108
@anton108 2 жыл бұрын
ты забыл вставить ссылку в GIT
@volodink
@volodink Ай бұрын
А ссылку на гитхаб в коменты скиньте пожалуйста😅
@Egor-sm4bl
@Egor-sm4bl 2 жыл бұрын
Хм, а у меня сразу сохранило в одном файле json.... Что-то не так сделал?
@antonboiko788
@antonboiko788 Жыл бұрын
Драйвер не распределяет данные между экзекьюторами, это делает Cluster manager
@imoldpirate
@imoldpirate 7 ай бұрын
норм
@cozyfootball
@cozyfootball 5 ай бұрын
Очень много водяных рассуждений ни о чем. Очень много бэ, мэ, эээ. "Я рассказываю так быстро" - ты серьзно?
@529aff
@529aff 2 ай бұрын
запишешь лучше?
Что такое Apache Spark
16:20
Школа Больших Данных
Рет қаралды 15 М.
когда одна дома // EVA mash
00:51
EVA mash
Рет қаралды 10 МЛН
YouTube's Biggest Mistake..
00:34
Stokes Twins
Рет қаралды 58 МЛН
Trágico final :(
01:00
Juan De Dios Pantoja
Рет қаралды 16 МЛН
PySpark Tutorial for Beginners
48:12
coder2j
Рет қаралды 40 М.
Как стать Дата Инженером (Data Engineer)
31:34
Apache Spark Installation on Anaconda video(PySpark)
17:58
Manoj Kumar
Рет қаралды 9 М.
Что такое Kubernetes за 9 минут
9:55
Listen IT
Рет қаралды 47 М.
когда одна дома // EVA mash
00:51
EVA mash
Рет қаралды 10 МЛН