DATALEARN | DE - 101 | МОДУЛЬ 7-2 ЧТО ТАКОЕ APACHE SPARK

  Рет қаралды 8,111

DataLearn

DataLearn

Жыл бұрын

Apache Spark является самый популярным инструментом среди инженеров данных, аналитиков и инженеров машинного обучения. Его главная задача это обработка данных. С помощью Spark можно подключаться к любому источнику данных, читать большие данные и обрабатывать их в оперативной памяти с использованием распределенного вычисления (distributed computing).
В этом видео:
📌 Узнаем история Apache Spark
📌 Посмотрим примеры архитектур с использованием Spark
📌 Разберемся когда его можно использовать
📌 Узнаем про основные компоненты
📌 Узнаем, обозначает термин Unified Analytics
В 7м модуле мы познакомимся с open source решением для аналитики и инжиниринга данных - Apache Spark и его коммерческой версией Databricks. Вы узнаете примеры использования в индустрии и популярные use cases. Я расскажу о своем опыте с Apache Spark в Амазоне и Майкрософт и научу вас работать с данными с помощью PySpark и Spark SQL, покажу вам лучшие книги и материалы по Spark.
В этом видео еще узнаете про Whistler, BC;)
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале datalearn.ru/
👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.
🔥Самые актуальные новости про аналитику в Telegram канале: t.me/rockyourdata

Пікірлер: 10
@vladimirnovickiy2927
@vladimirnovickiy2927 5 ай бұрын
спасибо за труд, по data очень мало качественного контента. На одном из проектов работал с Databricks и юзал pyspark и могу сказать, что это очень мощный, удобный тул для data processing. Однако столкнулся с тем, что на собесах часто спрашивают подкапотку спарка и тут уже имеются пробелы, это видео помгло систематизировать знания и заполнить гэпы. Касательно RDD, dataframe and dataset в документации очень поверхам всё это описано и нет четкого понимая их применения, на практике же используются dataframe для всех манипуляций. лайк и подписка!
@wardog5260
@wardog5260 Жыл бұрын
Добрый день. Благодарю за ваш труд. Несмотря на изобилие информации в интернете, очень редко найдёшь действительно полезную.
@dmitryanoshin8004
@dmitryanoshin8004 Жыл бұрын
То что доктор прописал😊
@teo5998
@teo5998 Жыл бұрын
Отлично! Всегда рад новым выпускам! Спасибо, что не забываете о нас!
@alexanderseleznev7150
@alexanderseleznev7150 Жыл бұрын
Спасибо большое , ждали !!!
@andreymatveev7556
@andreymatveev7556 Жыл бұрын
Спасибо за выпуск
@perestal621
@perestal621 Жыл бұрын
Clear explanation with hands on experience! Thank you, teacher!🎉
@user-zd6sf8zo5y
@user-zd6sf8zo5y 10 ай бұрын
RDD - некий аналог распределенной оперативной памяти.
@pythondeveloper390
@pythondeveloper390 Жыл бұрын
Дождался!
@Luke-sl8ry
@Luke-sl8ry Жыл бұрын
Pᵣₒmₒˢᵐ 💘
Apache Spark / PySpark Tutorial: Basics In 15 Mins
17:16
Greg Hogg
Рет қаралды 137 М.
ELE QUEBROU A TAÇA DE FUTEBOL
00:45
Matheus Kriwat
Рет қаралды 9 МЛН
Кәріс тіріма өзі ?  | Synyptas 3 | 8 серия
24:47
kak budto
Рет қаралды 1,7 МЛН
Что такое Apache Spark
16:20
Школа Больших Данных
Рет қаралды 15 М.
015. Apache Spark - Егор Пахомов
31:51
Yandex for Developers
Рет қаралды 9 М.
Learn Apache Spark in 10 Minutes | Step by Step Guide
10:47
Darshil Parmar
Рет қаралды 235 М.
Про Kafka (основы)
49:23
Владимир Богдановский
Рет қаралды 352 М.