Apache Spark from scratch: RDDs, Aplicaciones, Broadcast y acumuladores

  Рет қаралды 11,038

NullSafe Architect

NullSafe Architect

Күн бұрын

Continuamos con la serie de vídeos sobre Apache Spark y hoy nos centraremos en los RDDs, lanzar aplicaciones y las variables broadcast y los acumuladores.

Пікірлер: 22
@rene2582
@rene2582 8 ай бұрын
te agradezco por tus videos y los comparto lo más que puedo pero por favor estudia algo de inglés, primero porque todos lo que tu usas está en inglés y segundo porque es triste oirte pronunciar "como se escribe".
@carloscorredor7542
@carloscorredor7542 2 ай бұрын
Este señor es una bendición
@javiersuarez8604
@javiersuarez8604 3 жыл бұрын
Muchas gracias Alberto por compartir tus conocimientos con nosotros. Suena bien el video de la API de ML :-)
@miguelurgiles8393
@miguelurgiles8393 2 жыл бұрын
Excelente tutorial, muy agradecido
@franciscoadanarias9967
@franciscoadanarias9967 3 жыл бұрын
Muchas gracias, de gran ayuda. Éxito!
@VicenteSánchezRincón
@VicenteSánchezRincón Жыл бұрын
Genial vídeo amigo
@franciscochacon4319
@franciscochacon4319 10 ай бұрын
Creo, sin haberlo compilado ni nada, que lo de hacer el flatMap en el minuto 12:49 es innecesario. Yo creo que te da el mismo resultado si empleas un map. El product_id no es un array ni nada por el estilo, entonces no veo necesario hacer el flatmap. Te va a salir el mismo número de registros lo hagas con map o flatmap, o eso creo. Contestame si puedes, estoy muy intrigado con esto mismo. Entiendo la diferencia entre ambos, pero en este caso concreto creo que no hace falta usar flatmap.
@pablomosquera321
@pablomosquera321 3 жыл бұрын
Buen video Albert, mucho ánimo y gracias por la info!
@pedroangel5974
@pedroangel5974 2 жыл бұрын
"Otro" tutorial estupendo para seguir trasteando y aprendiendo con Spark. La duración de los tutoriales es un puntazo porque no acabas saturado y que la lección sea autocontenida facilita mucho las cosas. Muy fan de estos tutoriales.
@melinaballario2649
@melinaballario2649 2 жыл бұрын
muy buenas tus explicaciones, pero creo que deberias hacer el tutorial en jupyter notebook que es la herramienta mas usada para ciencia de datos. Es incomodo verlo en la consola
@mdchaparror10
@mdchaparror10 3 жыл бұрын
Muchas gracias, excelente video
@andresperezdominguezx5108
@andresperezdominguezx5108 3 жыл бұрын
Me ha encantado Albert, sigue así
@asesoresoropeza
@asesoresoropeza 7 ай бұрын
genial tus videos
@cjbarroso
@cjbarroso Жыл бұрын
Gracias
@lmarquez2023
@lmarquez2023 3 жыл бұрын
¿Qué ventajas nos da RDD para procesamiento vs DataFrames?
@NullSafeArchitect
@NullSafeArchitect 3 жыл бұрын
Los RDD se procesan en paralelo en distintas máquinas del cluster, es mucho mas escalable.
@istorboi
@istorboi 2 жыл бұрын
@@NullSafeArchitect No estoy conforme contigo, los data frame también se procesan en paralelo y de manera distribuida. los RDD salieron con la version Spark 1.0 y posteriormente sacaron los data frames (v1.3) y dasta set (v.16). El uso de los RDD va quedando desfasado. Los Data sets proporcionan lo mejor de RDD y Dataframe: RDD (programación funcional, tipo seguro), DataFrame (modelo relacional, optimización de consultas, ejecución de tungsteno, clasificación y barajado)
@omaroto
@omaroto Жыл бұрын
@NullSafeArchitect @@istorboi Buenas, así es. Venia buscando una aclaración en los comentarios ya que en este video se dice que solo los RDD se procesan de forma distribuida entre las máquinas del cluster. En la documentación se entiende que la estructura Dataset también se procesa de esta forma, además del resto de estructuras que manipula Spark, junto con las versiones en que se implementó como dice el comentario anterior. Me alegro de haber encontrado la confirmación aqui. Mi comentario es para consolidarla, no para recalcar un error que cualquiera puede cometer al grabar bien por desconocimiento, confusión o distracción. Para completar, además los Dataset también pueden ser almacenados (no solo procesados) de forma distribuida en las memorias del cluster. Gracias por el contenido, esperamos más con mucha ilusión ; ).
@DiegoAGM1086
@DiegoAGM1086 3 жыл бұрын
Me imagino creando un makefile con estos comandos así solo hacemos: make comando y listo, bueno cuando sea aplicable jeje
@gonzalosurribassayago4116
@gonzalosurribassayago4116 3 жыл бұрын
Excelente
@cascossi809
@cascossi809 3 жыл бұрын
Jupyter
@edvargas2009
@edvargas2009 Жыл бұрын
Buen día, genial el tema, genial la forma como lo explicas; encontré un error siguiendo el tutorial el lines.collect()...alguna idea? 22/12/15 14:59:12 ERROR Executor: Exception in task 8.0 in stage 12.0 (TID 207) org.apache.spark.api.python.PythonException: Traceback (most recent call last):
Ciencia de datos con PySpark: Proceso de datos en Streaming
15:25
NullSafe Architect
Рет қаралды 9 М.
DataScience con PySpark I: Apache Spark, Python, DataFrames y RDDs
32:13
NullSafe Architect
Рет қаралды 46 М.
when you have plan B 😂
00:11
Andrey Grechka
Рет қаралды 67 МЛН
ДЕНЬ УЧИТЕЛЯ В ШКОЛЕ
01:00
SIDELNIKOVVV
Рет қаралды 2,9 МЛН
когда не обедаешь в школе // EVA mash
00:57
EVA mash
Рет қаралды 3,7 МЛН
Big Data | Procesar ficheros de datos JSON y CSV en Bash, Python y Java
23:18
Apache Spark - Capítulo 1. ¿Qué es Apache Spark?
48:25
Data Engineering Latam
Рет қаралды 11 М.
Data Science desde 0: Analítica de datos Big Data con Apache Spark
28:21
NullSafe Architect
Рет қаралды 56 М.
Como montar un cluster de Apache Spark
17:12
NullSafe Architect
Рет қаралды 13 М.
Implementación de arquitecturas hexagonales
37:10
NullSafe Architect
Рет қаралды 57 М.
Introducción a PySpark
1:16:53
Python Colombia
Рет қаралды 4,7 М.
Introducción práctica a Spark SQL - Paradigma Digital
41:30
Paradigma Digital
Рет қаралды 9 М.
Apache Spark Executor Tuning | Executor Cores & Memory
44:35
Afaque Ahmad
Рет қаралды 11 М.