Отличное поверхностное руководство по пользованию api spark, браво.
@artem-31410 ай бұрын
Спасибо
@SergiusBfg8 ай бұрын
Читать она иочно умеет
@sergka3626Ай бұрын
Это отвратительно, я про pyspark. Боженька дал вам sql, а вы используете pyspark. Все эти задачи можно решить на sql, гораздо проще и лаконичнее. За видео спасибо
@valium202020 күн бұрын
SQL - это, конечно, здорово для простых запросов. Но если тебе нужно работать с большими данными, обучать модели или делать сложные ETL-процессы, то SQL тебе не поможет. PySpark - позволяет использовать все возможности Python, масштабировать вычисления на кластере и даже обучать модели на данных, которые не помещаются в память одного компьютера. Представь, что тебе нужно обработать данные в реальном времени из потока, например, из Kafka, и сразу же применять сложные алгоритмы обработки. SQL просто не справится с такой задачей. PySpark же позволяет интегрироваться с Kafka, обрабатывать данные в потоке и использовать библиотеки Python для анализа и обучения.