Дмитрий Кузьмин. Инженерия данных

#путь_de

🔥 2 недели учебы по программе Apache Spark позади! 🚀

За это время я узнал множество интересных и полезных вещей о Spark — мощном инструменте для работы с большими данными. Делюсь основными тезисами:

🔹 Spark — это больше, чем просто ETL-инструмент. Это полноценный фреймворк для обработки распределенных данных, который позволяет работать с огромными объемами информации и выполнять сложные вычислительные задачи.

🔹 Несмотря на частые упоминания Hadoop рядом со Spark, они не зависят друг от друга. Hadoop часто используется в качестве хранилища данных (HDFS), но Spark может работать с различными источниками данных и не требует Hadoop для своей работы.

🔹 HDFS не умеет выполнять операции объединения файлов (join и т.д.). Чтобы получить абстракции над файлами, такими как паркеты, и выполнять операции объединения, необходимо использовать Spark или другие инструменты.

🔹 Spark можно развернуть локально, в Kubernetes, YARN. Он также может работать с файловой системой обычного ПК, что делает его очень гибким и универсальным инструментом для обработки данных.

🔹 В Spark можно работать через DataFrames и Spark SQL. По сути, это два подхода к одной и той же задаче, и разницы в скорости выполнения между ними нет. Единственное отличие — при использовании Spark SQL сначала работает парсер, который разбивает SQL-запрос на составные части, а затем запрос обрабатывается так же, как и при использовании DataFrames.

🔹 Scala — язык программирования, используемый для интерпретации приложений Spark. Он позволяет получать исходный код и управлять работой Spark-приложений. Но стоит отметить, что Scala довольно сложен для понимания, особенно если это ваш первый язык программирования. Читается он сложнее Python, но писать на нем можно короче и компактнее!

Кроме того, мы провели лабораторную работу по считыванию данных из файла, их обработке и записи в JSON. Было довольно интересно погрузиться в практическое применение этих знаний! 🔍📊

Эти две недели дали мне отличное понимание того, как эффективно использовать Spark в проектах по обработке больших данных. Впереди еще много интересного!

🔥12👍3🤯2🤓1

784 views08:28