Apache Spark

Apache Spark
Apache Spark
Тип	фреймворк, фреймворк поддержки машинного обучения[вд] и облачные вычисления
Разработчик	Apache Software Foundation
Написана на	Scala, Java, Python, R, SQL и Java Database Connectivity
Операционные системы	Windows, Linux и macOS
Первый выпуск	30 мая 2014 и 1 марта 2014
Аппаратная платформа	Java Virtual Machine
Последняя версия	3.5.1 (15 февраля 2024);
Репозиторий	github.com/apache/spark; gitbox.apache.org/repos/…
Читаемые форматы файлов:
Читаемые форматы файлов:
	JSON, CSV, текстовый файл, Apache Parquet[вд], Optimized Row Columnar[вд] и Apache Avro[вд]
Создаваемые форматы файлов:
Создаваемые форматы файлов:
	CSV, JSON, Apache Parquet[вд], текстовый файл, Optimized Row Columnar[вд] и Apache Avro[вд]
Лицензия	Apache License 2.0 и BSD
Сайт	spark.apache.org (англ.)
	Медиафайлы на Викискладе

Apache Spark (от

открытым исходным кодом для реализации распределённой обработки данных, входящий в экосистему проектов Hadoop. В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с хранением промежуточных данных на накопителях, Spark работает в парадигме резидентных вычислений — обрабатывает данные в оперативной памяти, благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач^[7], в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения^[8]

.

Проект предоставляет

Cassandra, Amazon S3

.

Ключевой автор — румынско-канадский учёный в области информатики

Apache 2.0, в 2014 году принят в число проектов верхнего уровня Apache. В 2022 году проект получил ежегодную премию SIGMOD в номинации «Системы»^[9]

.

Примечания

↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ https://projects.apache.org/json/projects/spark.json
↑ Release 3.5.1 — 2024.
↑ ¹ ² ³ ⁴ http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameReader
↑ ¹ ² ³ ⁴ ⁵ ⁶ http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter
↑ ¹ ² https://spark.apache.org/docs/latest/sql-data-sources-avro.html
↑ The apache-spark Open Source Project on Open Hub: Languages Page — 2006.
↑ Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ion. Shark: SQL and Rich Analytics at Scale (англ.) : journal. — 2013. — June. Архивировано 9 августа 2017 года.
↑ Matei Zaharia. Spark: In-Memory Cluster Computing for Iterative and Interactive Applications (англ.). Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale. Архивировано 15 июня 2016. Дата обращения: 1 октября 2017.{{cite AV media}}: Википедия:Обслуживание CS1 (location) (ссылка) Источник (неопр.). Дата обращения: 1 октября 2017. Архивировано 15 июня 2016 года.
ACM (10 мая 2022). Дата обращения: 27 мая 2022. Архивировано
15 июня 2022 года.

Литература

Х. Карау, Э. Конвински, П. Венделл, М. Захария. Изучаем Spark. Молниеносный анализ данных = Learning Spark: Lightning-Fast Big Data Analytics (O’Reilly, 2015). — ДМК Пресс, 2015. — 304 с. — ISBN 978-5-97060-323-9.
С. Риза, У. Лезерсон, Ш. Оуэн, Д. Уиллс. Spark для профессионалов: современные паттерны обработки больших данных = Advanced Analytics with Spark. Patterns for Learning from Data at Scale (O’Reilly, 2015). — Питер, 2017. — 272 с. — ISBN 978-5-496-02401-3.
Уоррен Р., Карау Х. Эффективный Spark. Масштабирование и оптимизация = High Performance Spark. Best Practices for Scaling and Optimizing Apache Spark. — Питер, 2018. — 352 с. — ISBN 978-5-4461-0705-6.

Ссылки

spark.apache.org — официальный сайт Apache Spark

[_cbdb3b2d0b695f05-1] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ https://projects.apache.org/json/projects/spark.json

[_ed2e2fb6f5b59b5d-2] Release 3.5.1 — 2024.

[_9eebb70dfdc67a47-3] ¹ ² ³ ⁴ http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameReader

[_7cec15bb793ce8c7-4] ¹ ² ³ ⁴ ⁵ ⁶ http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter

[_34778af7733edbfb-5] ¹ ² https://spark.apache.org/docs/latest/sql-data-sources-avro.html

[_cc32db3e63fbfb3a-6] The apache-spark Open Source Project on Open Hub: Languages Page — 2006.

[7] Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ion. Shark: SQL and Rich Analytics at Scale (англ.) : journal. — 2013. — June. Архивировано 9 августа 2017 года.

[8] Matei Zaharia. Spark: In-Memory Cluster Computing for Iterative and Interactive Applications (англ.). Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale. Архивировано 15 июня 2016. Дата обращения: 1 октября 2017.{{cite AV media}}: Википедия:Обслуживание CS1 (location) (ссылка) Источник (неопр.). Дата обращения: 1 октября 2017. Архивировано 15 июня 2016 года.

[9] ACM (10 мая 2022). Дата обращения: 27 мая 2022. Архивировано
15 июня 2022 года.

[6]

[1]

[2]

[3]

[4]

[5]

[7]

[8]

[9]

Ссылки на внешние ресурсы
Тематические сайты	Open Hub
Словари и энциклопедии	Большая китайская