Apache Spark

Материал из Википедии — свободной энциклопедии
Apache Spark
Логотип программы Apache Spark
Скриншот программы Apache Spark
Тип фреймворк, фреймворк поддержки машинного обучения[вд] и облачные вычисления
Разработчик Apache Software Foundation
Написана на Scala[6][1], Java[1], Python[1], R[1], SQL[1] и Java Database Connectivity[1]
Операционные системы Windows, Linux и macOS
Первый выпуск 30 мая 2014 и 1 марта 2014[1]
Аппаратная платформа Java Virtual Machine
Последняя версия
Репозиторий github.com/apache/spark
gitbox.apache.org/repos/…
Лицензия
Apache License 2.0 и BSD
Сайт spark.apache.org (англ.)
Логотип Викисклада Медиафайлы на Викискладе

Apache Spark (от

открытым исходным кодом для реализации распределённой обработки данных, входящий в экосистему проектов Hadoop. В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с хранением промежуточных данных на накопителях, Spark работает в парадигме резидентных вычислений — обрабатывает данные в оперативной памяти, благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач[7], в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения[8]
.

Проект предоставляет

.

Ключевой автор — румынско-канадский учёный в области информатики

Apache 2.0, в 2014 году принят в число проектов верхнего уровня Apache. В 2022 году проект получил ежегодную премию SIGMOD в номинации «Системы»[9]
.

Примечания

  1. 1 2 3 4 5 6 7 https://projects.apache.org/json/projects/spark.json
  2. Release 3.5.1 — 2024.
  3. 1 2 3 4 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameReader
  4. 1 2 3 4 5 6 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter
  5. 1 2 https://spark.apache.org/docs/latest/sql-data-sources-avro.html
  6. The apache-spark Open Source Project on Open Hub: Languages Page — 2006.
  7. Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ion. Shark: SQL and Rich Analytics at Scale (англ.) : journal. — 2013. — June. Архивировано 9 августа 2017 года.
  8. Matei Zaharia. Spark: In-Memory Cluster Computing for Iterative and Interactive Applications (англ.). Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale. Архивировано 15 июня 2016. Дата обращения: 1 октября 2017.{{cite AV media}}: Википедия:Обслуживание CS1 (location) (ссылка) Источник. Дата обращения: 1 октября 2017. Архивировано 15 июня 2016 года.
  9. ACM (10 мая 2022). Дата обращения: 27 мая 2022. Архивировано
    15 июня 2022 года.

Литература

Ссылки