Spark est un système informatique distribué open source et polyvalent utilisé pour le traitement des mégadonnées et l'apprentissage automatique. Il fournit des interfaces pour les langages de programmation comme Scala, Java, Python et R.
Développé à l'UC Berkeley AMPLab en 2009 comme un projet de recherche.
Il est devenu un projet Apache Incubator en 2012.
Diplômé pour devenir un projet Apache Top-Level en 2014.
Spark 1.0 est sorti en 2014 et la dernière version est Spark 3.1, sortie en 2021.
Un framework logiciel open-source pour le stockage et le traitement distribués de mégadonnées en utilisant le modèle de programmation MapReduce.
Service Web qui fournit un framework Hadoop géré sur Amazon Web Services et s'intègre à d'autres services AWS.
Un service cloud rapide, facile à utiliser et entièrement géré pour l'exécution de clusters Apache Spark et Apache Hadoop, et s'intègre à d'autres services Google Cloud.
Un système informatique distribué open-source à usage général.
Un module Spark pour le traitement de données structurées qui peut lire des données provenant de diverses sources structurées et s'intègre aux bibliothèques d'apprentissage automatique et de traitement de graphiques de Spark.
Un module Spark pour le traitement en temps réel des données en streaming, permettant un traitement évolutif et tolérant aux pannes des flux de données en direct.
Un module Spark qui fournit des algorithmes et des utilitaires d'apprentissage automatique distribués.
Spark est un système informatique distribué open-source qui fournit des interfaces pour les langages de programmation comme Scala, Java, Python et R, et peut être utilisé pour le traitement de données volumineuses et l'apprentissage automatique.
Certains avantages de l'utilisation de Spark sont sa vitesse de traitement rapide, sa capacité de traitement des données en mémoire, sa tolérance aux pannes et sa compatibilité avec divers langages de programmation et sources de données.
Spark est une alternative plus rapide et plus flexible à Hadoop MapReduce car il effectue le traitement des données en mémoire, ce qui élimine le besoin d'écrire des données sur le disque, et il prend en charge le traitement en temps réel des données en streaming.
Certains cas d'utilisation courants pour Spark sont le traitement de données volumineuses, l'apprentissage automatique, le traitement en temps réel des données en streaming, le traitement de graphiques et l'analyse de données.
De nombreuses grandes entreprises utilisent Spark, notamment IBM, Amazon, eBay, Yahoo et Alibaba, ainsi que de nombreuses startups et institutions de recherche.