Spark
Un étude de la technologie Spark est en cours au LAL, ou plus précisément dans la cadre de l’Université PSud et de l’appel d’offre ERM/MRM qui a été soumis et accepté le 21 octobre 2016.
Le projet Equipement de Recherche Mutualisé
L’objectif du projet est de fournir un environnement d’expérimentation réaliste des traitements dits «Big Data», intégré dans la plate-forme Cloud@VirtualData. Cloud@VirtualData est une infrastructure d’informatique scientifique, au double sens de calcul et de données. L’Université Paris-Sud a engagé une action de mutualisation interdisciplinaire, qui s’intègre dans une réflexion globale sur les modèles de traitement informatique dans son périmètre et dans le contexte de Paris- Saclay. Cette réflexion a mis en évidence l’intérêt d’un modèle de production basé sur une technologie cloud ainsi que d’un modèle d’exploitation décentralisé. La période précédente a en particulier mis à disposition un environnement d’informatique en nuage : Cloud@VirtualData.
L’équipement demandé permettra de créer des clusters Spark à la demande sous forme de machines virtuelles à l’intérieur du nuage Cloud@VirtualData. Le modèle de calcul Spark, récent, est devenu un standard de facto dans le monde économique comme dans la recherche, pour le traitement des données à toutes les échelles. Cet équipement permettra à l’Université de renforcer son rôle moteur dans la stratégie DataCenter de Paris Saclay. Il est cohérent avec la stratégie de mutualisation des ressources mise en oeuvre par l’Université Paris-Sud.
Historique
Suite à la journée LoOPS qui a été organisée en avril 2016, a été mise en place une expérimentation sur la technologie Spark au LAL.
Puis le projet ERM décrit plus haut a rassemblé plusieurs équipes multidisciplinaires de l’Université PSud pour explorer les potentialités de Spark dans différentes thématiques de recherches dont l’astrophysique via l’expérience LSST au LAL.
L’équipe autour de Guillaume Philippon s’implique désormais pour organiser et étudier les aspects technologiques de Spark sur la plateforme OpenStack de VirtualData (gestion des ressources pour une approche multi-cluster, optimisation de la gestion disque autour des technologies Ceph/Hadoop)
Ressources documentaires
Un Wiki Spark a été déployé pour collecter la documentation Spark dans le contexte du projet ERM/MRM
Vous y trouverez de la documentation sur Spark proprement dit, et les informations sur les actions entreprises dans le cadre du projet ERM
Ecole Spark mars 2017
Une école de 2 jours (14 et 15 mars 2017) est en préparation au LAL essentiellement pour les acteurs de l’ERM. Mais l’école sera aussi ouverte (dans limite des places disponibles) aux développeurs du LAL.