Les machines du laboratoire sont toutes “à priori” volontaires pour participer à la plate-forme XtremWeb.
Un simple mail à “xtremweb /a|t lal.in2p3.fr” suffit toutefois pour décliner toute participation.Cet article décrit les conditions de déploiement de la plate-forme sur les machines du LAL. XtremWeb est une plate-forme de calcul global dans laquelle le laboratoire a fortement investi, afin de trouver de nouvelles ressources de calcul. Ce type de plate-forme entre dans la famille des grilles de calcul, mais s’appuie sur le volontariat pour agréger des ordinateurs individuels afin de proposer à tous un nouveau service de calcul.
Après plusieurs années de recherche et de développement aujourd’hui achevées, nous entrons dans la phase de déploiement et de mise en production.
Une communauté de volontaires
La plate-forme est obtenue en agrégeant des ordinateurs individuels hétérogènes qui peuvent être sous Windows ou Linux, mais aussi sous Mac OS X.
Ces ordinateurs ne sont pas des machines dédiées au calcul, mais bien des ordinateurs de bureau prêtés par leur propriétaire respectif qui en garde l’entier usage et définit individuellement les conditions de prêt. Par exemple, un propriétaire peut choisir de prêter son CPU quand lui même ne l’utilise pas : quand il n’utilise ni son clavier ni sa souris, ou encore quand l’écran de veille se met en route. On peut aussi définir des plages horaires de prêt : par exemple, la nuit, de 20h à 6h du matin, ou encore le week end, ou même les deux. Au LAL, la politique de prêt définie par défaut est celle de la nuit et des week end. En effet, les tâches de physique prennent fréquemment plusieurs heures de calcul et il est préférable de pouvoir se réserver une plage de temps suffisamment longue et contiguë.
Les machines empruntées selon la politique définie sont automatiquement rendues dès que les conditions de prêt ne sont plus remplies : le propriétaire bouge sa souris, ou bien la plage horaire est dépassée. S’il y avait un calcul en cours, il est immédiatement arrêté ; le CPU est libéré, ainsi que la mémoire et l’éventuel espace disque.
Les ordinateurs portables sont un cas un peu spécial et seront traités différemment. Il est probable que ce type de machine ne réponde pas aux exigences du calcul de la physique des hautes énergies (insuffisance de puissance, de mémoire ou de disque ; déconnexions trop fréquentes relativement au temps de calcul…). Ces machines seront malgré tout intégrées à notre plate-forme, mais avec une politique de prêt « nulle », n’autorisant pas l’utilisation du CPU. Ce mode de fonctionnement peut paraître surprenant ; il nous permettra toutefois de tester l’endurance de notre plate-forme en augmentant le nombre et la fréquence des connexions. Ainsi, les ordinateurs portables « stresseront » notre plate-forme sans jamais lui apporter aucun concours (i.e. sans jamais prendre en charge aucun calcul).
Par défaut, toutes les machines du LAL sont déclarées candidates au prêt pour notre nouvelle ressource de calcul. Un simple courrier électronique à « xtremweb /a|t lal.in2p3.fr »
cette adresse est volontairement incorrecte afin d’éviter les spams; merci de remettre l’arobase à sa place 🙂
suffit toutefois pour décliner toute participation.
Un site web, ainsi qu’un forum ont été ouverts.
Un nouveau service
L’intérêt de construire une telle plate-forme réside dans l’utilisation de la puissance potentielle que représentent les ordinateurs individuels disséminés au sein du laboratoire. Notre plate-forme permet de gérer cette puissance potentielle et de la mettre au service de tous sans la détourner de sa destination première : rester à l’entière disposition de leur propriétaire respectif.
Du point de vue de l’utilisateur, ce nouveau service peut être vu comme un nouveau cluster de calcul. Les utilisateurs ont à leur disposition un service client permettant de soumettre des tâches de calcul, de surveiller leur évolution et de récupérer les résultats obtenus. Ce service client est un service « nomade » qui peut être installé sur n’importe quel ordinateur, même portable, et exécuté de n’importe où pour peu qu’il soit connecté à l’Internet. On peut très bien soumettre des tâches du bureau, sur une machine, puis les surveiller depuis une machine personnelle, à la maison ou en déplacement, et même en récupérer les résultats intermédiaires, et plus tard, les résultats finaux. Les tâches et leurs résultats sont gardés par la plate-forme tant que l’utilisateur ne les efface pas explicitement. On comprend malgré tout qu’une politique doit être mise en place afin d’éviter l’engorgement ; le serveur XtremWeb ne peut (et ne doit pas) être considéré comme un espace de stockage. Les résultats ne sont donc gardés qu’une semaine ; après quoi, ils sont automatiquement effacés. Notons que l’espace disque de notre serveur XtremWeb n’est pas pris en charge par le service de backup du laboratoire ; en cas de problème disque, tout sera perdu.
Du point de vue de l’administrateur, ce service est un service de virtualisation des ressources de calcul. Les ressources utilisées sont des ordinateurs individuels dont le taux de panne est une donnée inhérente. Une ressource peut arrêter un calcul sans autre forme de procès (le propriétaire est revenu, il a bougé sa souris et a donc interrompu le calcul en cours). Une tâche interrompue est automatiquement redémarrée (depuis le début) dès qu’une autre ressource de calcul est disponible.