6. LAL deployment

LAL PCs are volunteer, by default, to participate to XWHEP platform.
A simple mail to “xtremweb /a|t lal.in2p3.fr” is sufficient to decline participation.This article describes deployment over LAL PCs. XtremWeb-HEP is a global computing platform developed by LAL to harness new computing power. This platform is in the grid family, aggregating volunteer individual computers to create a new powerful computing facility.
XtremWeb-HEP is based on XtremWeb, developed by LRI.

A volunteer community
The platform is constructed over a set of heterogeneous volunteer personal computer running Linux, Windows or Mac OS X.
These aggregated computers are not dedicated to our platform; they remain their owner property and are only used by our platform without disturbing normal owner usage. These conditions are the activation policy which is entirely customizable. For example, they may be used when the CPU is idle, when the screensaver is running, or accordingly to a scheduler, at night for instance. The platform automatically frees PCs as soon as the activation rules are not validated. The running job, if any, is stopped, the CPU is freed, as well as the RAM and disk.

A new service
L’intérêt de construire une telle plate-forme réside dans l’utilisation de la puissance potentielle que représentent les ordinateurs individuels disséminés au sein du laboratoire. Notre plate-forme permet de gérer cette puissance potentielle et de la mettre au service de tous sans la détourner de sa destination première : rester à l’entière disposition de leur propriétaire respectif.

Du point de vue de l’utilisateur, ce nouveau service peut être vu comme un nouveau cluster de calcul. Les utilisateurs ont à leur disposition un service client permettant de soumettre des tâches de calcul, de surveiller leur évolution et de récupérer les résultats obtenus. Ce service client est un service « nomade » qui peut être installé sur n’importe quel ordinateur, même portable, et exécuté de n’importe où pour peu qu’il soit connecté à l’Internet. On peut très bien soumettre des tâches du bureau, sur une machine, puis les surveiller depuis une machine personnelle, à la maison ou en déplacement, et même en récupérer les résultats intermédiaires, et plus tard, les résultats finaux. Les tâches et leurs résultats sont gardés par la plate-forme tant que l’utilisateur ne les efface pas explicitement. On comprend malgré tout qu’une politique doit être mise en place afin d’éviter l’engorgement ; le serveur XtremWeb ne peut (et ne doit pas) être considéré comme un espace de stockage. Les résultats ne sont donc gardés qu’une semaine ; après quoi, ils sont automatiquement effacés. Notons que l’espace disque de notre serveur XtremWeb n’est pas pris en charge par le service de backup du laboratoire ; en cas de problème disque, tout sera perdu.

Du point de vue de l’administrateur, ce service est un service de virtualisation des ressources de calcul. Les ressources utilisées sont des ordinateurs individuels dont le taux de panne est une donnée inhérente. Une ressource peut arrêter un calcul sans autre forme de procès (le propriétaire est revenu, il a bougé sa souris et a donc interrompu le calcul en cours). Une tâche interrompue est automatiquement redémarrée (depuis le début) dès qu’une autre ressource de calcul est disponible.

1. Introduction to DGHEP

The Desktop Grid for High Energy Physics (DGHEP) project aims to study different global computing platforms to understand how researchers could benefit from these platforms and cover their increasingly growing computing power needs.

In this project, we study :

  • XtremWeb, the platform by INRIA;
  • Xgrid, the platform by Apple;
  • Boinc, the platform by Berkeley.

Since a strong collaboration between IN2P3 and INRIA was born around XtremWeb, our work "naturally" starts with XtremWeb.

For preliminary tests this server is intended to deploy a Desktop Grid, using XtremWeb as middleware.

This XtremWeb platform first aims to process Auger MonteCarlos; on completion, these are automatically stored on HPSS storage at CC IN2P3, Lyon – France and finally removed from the platform.

The european EDGeS project has been accepted

The EDGeS project aims to propose a standardization of grids so that any type of grid could exchange and share resources. The goal is to enable resources sharing between EGEE and Desktop Grid such as Boinc, Xgrid or XtremWeb.Introduction.

EDGeS (http://www.edges-grid.eu/) is a two years european project of type "infrastructure" aiming to work on grid convergence from "insutionnal" grid such as EGEE to desktop grids such as Boinc, Xgrid ot XtremWeb.

This project agregates 9 participants from 6 countries:

  • SZTAKI, Hongary
  • CIEMAT, Sapin
  • Fundecyt, Spain
  • INRIA, France
  • IN2P3, France
  • Universite de Westminster , UK
  • Universite de Cardiff, UK
  • AlmereGrid, Netherlands
  • Universite de Coimbra, Portugal

The LAL has the responsability of the NA3 (Network Activity 3) : "Standardization procedures", and will especially work with the INRIA which is le leader of the JRA1 (Joint Research Activity) "SG-DG Bridges Technologies". LAL also participates to "Service Activities" which goal is to deploy and maintain a new infrastructure combining resources from the different platforms.

NA3 :"Standardization procedures".

NAE is an activity that will focus on collecting and spreading the new standards proposed by this project while aggregating the deepest communion. It will also open the widest possible audience from public and private entities. It will call for experience and expertise sharing in order to define a definitive standard to enable SG and DG resource sharing by unifying a set of standard and immutable interfaces as well as services and protocols. The process of standardization will iterate until an agreement is found within the obtained audience. NA3 will highly interact with JRA1 since this collaboration will help to iterate through the definition of the standard.

Budget.

EDGeS budget is 2.500KE.

LAL manages 297KE including 268KE for salary and 29KE for equipements and missions.

Le projet EDGeS a été accepté

Le projet EDGeS propose de standardiser l’accès aux grilles, que ce soient des grilles "institutionnelles" comme EGEE, ou des grilles de calcul global, comme XtremWeb.Introduction.

EDGeS (http://www.edges-grid.eu/) est un projet européen d’une durée de 2 ans, de type "déploiement d’infrastructure", qui propose de travailler sur la convergence des grilles qu’elles soient "institutionnelles" (comme EGEE) ou pair a pair, comme XtremWeb, XGrid, Boinc…

Ce projet regroupe 9 participants, parmi 6 pays :

  • SZTAKI, Hongrie
  • CIEMAT, Espagne
  • Fundecyt, Espagne
  • INRIA, France
  • IN2P3, France
  • Universite de Westminster , UK
  • Universite de Cardiff, UK
  • AlmereGrid, Hollande
  • Universite de Coimbra, Portugal

Le LAL, en la personne de Oleg Lodygensky, a la responsabilité du NA3 (Networking Activity) : "Standardization procedures", d’une part, travaillera avec l’INRIA qui a la responsabilité du JRA1 (Joint Research Activity) "SG-DG Bridges Technologies", d’autre part. Le LAL participe aussi au "Service Activities" dont les buts sont de mettre en place et de maintenir une nouvelle infrastructure combinant des ressources volontaires et des ressources dédiées.

Presentation du NA3 :"Standardization procedures".

L’activité NA3 a pour but de collecter et diffuser les nouveaux standards proposés dans le cadre du projet EDGeS afin d’agréger la plus large communion possible au sein de la communauté scientifique et informatique. Cette activité aura a coeur de communiquer avec les institus privés et publics, les entreprises, mais aussi de faire connaître les travaux de ce projet auprès du grand public.

Budget.

Le montant alloué au projet se monte a 2.500KE.

Le LAL s’est vu allouer 297KE divisés en 268KE de salaire et 29KE pour les déplacements et l’équipement.

Déploiement au LAL

La plate-forme de calcul distribuée XtremWeb utilise les PCs de bureau lorsqu’ils ne sont pas utilisés afin d’agréger une puissance de calcul conséquente.
Elle nécessite le déploiement d’un petit logiciel (le “worker” XtremWeb) sur ces PCs.Le déploiement des services de calcul XtremWeb sur les PCs du laboratoire prendra effet à compter du 28 mai; il se fera par étapes successives.Comme annoncé dans un précédent article le service de calcul global “XtremWeb” va être déployé sur les machines de bureau du laboratoire ; ce déploiement commencera la semaine du 28 mai 2007.

Ce déploiement est automatique et ne requiert aucune action des utilisateurs des ordinateurs de bureau du laboratoire.

Il s’effectuera en priorité sur les machines du service informatique ainsi que celles du groupe Auger au LAL, puis sur toutes les autres machines du laboratoire. Dans un premier temps, les ordinateurs portables ne sont pas pris en compte.

EGEE 2nd User Forum : un poster XtremWeb/EGEE

Nous avons eu le plaisir de présenter un poster au EGEE 2nd User Forum décrivant nos travaux en cours sur l’intégration des deux plates-formes de grille : EGEE et XtremWeb.Ces travaux tendent à permettre le partage de ressources de calcul entre ces deux plates-formes, d’une part, et à standardiser leurs interfaces d’utilisation, d’autre part.

Motivations :

  • agréger des ressources de calcul sécurisées entre les deux plates-formes ;
  • centraliser ces agrégats à travers un seul GateKeeper ;
  • standardiser les interfaces utilisateur afin de répondre aux contraintes de standardisation de la grille.

Ces travaux comportent deux parties.
La première propose d’inclure des ressources de calcul EGEE dans la plate-forme XtremWeb. Pour ce faire un “agent” XtremWeb crée des tâches EGEE, qui consistent en des workers XtremWeb, en fonction des besoins d’XtremWeb, d’une part, ainsi que des disponibilités des ressources de calcul EGEE. Ces workers XtremWeb ainsi déployés sur EGEE sont configurés pour ne prendre en charge qu’une seule tâche XtremWeb et s’arrêter après un certain temps de vie prédéfini.
Les avantages de cette solution sont :

  • d’autoriser des utilisateurs hors de toute VO ;
  • d’utiliser les mécanismes de sécurité, d’équilibrage de charge et de tolérance aux pannes d’XtremWeb ;
  • de bénéficier des mécanismes de soumission d’EGEE pour un déploiement automatisé du middleware XtremWeb.

La seconde partie propose d’inclure les ressources de calcul d’XtremWeb dans la plate-forme EGEE.
L’idée principale de cette solution consiste à utiliser le coordinateur d’XtremWeb en tant que système de soumission (scheduler).
Les avantages de cette solution sont :

  • d’utiliser l’interface centralisé de EGEE ;
  • de bénéficier du niveau élevé de sécurité de EGEE ;
  • de tirer parti des mécanismes d’XtremWeb : les mécanimes de passage des pare-feux permettent d’agréger des ressources EGEE déployées sur plusieurs sites administratifs ; les mécanismes de tolérance aux pannes et d’équilibrage de charge permettent d’utiliser au mieux les ressources EGEE.

Le principal désavantage de cette solution :

  • un double déploiement des middlewares EGEE et XtremWeb.

Bénéfices :

  • XtremWeb nous apporte :
    • un équilibrage de charge global et automatique entre les différentes ressources des deux plates-formes ;
    • un modèle de tolérance aux pannes.
  • EGEE nous apporte :
    • un niveau de sécurité elevé ;
    • la définition des organisations virtuelles ;
    • une interface utilisateur centralisée.

Questions ouvertes :

  • cette solution nécessitera, à terme, un descriptor JDL permettant de distinguer les tâches “grilles” de celles “desktop grid” ;
  • pouvons nous définir une standardisation des implémentations des grilles de PC ?
  • pourrons nous déployer le middleware EGEE “au vol” ?
  • comment sécuriser les resources des grilles de PC pour répondre aux exigences de EGEE ?

6. Déploiement au LAL

Les machines du laboratoire sont toutes “à priori” volontaires pour participer à la plate-forme XtremWeb.
Un simple mail à “xtremweb /a|t lal.in2p3.fr” suffit toutefois pour décliner toute participation.Cet article décrit les conditions de déploiement de la plate-forme sur les machines du LAL. XtremWeb est une plate-forme de calcul global dans laquelle le laboratoire a fortement investi, afin de trouver de nouvelles ressources de calcul. Ce type de plate-forme entre dans la famille des grilles de calcul, mais s’appuie sur le volontariat pour agréger des ordinateurs individuels afin de proposer à tous un nouveau service de calcul.
Après plusieurs années de recherche et de développement aujourd’hui achevées, nous entrons dans la phase de déploiement et de mise en production.

Une communauté de volontaires
La plate-forme est obtenue en agrégeant des ordinateurs individuels hétérogènes qui peuvent être sous Windows ou Linux, mais aussi sous Mac OS X.
Ces ordinateurs ne sont pas des machines dédiées au calcul, mais bien des ordinateurs de bureau prêtés par leur propriétaire respectif qui en garde l’entier usage et définit individuellement les conditions de prêt. Par exemple, un propriétaire peut choisir de prêter son CPU quand lui même ne l’utilise pas : quand il n’utilise ni son clavier ni sa souris, ou encore quand l’écran de veille se met en route. On peut aussi définir des plages horaires de prêt : par exemple, la nuit, de 20h à 6h du matin, ou encore le week end, ou même les deux. Au LAL, la politique de prêt définie par défaut est celle de la nuit et des week end. En effet, les tâches de physique prennent fréquemment plusieurs heures de calcul et il est préférable de pouvoir se réserver une plage de temps suffisamment longue et contiguë.
Les machines empruntées selon la politique définie sont automatiquement rendues dès que les conditions de prêt ne sont plus remplies : le propriétaire bouge sa souris, ou bien la plage horaire est dépassée. S’il y avait un calcul en cours, il est immédiatement arrêté ; le CPU est libéré, ainsi que la mémoire et l’éventuel espace disque.

Les ordinateurs portables sont un cas un peu spécial et seront traités différemment. Il est probable que ce type de machine ne réponde pas aux exigences du calcul de la physique des hautes énergies (insuffisance de puissance, de mémoire ou de disque ; déconnexions trop fréquentes relativement au temps de calcul…). Ces machines seront malgré tout intégrées à notre plate-forme, mais avec une politique de prêt « nulle », n’autorisant pas l’utilisation du CPU. Ce mode de fonctionnement peut paraître surprenant ; il nous permettra toutefois de tester l’endurance de notre plate-forme en augmentant le nombre et la fréquence des connexions. Ainsi, les ordinateurs portables « stresseront » notre plate-forme sans jamais lui apporter aucun concours (i.e. sans jamais prendre en charge aucun calcul).

Par défaut, toutes les machines du LAL sont déclarées candidates au prêt pour notre nouvelle ressource de calcul. Un simple courrier électronique à « xtremweb /a|t lal.in2p3.fr »

cette adresse est volontairement incorrecte afin d’éviter les spams; merci de remettre l’arobase à sa place 🙂

suffit toutefois pour décliner toute participation.

Un site web, ainsi qu’un forum ont été ouverts.

Un nouveau service
L’intérêt de construire une telle plate-forme réside dans l’utilisation de la puissance potentielle que représentent les ordinateurs individuels disséminés au sein du laboratoire. Notre plate-forme permet de gérer cette puissance potentielle et de la mettre au service de tous sans la détourner de sa destination première : rester à l’entière disposition de leur propriétaire respectif.

Du point de vue de l’utilisateur, ce nouveau service peut être vu comme un nouveau cluster de calcul. Les utilisateurs ont à leur disposition un service client permettant de soumettre des tâches de calcul, de surveiller leur évolution et de récupérer les résultats obtenus. Ce service client est un service « nomade » qui peut être installé sur n’importe quel ordinateur, même portable, et exécuté de n’importe où pour peu qu’il soit connecté à l’Internet. On peut très bien soumettre des tâches du bureau, sur une machine, puis les surveiller depuis une machine personnelle, à la maison ou en déplacement, et même en récupérer les résultats intermédiaires, et plus tard, les résultats finaux. Les tâches et leurs résultats sont gardés par la plate-forme tant que l’utilisateur ne les efface pas explicitement. On comprend malgré tout qu’une politique doit être mise en place afin d’éviter l’engorgement ; le serveur XtremWeb ne peut (et ne doit pas) être considéré comme un espace de stockage. Les résultats ne sont donc gardés qu’une semaine ; après quoi, ils sont automatiquement effacés. Notons que l’espace disque de notre serveur XtremWeb n’est pas pris en charge par le service de backup du laboratoire ; en cas de problème disque, tout sera perdu.

Du point de vue de l’administrateur, ce service est un service de virtualisation des ressources de calcul. Les ressources utilisées sont des ordinateurs individuels dont le taux de panne est une donnée inhérente. Une ressource peut arrêter un calcul sans autre forme de procès (le propriétaire est revenu, il a bougé sa souris et a donc interrompu le calcul en cours). Une tâche interrompue est automatiquement redémarrée (depuis le début) dès qu’une autre ressource de calcul est disponible.