Les points abordés :
- Fichiers manquants
- Courbes de lumière
Fichiers manquants
Lors de la migration, il est apparu qu’il manquait des fichiers, tout particulièrement des images et des fichiers de suivis. Cette détection a été rendue possible par l’enregistrement des fichiers dans la base de données.
Ces images et ces suivis sont-ils disponibles par ailleurs ? Est-il possible de les récupérer ?
- Dresser et publier la liste des images et des suivis manquants.
Les courbes de lumière ne sont pas référencées dans la base de données, mais il existe deux sources des catalogues, référençant les étoiles, et donc les fichiers. Si des archives sont manquantes, il serait possible de le détecter en comparant le contenu des catalogues aux fichiers disponibles.
Par ailleurs, les suivis et les références résultants des productions sont enregistrés dans la base de données. On peut donc comparer ces différentes listes afin de détecter d’éventuelles absences.
Courbes de lumière
La migration des courbes de lumière s’est heurtée jusqu’ici à une difficulté dans l’organisation de ces fichiers du fait du TRES GRAND NOMBRE de fichiers par quart de CCD : fréquemment plus de 20 milles.
Situation
Il y a près de 90 millions de fichiers courbes de lumière. Actuellement, ces fichiers sont conservés sous une forme GZippée dans des archives Tar organisées par quart de CCD, archives elles-mêmes GZippées et regroupées dans des archives Tar par champ.
Cette organisation a vraisemblablement été adoptée de manière à créer des fichiers de dimensions compatibles avec les contraintes des cartouches du HPSS.
- un fichier courbe de lumière, nommé « .time », fait environ 15 à 20 K
- sous forme compressée par GZip, sa taille est de 3 à 5 K
- une archive Tar d’un quart de CCD fait environ 35 M
- la compression ne sert à rien puisque les fichiers contenus sont déjà gzippés
- une archive Tar d’un champ, contenant l’ensemble des courbes de lumière gzippées des 32 quarts de CCD fait de 1.5 à 2 G (donc 4 fois plus si on gunzip).
Une partie au moins des contraintes originelles sont levées grâce à iRods. Il est donc désormais possible d’adopter une organisation plus confortable pour les utilisateurs.
LA QUESTION EST DE DEFINIR LE MODELE D’UTILISATION DES DONNEES !
Cas 1 : accès individuel aux courbes de lumière
C’est typiquement le cas où on recherche les quelques étoiles autour d’un point donné. L’accès aux identifiants de ces étoiles se fait grâce à l’outil de recherche utilisant les alphas/deltas et les catalogues enregistrés dans la base de données. De ces identifiants, on identifie les fichiers courbes de lumière.
Le transfert de ces fichiers est plus simple et plus rapide si les courbes sont conservées individuellement dans iRods.
Le Centre de calcul a donné son accord pour une telle organisation.
Cas 2 : traitement massif des données
Dans ce cas, il est sans doute plus efficace de transférer massivement tous les fichiers correspondant à un quart de CCD. Un regroupement par archives Tar, éventuellement comprimées, peut être ce qu’il y a de plus efficace.
Le souci est que cette organisation est incompatible avec le cas 1. Pour accéder individuellement aux courbes de lumière, il faut transférer les archives et en extraire les courbes de lumière ensuite.
Solution mixte
EN PRINCIPE, iRods peut concilier les deux organisations en permettant d’indexer directement le contenu des archives Tar. Les fichiers sont vus comme des fichiers individuels, mais restent dans l’archive Tar.
L’avantage est donc qu’il est possible d’accéder directement aux courbes de lumière sans avoir à dupliquer le volume des données.
MAIS jusqu’ici, cette possibilité ne fonctionnait pas avec les archives Eros : trop volumineuses, trop de fichiers.
Le CC NOUS PROMET que cela marche avec la dernière version installée.
ATTENTION : le prix à payer est que l’accès aux courbes de lumière nécessite tout de même l’accès à l’archive Tar et l’extraction des fichiers. Mais ceci est fait sur le serveur. Il n’y a donc pas de transfert sur le réseau. Le temps nécessaire à l’opération doit donc être réduit.
Mais si l’archive est dans le robot, il faut le temps de monter la cartouche et transférer le fichier sur disque. Il peut donc y avoir des délais.
Proposition
- Vérifier si l’accès aux fichiers des archives Tar Eros dans leur format compressé fonctionne.
- Si cela fonctionne, utiliser cette possibilité pour placer les archives contenant les courbes de lumière dans iRods et indexer individuellement chacun des fichiers.
- Il faudra toutefois vérifier avec le CC s’il y a des contraintes sur le nombre d’éléments par pseudo-répertoires.
Il ne semble pas souhaitable de conserver l’organisation à deux niveaux d’archives Tar, ni d’avoir des archives comprimées de fichiers comprimés.
SI L’INDEXATION DIRECTE des fichiers dans une archive Tar fonctionne bien, on peut envisager de conserver la structure en archive Tar par quart de CCD. Il pourrait dans ce cas être intéressant de comprimer les archives Tar SI IRODS LE SUPPORTE et d’avoir les courbes de lumière non compressées. Ceci permettrait de les extraire directement sans avoir à les décompresser à l’arrivé.
Plan de migration
- Descendre les archives Tar de l’espace HPSS par champ
- Extraire les archives comprimées des courbes de lumière par quart de CCD
- Extraire de ces archives les courbes de lumière compressées
- Décomprimer ces courbes de lumière
- Reconstruire l’archive du quart de CCD contenant désormais les courbes non comprimées
- Compresser l’archive
- La sauver dans iRods
- Indexer dans iRods les courbes de lumière contenu dans l’archive
L’intérêt du CC est qu’il est possible de traiter les différents programmes simultanément.