9 Mars 2018 / La règle et le compas


Il faut être lucide, la répartition des images FITS par date n’est pas utilisable. Il y a trop de cas particuliers. Quant à une répartition arbitraire par répertoire de taille plus ou moins imposée, elle conduit à une organisation difficilement lisible, et s’avère délicate à mettre en œuvre. Il convient donc de chercher un autre angle d’attaque.

Après tout, nos grands anciens ont réussi à organiser les fichiers de l’expérience sous la forme d’archives Tar de tailles raisonnables. Alors pourquoi ne pas s’appuyer sur cet acquis… ? Et il serait d’ailleurs temps d’élucider ce petit mystère : qu’elle est la signification des différents de noms des fichiers Tar du HPSS ?

Pour l’essentiel, il semble y avoir 3 formes de noms pour les archives des principaux programmes scientifiques :

  • cg001_fits.tar: le code du programme suivi d’un numéro de 3 chiffres et du suffixe « _fits.tar » ;
  • cg00200_fits.tar: le code du programme puis 5 chiffres et le même suffixe ;
  • cg002-009_c6a3150_fits.tar: le code du programme suivi du couple de deux nombres de 3 chiffres puis un ensemble de chiffres et de lettres et enfin le suffixe usuel.

En étudiant le contenu de ces 3 exemples, il apparait :

  • que la première archive contient toutes les images du programme CG pour le champ 001 ;
  • que la deuxième archive contient toutes les images du programme CG pour le champ 002, mais uniquement pour la caméra 0 et le CCD 0 ;
    • dans cg00201_fits.tar, on trouve les images de la caméra 0 et du CCD 1 : on a donc notre pierre de Rosette pour interpréter les noms des archives Fits de la deuxième forme : code champ caméra ccd…
  • quant à la troisième archive, elle contient les quarts d’images k, l, m et n pour les champs 2 à 9 pour la nuit du 31 Janvier 1996 pour un traitement ‘c’ ;
    • une seconde archive de même nature, cg002-009_x6a3150_fits.list, contient quant à elle des quarts d’images de traitement ‘x’.
    • soit : code champ-champ type date ordre

En consultant la base de données, il ressort qu’il existe 727 couples <programmes x champs> dont le nombre d’images complètes réduites est inférieur à 1.000, soit une taille maximum d’archive non compressée de 8 GB.

Et si on se restreint aux 11 « grands » programmes, ils ne sont plus que 60. Curieusement, il n’y a que 49 archives Tar regroupant les images d’un seul champ d’un programme…

Si on étudie à un regroupement objet, champ, caméra, on trouve 148 triplets à moins de 1.000 images. Le gain est donc modeste vis-à-vis de l’accroissement de la complexité.

Et si on procède à un regroupement objet, champ, caméra, ccd, soit la deuxième forme d’archives Fits, il n’y a pas de quadruplets au-delà de 1.000 !

Nous avons donc là une solution pour l’organisation des images Fits dans iRods :

  1. placer les images des archives de type 1 dans un sous-répertoire ayant pour nom le code du programme suivi du numéro du champ, cad le nom de l’archive sans le suffixe « _fits.tar » ;
  2. extraire les images des archives de type 2 dans des sous-répertoires d’un répertoire ayant le code du programme et le numéro du champ.

Soit pour l’exemple du Centre galactique :

eros2/
    fits/
        cg/
            cg001/
               cg001xxxxx.fits
               ...
            cg002/
               cg00200/
                   cg0020xxx0xxxxxx.fits
               cg00201/
               cg00202/
               ...
               cg00210/
               cg00211/
               ...

Cette solution présente un double intérêt : celui de la simplicité; et le fait d’exister, ce qui évitera une réorganisation inutile. Par ailleurs, il est facile d’automatiser le processus de migration.

Une dernière remarque : les deux archives cg002xx_fits contiennent des images quart de CCD de type ‘c’ et ‘x’ en date du 31 Janvier 1996 – alors que les premières images n’apparaissent qu’à partir du 22 Juin ??? D’ailleurs, 80 % des images ‘c’ ou ‘x’ sont callées sur cette date.
Mais l’archive cg001_fits.tar ne contient aucune de ces images.

Ce contenu a été publié dans Non classé. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *