Il faut être lucide, la répartition des images FITS par date n’est pas utilisable. Il y a trop de cas particuliers. Quant à une répartition arbitraire par répertoire de taille plus ou moins imposée, elle conduit à une organisation difficilement lisible, et s’avère délicate à mettre en œuvre. Il convient donc de chercher un autre angle d’attaque.
Après tout, nos grands anciens ont réussi à organiser les fichiers de l’expérience sous la forme d’archives Tar de tailles raisonnables. Alors pourquoi ne pas s’appuyer sur cet acquis… ? Et il serait d’ailleurs temps d’élucider ce petit mystère : qu’elle est la signification des différents de noms des fichiers Tar du HPSS ?
Pour l’essentiel, il semble y avoir 3 formes de noms pour les archives des principaux programmes scientifiques :
- cg001_fits.tar: le code du programme suivi d’un numéro de 3 chiffres et du suffixe « _fits.tar » ;
- cg00200_fits.tar: le code du programme puis 5 chiffres et le même suffixe ;
- cg002-009_c6a3150_fits.tar: le code du programme suivi du couple de deux nombres de 3 chiffres puis un ensemble de chiffres et de lettres et enfin le suffixe usuel.
En étudiant le contenu de ces 3 exemples, il apparait :
- que la première archive contient toutes les images du programme CG pour le champ 001 ;
- que la deuxième archive contient toutes les images du programme CG pour le champ 002, mais uniquement pour la caméra 0 et le CCD 0 ;
- dans cg00201_fits.tar, on trouve les images de la caméra 0 et du CCD 1 : on a donc notre pierre de Rosette pour interpréter les noms des archives Fits de la deuxième forme : code champ caméra ccd…
- quant à la troisième archive, elle contient les quarts d’images k, l, m et n pour les champs 2 à 9 pour la nuit du 31 Janvier 1996 pour un traitement ‘c’ ;
- une seconde archive de même nature, cg002-009_x6a3150_fits.list, contient quant à elle des quarts d’images de traitement ‘x’.
- soit : code champ-champ type date ordre
En consultant la base de données, il ressort qu’il existe 727 couples <programmes x champs> dont le nombre d’images complètes réduites est inférieur à 1.000, soit une taille maximum d’archive non compressée de 8 GB.
Et si on se restreint aux 11 « grands » programmes, ils ne sont plus que 60. Curieusement, il n’y a que 49 archives Tar regroupant les images d’un seul champ d’un programme…
Si on étudie à un regroupement objet, champ, caméra, on trouve 148 triplets à moins de 1.000 images. Le gain est donc modeste vis-à-vis de l’accroissement de la complexité.
Et si on procède à un regroupement objet, champ, caméra, ccd, soit la deuxième forme d’archives Fits, il n’y a pas de quadruplets au-delà de 1.000 !
Nous avons donc là une solution pour l’organisation des images Fits dans iRods :
- placer les images des archives de type 1 dans un sous-répertoire ayant pour nom le code du programme suivi du numéro du champ, cad le nom de l’archive sans le suffixe « _fits.tar » ;
- extraire les images des archives de type 2 dans des sous-répertoires d’un répertoire ayant le code du programme et le numéro du champ.
Soit pour l’exemple du Centre galactique :
eros2/ fits/ cg/ cg001/ cg001xxxxx.fits ... cg002/ cg00200/ cg0020xxx0xxxxxx.fits cg00201/ cg00202/ ... cg00210/ cg00211/ ...
Cette solution présente un double intérêt : celui de la simplicité; et le fait d’exister, ce qui évitera une réorganisation inutile. Par ailleurs, il est facile d’automatiser le processus de migration.
Une dernière remarque : les deux archives cg002xx_fits contiennent des images quart de CCD de type ‘c’ et ‘x’ en date du 31 Janvier 1996 – alors que les premières images n’apparaissent qu’à partir du 22 Juin ??? D’ailleurs, 80 % des images ‘c’ ou ‘x’ sont callées sur cette date.
Mais l’archive cg001_fits.tar ne contient aucune de ces images.