30 Mai 2018 / Migration des catalogues et courbes de lumière (suite)

Nous avons une réponse du CC : les administrateurs iRods ne sont pas opposés à l’idée d’avoir 90 millions de fichiers. Il faut cependant organiser les choses de manière assez fine et éviter des répertoires à 10 milles entrées. . .

Je propose donc de subdiviser les répertoires associés aux quarts de CCD – comme prévue dès les origines de l’expérience avec les seizièmes de CCD.

Ceci ne  concernera QUE la distribution des courbes de lumières – et donc les catalogues correspondant – dans l’espace de stockage.

La structure actuelle, telle qu’elle existe au travers des différentes archives Tar du HPSS ressemble à ceci :

  • un répertoire par programme scientifique – par exemple bs/
    • dans ce répertoire, le fichier <program>.field,
      par exemple bs.field

      • pour mémoire, ce fichier donne la liste des Ra/Dec de chacun des champs
        du programme
    • un sous-répertoire par champ – par exemple bs/bs300
      • dans ce sous-répertoire, le fichier <champ>.field,
        par exemple bs300.field

        • ce fichier donne la liste des Ra/Dec de chacun des quarts de CCD
          du champ (indépendamment de la caméra)
      • un sous-répertoire par quart de CCD – par exemple bs/bs300/bs3000k
        • dans ce sous-répertoire, le fichier <qccd>.cat,
          par exemple bs3000k.cat

          • ce fichier catalogue donne la liste des étoiles du quart de CCD,
            leur Ra/Dec, et des mesures de magnitude en bleu et rouge
        • les courbes de lumière ASCII de chacune des étoiles du quart de CCD

C’est ce répertoire « quart de CCD » qui pose problème, celui-ci contenant dans les 10 K fichiers.

L’idée est donc de répartir ces fichiers en 4 sous-sous-répertoires. Par exemple, si on se réfère au découpage défini dans la phase initiale, le premier quart de CCD, « k« , correspond à 4 seizièmes : « 0« , « 1« , « 4 » et « 5 » (voir Découpage des CCD ci-dessous).

On pourrait donc introduire cette subdivision, ce qui donnerait :

  • un sous-sous-répertoire par seizième de CCD, soit par exemple bs/bs300/bs3000k/bs30000
    • il conviendra de créer dans ce répertoire un fichier catalogue, bs30000.cat, contenant la description de ces étoiles, issu du découpage du catalogue principal
    • les 2 500 courbes de lumière des étoiles situées dans ce seizième

La mise en place de cette organisation n’est pas plus compliquée que la structure de base – il faut juste ajouter la création du catalogue du seizième de CCD.

Elle présente évidemment l’avantage de réduire le nombre de fichiers par répertoire.

Elle peut présenter également un autre avantage : pour l’étude systématique d’une région, on peut transférer en une fois, toutes les courbes de lumière d’un seizième, d’un quart ou de tout un champ en une seule commande utilisant l’option « récursive ».

Deux remarques :

  • on peut introduire sans difficulté supplémentaire un niveau intermédiaire entre le champ et le quart de CCD : celui du CCD ;
    • ceci pourrait permettre de transférer en une fois toutes les courbes de ce CCD
  • il faut voir avec le CC mais surtout avec les utilisateurs si les courbes de lumière ASCII doivent être GZippées ou non
    • GZipper les fichiers ASCII fait gagner de la place (~ un facteur 4), et aussi sans doute du temps de transfert, mais complique les extractions car il faut « dézipper »

Découpage des CCD

Ce contenu a été publié dans Non classé. Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *