Selon Wikipédia un format « ouvert » est « un format de données interopérable et dont les spécifications techniques sont publiques, sans restriction d’accès ni de mise en œuvre ».
Le souci avec les suivis Eros 2 est que leur accès est difficile, supposant l’utilisation de librairies C délicates à mettre en œuvre et que le format interne n’est pas très bien documenté.
C’est dommage car ces fichiers contiennent beaucoup d’informations résultant des analyses conduites sur les images. La quintessence de ces mesures sont accessibles via les courbes de lumière, mais il y a peut-être dans les suivis d’autres données exploitables pour d’autres propos.
Pour pérenniser ces données, il faudrait pouvoir les documenter, documenter le processus de relecture et les convertir dans un format « ouvert ».
A partir de quelques documents décrivant plutôt l’utilisation de la librairie d’accès, d’éléments de codes sources et de beaucoup d’approximation, je pense avoir réussi à comprendre les mécanismes d’écriture et donc la relecture des fichiers. Une partie du contenu a pu être documenter, mais il reste de vastes zones d’ombres.
Afin de valider ce processus, il faudrait pouvoir reconstruire les courbes de lumière, ou du moins en produire une vague approximation, afin de vérifier que le décodage est correct. Faute de pouvoir y arriver, j’ai du moins pu vérifier que l’alternance des flux semblant valides ou erronés dans les suivis correspondait aux alternances des magnitudes des courbes de lumière.
Plusieurs outils ont été mis en place à ces fins :
- DumpSuivi affiche les différentes sections d’un suivi sous une forme tabulaire, facile à consulter.
- RawCurve extrait les mesures d’une étoile, soit pour un seul suivi, soit pour l’ensemble des blocs d’un même quart de CCD dans la même couleur, soit pour les deux couleurs, et présentent les données brutes, principalement les flux et les erreurs, sous une forme similaire à une courbe de lumière.
- SuiviConvert converti l’ensemble d’un fichier de suivi en Json, ou éventuellement en Json compressé Gzip.
Le choix de Json est assez naturel car c’est l’archétype du format ouvert. Il est largement documenté, largement supporté dans de nombreux langages – dont Python, le langage préféré des physiciens actuellement – et pérenne puisqu’entièrement en texte.
Certes, les performances de lecture sont médiocres et l’espace occupé conséquent, mais pour conserver et échanger des données, cela semble un bon choix. Par ailleurs, une fois comprimé par Gzip, la taille tombe en dessous de celle du suivi binaire.
Le candidat idéal pour pérenniser les suivis reste cependant encore à découvir.
Quant aux fichiers de références – les catalogues binaires des étoiles suivies – ils résistent encore et toujours…
Références
- Structure interne des fichiers de suivi : http://eros.lal.in2p3.fr/ErosDB/Eros2/structure_des_suivis/
- Question des formats ouverts : http://eros.lal.in2p3.fr/ErosDB/Eros2/formats_ouverts/
- Les outils autour des suivis : http://eros.lal.in2p3.fr/ErosDB/ErosDb/outils-suivis/