Données ouvertes mais mal documentées

Nous préférons toutes et tous des données ouvertes et bien documentées (données FAIR) : mais à tout prendre, vaut-il mieux des données ouvertes insuffisamment documentées ou des données pas ouvertes ?

On en discute sur #TeamOpenData : Données ouvertes mais mal documentées - débat - #TeamOpenData

Cette question a émergé lors des OSDays à l’UGA lors de la table ronde « Réutilisabilité des données - comment rendre effectif la fairisation des données en vue de leur réutilisation ? Point de vue des gestionnaires d’entrepôts », je ne me rappelle plus qui l’a posée exactement… Les vidéos seront disponibles en janvier par l’UGA.

Lors de la présentation de @pierrepo une question (qui rejoint un peu) a été posée : Comment rendre les données plus riches en termes de métadonnées ? En évoquant possiblement des solutions automatisées comme l’IA. Les avis convergeaient plutôt pour dire que c’était une mauvaise pratique et qu’il fallait plutôt sensibiliser ou former les producteurs/déposants plutôt que d’utiliser des solutions automatisées qui dévieraient le problème.

Une autre question à laquelle ça me fait penser et qui concerne surtout les données de la recherche c’est le choix de l’ouverture par défaut. Cette fois-ci c’était les coûts de stockage (pour données très volumineuses) par rapport au coût de manipulation/production des données qui étaient en jeu. La question se posait si le coût de stockage des données était plus élevé que le coût de production de la donnée, est-ce qu’il fallait forcément ouvrir ?

N’hésitez pas à compléter si des personnes étaient également présentes…