Concernant le partage de données qualitatives, l’actualité récente a été marquée par cet épisode à l’université du Michigan.
Le 15 février, 404 Media publiait un article sur la vente de données de recherche par l’université du Michigan pour entraîner des LLMs. L’article a depuis été placé sous paywall, désolée.
Quelques jours plus tard, Annette Vee, chercheuse à l’université de Pittsburgh consacrait un billet détaillé où l’on en apprenait plus sur cette affaire.
L’université du Michigan n’a en réalité rien mis en vente. En revanche, une entreprise a aspiré des données de recherche ouvertes pour les proposer à la vente 25000$.
Le jeu de données, datant de la fin des années 1990, était composé de copies d’étudiants et d’enregistrements sonores de cours, exposés, etc. Il avait reçu un avis favorable à sa diffusion après anonymisation par un IRB. Il était mis à disposition à des fins de recherche et d’enseignement et les exploitations commerciales étaient soumises à l’autorisation de l’université.
Depuis la médiatisation de cette vente, l’entreprise a supprimé la page web sur laquelle elle proposait le jeu de données et l’université a restreint l’accès à certains éléments du corpus. Cette affaire soulève néanmoins de nombreuses questions sur le partage des données sensibles. Les personnes qui n’étaient pas réidentifiables à l’époque le sont probablement avec les technologies actuelles, ce qui fait dire à Annette Vee que nous devrions redoubler de vigilance concernant les données concernant des personnes.