Revente de données de recherche en libre accès (Université du Michigan)

Concernant le partage de données qualitatives, l’actualité récente a été marquée par cet épisode à l’université du Michigan.

Le 15 février, 404 Media publiait un article sur la vente de données de recherche par l’université du Michigan pour entraîner des LLMs. L’article a depuis été placé sous paywall, désolée.

Quelques jours plus tard, Annette Vee, chercheuse à l’université de Pittsburgh consacrait un billet détaillé où l’on en apprenait plus sur cette affaire.

L’université du Michigan n’a en réalité rien mis en vente. En revanche, une entreprise a aspiré des données de recherche ouvertes pour les proposer à la vente 25000$.
Le jeu de données, datant de la fin des années 1990, était composé de copies d’étudiants et d’enregistrements sonores de cours, exposés, etc. Il avait reçu un avis favorable à sa diffusion après anonymisation par un IRB. Il était mis à disposition à des fins de recherche et d’enseignement et les exploitations commerciales étaient soumises à l’autorisation de l’université.

Depuis la médiatisation de cette vente, l’entreprise a supprimé la page web sur laquelle elle proposait le jeu de données et l’université a restreint l’accès à certains éléments du corpus. Cette affaire soulève néanmoins de nombreuses questions sur le partage des données sensibles. Les personnes qui n’étaient pas réidentifiables à l’époque le sont probablement avec les technologies actuelles, ce qui fait dire à Annette Vee que nous devrions redoubler de vigilance concernant les données concernant des personnes.

1 « J'aime »

Merci pour ce post, j’étais passée à côté de cette info!

Je dois avouer que je n’avais jamais pensé la question sous cet angle (celui de la réidentification grâce à aux progrès scientifiques) mais ca fait tout à fait sens quand on compare ça (à grands traits bien sur) avec la possibilité d’identifier des victimes ou des coupables présumés de crimes grâce aux avancées des sciences naturelles et comportementales (oui je consomme beaucoup de true crime, si il y a des amateurs on pourra faire un fil ^^).

Je n’ai pas de remarque très constructive à faire là tout de suite, mais je pense que cette phrase va me faire me poser des questions toute la journée (quel avenir pour l’ouverture de données anonymisées si la possibilité même qu’elles ne le soit plus un jour existe constamment?)

1 « J'aime »

Danger que les données de la recherche n’échappent à leurs propriétaires et fassent l’objet de transactions financières pour alimenter une IA qui a besoin de données massives pour rendre des infos correctes.