Licences de données et IA

Bonjour,

Nous souhaitons trouver (ou développer) une licence ouverte de partage de données qui mentionne explicitement que les modèles d’IA qui serait entraînés, soit-ce en partie, avec les données doivent être eux-même publiés sous licence libre (un peu comme l’AGPL-3, mais pour les données et l’IA).

L’utilisation qui motive ce besoin est un projet de développement de bases de données agricoles des petits exploitants ; nous souhaitons éviter que celles-ci servent à l’extractivisme des données de la part d’entreprises qui développent des modèles IA propriétaires et non libres pour l’agriculture à partir des données fournies librement par les agriculteurs. Cependant, nous cherchons à développer une licence générique et également réutilisable en dehors du domaine agricole.

Je n’ai rien pu trouver dans ce sens jusqu’à date, à part un gabarit de Microsoft qui contient quelques clauses intéressantes (https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4Rjfq) mais qui n’est pas une licence ouverte ou réutilisable en soi.

Auriez-vous des réflexions ou astuces à ce sujet ?

Merci beaucoup d’avance !

1 « J'aime »

Pour rajouter des informations, la Licence CC avec option SA dit que les modifications ou choses « build » sur ces données doivent avoir les mêmes licences (contamination). Néanmoins, un modèle IA est-il construit (« Build ») ou apprend-il ?

C’est bien vrai…cependant, le piratage à grande échelle d’œuvres supposément protégées par ChatGPT et compagnie (selon l’argument, justement, que les modèles « apprennent » plutôt que de « copier ») me laisse supposer que des termes bien spécifiques ne seraient pas superflus.