Common Corpus : entraîner des IA/LLM avec du libre

J’ai entendu parler de ce corpus récemment, il est sorti il y a 10 jours : Common Corpus est un jeu de données de plus de 500 milliards de mots dans une quinzaine de langues, uniquement composé d’oeuvres tombées dans le domaine public !

Il est notamment composé d’archives de journaux contenus dans Gallica (déjà exploités par Gallicagram), ainsi que des livres tombés dans le domaine public.

Je pense que je vais vraiment me mettre à en parler aux chercheurs et chercheuses qui nous sollicitent, ne serait-ce que pour leur montrer qu’il n’est pas nécessaire de collecter des jeux de données massifs pour faire des LLM, mais qu’il est possible 1- de réutiliser des jeux de données existants 2- d’utiliser du libre.

M. Clavey, " Common Corpus : des textes du domaine public pour entrainer des IA (génératives)", Next.ink, 20 mars 2023..

4 « J'aime »

Bonjour. Pierre-Carl Langlais a évoqué ce projet lors de la dernière plénière du Chapitre français d’AI4LAM le 26 mars dernier. L’enregistrement n’est pas encore disponible mais devrait l’être

1 « J'aime »

Merci du partage!! Je ne sais pas si Pierre Carl est (déjà) dans le coin mais en tout cas si vous avez des questions ou des remarques n’hésitez pas. La question des droits associés à l’utilisation notamment des articles comme données d’entraînement sera clairement je pense (et @amarois_pro sera peut-être d’accord avec moi), un enjeu majeur de l’open access dans le futur (très proche). cf. le lawsuit NYT vs. Open AI et la constitution du common crawl

1 « J'aime »