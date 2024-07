Crédit : Envato

Pour entraîner un grand modèle d’intelligence artificielle (IA), il faut beaucoup de données. Alors pour les obtenir, certaines entreprises du secteur ne reculent devant rien, même des pratiques illégales. En effet, une nouvelle enquête menée par Proof News et Wired montre que certaines grandes entreprises ont entraîné leurs modèles sur des vidéos YouTube, sans le consentement leur créateurs.

Apple, Nvidia et Anthropic violent les règles de YouTube

Plusieurs grandes entreprises de la tech ont entraîné leurs modèles à l’aide de l’ensemble des données de YouTube Subtitles :

YouTube Subtitles rassemble les transcriptions des vidéos qui emploient les sous-titres générés automatiquement, traduits dans plusieurs langues. Cela représente pas moins de 175 000 vidéos réparties sur 48 000 chaînes.

C’est quoi YouTube Subtitles, cette base de données pour l’IA ?

Les entreprises ne sont pas allées ratisser directement chez YouTube. En effet, la base de données YouTube Subtitles a d’abord été créée par le EleutherAI. Ce groupe de recherche en intelligence artificielle à but non lucratif l’a mise au point dans l’objectif d’abaisser les barrières aux développement de modèles d’IA, pour ceux qui ne disposent pas des moyens des grandes entreprises technologiques.

Une violation pure et simple des accords d’utilisation de YouTube. Ceux-ci interdisent l’extraction automatisée des vidéos et des données qui y sont associées. C’est pourtant précisément ce sur quoi repose l’ensemble des données, obtenues à l’aide d’un script qui télécharge les sous-titres via l’API de YouTube.

Il ne s’agit là que d’un élément dans le vaste ensemble de données d’EleutherAI, appelé “Pile”. Outre les transcriptions des vidéos YouTube, Pile contient des articles Wikipédia, des discours du Parlement européen ou encore des mails issus d’une entreprise ayant fait faillite, Enron.

Mais même des géants comme Apple, Anthropic et Nvidia ont recours à cette base de données destinée aux petits projets. Cette utilisation s’est faite à l’insu des créateurs de vidéos. Des youtubeurs populaires, comme le spécialiste tech Marques Brownlee, en font partie. Proof News a mis en place un outil de recherche qui permet de d’identifier si une chaîne se trouve dans le tas.

La découverte a suscité la surprise et la colère des créateurs YouTube interrogés par les deux médias. Certains vidéastes étaient particulièrement contrariés à l’idée que leur travail puisse être utilisé sans paiement ni autorisation dans des modèles d’intelligence artificielle. La situation rappellera celle du New York Times, qui avait interdit le ratissage de son site par les IA l’année dernière.