Jeudi, la Wikimedia Foundation a annoncé des accords de licence avec Microsoft, Meta, Amazon, Perplexity et Mistral AI, officialisant ainsi un système permettant aux grandes entreprises technologiques de rémunérer l'organisation à but non lucratif pour l'utilisation du contenu de Wikipédia dans l'entraînement de leurs modèles d'intelligence artificielle. Ces modèles alimentent des assistants IA tels que Microsoft Copilot et ChatGPT d'OpenAI.
Ces accords marquent un tournant important par rapport à la pratique antérieure de ces entreprises qui consistait à extraire des données de Wikipédia sans autorisation explicite. Avec ces accords, la plupart des principaux développeurs d'IA ont désormais rejoint le programme Wikimedia Enterprise, une filiale commerciale qui offre un accès API à la vaste base de données de Wikipédia, qui compte 65 millions d'articles. Cet accès offre des vitesses et des volumes de données plus élevés par rapport aux API publiques et gratuites. La Wikimedia Foundation n'a pas divulgué les conditions financières spécifiques de ces nouveaux partenariats.
Ces nouveaux partenaires rejoignent Google, qui a conclu un accord similaire avec Wikimedia Enterprise en 2022, ainsi que des entités plus petites comme Ecosia, Nomic, Pleias, ProRata et Reef Media. Les revenus générés par ces accords de licence sont destinés à compenser les coûts d'infrastructure considérables liés à la maintenance de Wikipédia. L'organisation à but non lucratif dépend principalement de petits dons du public, alors que son contenu est devenu une ressource essentielle pour l'entraînement des modèles d'IA.
L'utilisation du contenu de Wikipédia dans l'entraînement de l'IA met en évidence la relation complexe entre la connaissance open source et le domaine de l'intelligence artificielle en évolution rapide. Les modèles d'IA, en particulier les grands modèles de langage (LLM), nécessitent des ensembles de données massifs pour apprendre et générer du texte de type humain. Wikipédia, avec sa vaste collection d'articles modifiés en collaboration, est devenue une source d'information inestimable pour ces modèles.
Les accords de licence soulèvent des questions importantes sur les implications éthiques et économiques de l'utilisation de données accessibles au public pour entraîner des systèmes d'IA commerciaux. Bien que Wikipédia bénéficie des revenus générés par ces accords, les implications plus larges pour l'avenir de la connaissance ouverte et du développement de l'IA restent à déterminer. La décision de la Wikimedia Foundation de monétiser l'accès à ses données reflète une tendance croissante parmi les créateurs de contenu qui cherchent à être rémunérés pour l'utilisation de leur travail dans l'industrie de l'IA. Les développements en cours dans ce domaine pourraient potentiellement remodeler le paysage de l'entraînement de l'IA et de l'accès aux données dans les années à venir.
Discussion
Join the conversation
Be the first to comment