Na quinta-feira, a Wikimedia Foundation anunciou acordos de licenciamento com Microsoft, Meta, Amazon, Perplexity e Mistral AI, formalizando um sistema para que grandes empresas de tecnologia compensem a organização sem fins lucrativos pelo uso do conteúdo da Wikipedia para treinar seus modelos de inteligência artificial. Esses modelos alimentam assistentes de IA como o Microsoft Copilot e o ChatGPT da OpenAI.
Os acordos marcam uma mudança significativa em relação à prática anterior dessas empresas de extrair dados da Wikipedia sem permissão explícita. Com esses acordos, a maioria dos principais desenvolvedores de IA agora aderiram ao programa Wikimedia Enterprise, uma subsidiária comercial que oferece acesso via API ao extenso banco de dados da Wikipedia de 65 milhões de artigos. Este acesso oferece velocidades e volumes de dados mais altos em comparação com as APIs públicas e gratuitas. A Wikimedia Foundation não divulgou os termos financeiros específicos dessas novas parcerias.
Esses novos parceiros se juntam ao Google, que estabeleceu um acordo semelhante com a Wikimedia Enterprise em 2022, juntamente com entidades menores como Ecosia, Nomic, Pleias, ProRata e Reef Media. A receita gerada com esses acordos de licenciamento destina-se a ajudar a compensar os substanciais custos de infraestrutura associados à manutenção da Wikipedia. A organização sem fins lucrativos depende principalmente de pequenas doações públicas, enquanto seu conteúdo se tornou um recurso crucial para o treinamento de modelos de IA.
O uso do conteúdo da Wikipedia no treinamento de IA destaca a complexa relação entre o conhecimento de código aberto e o campo da inteligência artificial em rápida evolução. Os modelos de IA, particularmente os grandes modelos de linguagem (LLMs), exigem conjuntos de dados massivos para aprender e gerar texto semelhante ao humano. A Wikipedia, com sua vasta coleção de artigos editados colaborativamente, tornou-se uma fonte de informação inestimável para esses modelos.
Os acordos de licenciamento levantam questões importantes sobre as implicações éticas e econômicas do uso de dados disponíveis publicamente para treinar sistemas comerciais de IA. Embora a Wikipedia se beneficie da receita gerada por esses acordos, as implicações mais amplas para o futuro do conhecimento aberto e do desenvolvimento de IA permanecem a ser vistas. A decisão da Wikimedia Foundation de monetizar o acesso aos seus dados reflete uma tendência crescente entre os criadores de conteúdo que buscam compensação pelo uso de seu trabalho na indústria de IA. Os desenvolvimentos contínuos nesta área podem potencialmente remodelar o cenário do treinamento de IA e do acesso a dados nos próximos anos.
Discussion
Join the conversation
Be the first to comment