El jueves, la Fundación Wikimedia anunció acuerdos de licencia con Microsoft, Meta, Amazon, Perplexity y Mistral AI, formalizando un sistema para que las grandes empresas tecnológicas compensen a la organización sin fines de lucro por usar el contenido de Wikipedia para entrenar sus modelos de inteligencia artificial. Estos modelos impulsan asistentes de IA como Microsoft Copilot y ChatGPT de OpenAI.
Los acuerdos marcan un cambio significativo con respecto a la práctica anterior de estas empresas de extraer datos de Wikipedia sin permiso explícito. Con estos acuerdos, la mayoría de los principales desarrolladores de IA se han unido al programa Wikimedia Enterprise, una subsidiaria comercial que ofrece acceso API a la extensa base de datos de Wikipedia de 65 millones de artículos. Este acceso proporciona mayores velocidades y volúmenes de datos en comparación con las API públicas y gratuitas. La Fundación Wikimedia no reveló los términos financieros específicos de estas nuevas asociaciones.
Estos nuevos socios se unen a Google, que estableció un acuerdo similar con Wikimedia Enterprise en 2022, junto con entidades más pequeñas como Ecosia, Nomic, Pleias, ProRata y Reef Media. Los ingresos generados por estos acuerdos de licencia están destinados a ayudar a compensar los sustanciales costos de infraestructura asociados con el mantenimiento de Wikipedia. La organización sin fines de lucro depende principalmente de pequeñas donaciones públicas, mientras que su contenido se ha convertido en un recurso crucial para el entrenamiento de modelos de IA.
El uso del contenido de Wikipedia en el entrenamiento de IA destaca la compleja relación entre el conocimiento de código abierto y el campo de la inteligencia artificial en rápida evolución. Los modelos de IA, en particular los modelos de lenguaje grandes (LLM), requieren conjuntos de datos masivos para aprender y generar texto similar al humano. Wikipedia, con su vasta colección de artículos editados en colaboración, se ha convertido en una fuente de información invaluable para estos modelos.
Los acuerdos de licencia plantean preguntas importantes sobre las implicaciones éticas y económicas del uso de datos disponibles públicamente para entrenar sistemas comerciales de IA. Si bien Wikipedia se beneficia de los ingresos generados por estos acuerdos, las implicaciones más amplias para el futuro del conocimiento abierto y el desarrollo de la IA están por verse. La decisión de la Fundación Wikimedia de monetizar el acceso a sus datos refleja una tendencia creciente entre los creadores de contenido que buscan una compensación por el uso de su trabajo en la industria de la IA. Los desarrollos en curso en esta área podrían remodelar potencialmente el panorama del entrenamiento de la IA y el acceso a los datos en los próximos años.
Discussion
Join the conversation
Be the first to comment