В четверг Фонд Викимедиа объявил о заключении лицензионных соглашений с Microsoft, Meta, Amazon, Perplexity и Mistral AI, формализующих систему, в рамках которой крупные технологические компании будут компенсировать некоммерческой организации использование контента Википедии для обучения своих моделей искусственного интеллекта. Эти модели лежат в основе таких AI-ассистентов, как Microsoft Copilot и ChatGPT от OpenAI.
Эти сделки знаменуют собой значительный отход от прежней практики, когда эти компании извлекали данные из Википедии без явного разрешения. Благодаря этим соглашениям большинство крупных разработчиков ИИ теперь присоединились к программе Wikimedia Enterprise, коммерческому подразделению, которое предлагает доступ к обширной базе данных Википедии, содержащей 65 миллионов статей, через API. Этот доступ обеспечивает более высокую скорость и объемы данных по сравнению с бесплатными общедоступными API. Фонд Викимедиа не раскрыл конкретные финансовые условия этих новых партнерств.
Эти новые партнеры присоединяются к Google, которая заключила аналогичное соглашение с Wikimedia Enterprise в 2022 году, а также к более мелким организациям, таким как Ecosia, Nomic, Pleias, ProRata и Reef Media. Доходы, полученные от этих лицензионных соглашений, предназначены для компенсации значительных инфраструктурных затрат, связанных с поддержанием Википедии. Некоммерческая организация в основном полагается на небольшие пожертвования, в то время как ее контент стал важнейшим ресурсом для обучения моделей ИИ.
Использование контента Википедии в обучении ИИ подчеркивает сложные взаимоотношения между знаниями с открытым исходным кодом и быстро развивающейся областью искусственного интеллекта. Модели ИИ, особенно большие языковые модели (LLM), требуют огромных наборов данных для обучения и генерации текста, похожего на человеческий. Википедия, с ее обширной и совместно редактируемой коллекцией статей, стала бесценным источником информации для этих моделей.
Лицензионные соглашения поднимают важные вопросы об этических и экономических последствиях использования общедоступных данных для обучения коммерческих систем ИИ. Хотя Википедия получает выгоду от доходов, генерируемых этими сделками, более широкие последствия для будущего открытых знаний и развития ИИ еще предстоит увидеть. Шаг Фонда Викимедиа по монетизации доступа к своим данным отражает растущую тенденцию среди создателей контента, стремящихся получить компенсацию за использование их работы в индустрии ИИ. Текущие разработки в этой области могут потенциально изменить ландшафт обучения ИИ и доступа к данным в ближайшие годы.
Discussion
Join the conversation
Be the first to comment