OpenAI и компания по обучению ИИ Handshake AI, по сообщениям, запрашивают у своих сторонних подрядчиков примеры реальной работы, выполненной на прошлых и текущих должностях, что вызывает опасения по поводу интеллектуальной собственности и конфиденциальности данных. Согласно отчету Wired, эта инициатива, по-видимому, является частью более широкой стратегии среди компаний, занимающихся ИИ, по использованию подрядчиков для создания высококачественных данных для обучения, с конечной целью автоматизации большего количества задач, выполняемых "белыми воротничками".
Запрос OpenAI, изложенный в презентации компании, предлагает подрядчикам подробно описать задачи, выполняемые на предыдущих работах, и предоставить конкретные примеры своей работы, включая документы, презентации, электронные таблицы, изображения и репозитории кода. Компания инструктирует подрядчиков удалять конфиденциальную и личную информацию (PII) перед загрузкой этих файлов, предлагая доступ к "инструменту очистки ChatGPT Superstar", чтобы помочь в этом процессе.
Этот шаг подчеркивает критическую роль данных в обучении больших языковых моделей (LLM). Эти модели, такие как серия GPT от OpenAI, учатся генерировать текст человеческого качества, анализируя огромные наборы данных. Качество и релевантность этих данных для обучения напрямую влияют на производительность и возможности модели. Используя реальные примеры профессиональной работы, компании, занимающиеся ИИ, стремятся повысить точность и эффективность своих моделей в автоматизации сложных задач.
Однако эта практика поднимает серьезные юридические и этические вопросы. Юрист по интеллектуальной собственности Эван Браун сообщил Wired, что такой подход представляет значительный риск для лабораторий ИИ, поскольку он в значительной степени полагается на подрядчиков в точном определении того, что представляет собой конфиденциальную информацию. "Любая лаборатория ИИ, использующая этот подход, подвергает себя большому риску, поскольку он требует большого доверия к своим подрядчикам в определении того, что является и не является конфиденциальным", - заявил Браун.
Представитель OpenAI отказался комментировать конкретную инициативу.
Использование данных, предоставленных подрядчиками, отражает растущую тенденцию в индустрии ИИ. По мере того, как модели ИИ становятся все более сложными, спрос на высококачественные данные для обучения в реальном мире возрастает. Компании изучают различные методы получения этих данных, включая генерацию синтетических данных, веб-скрейпинг и партнерские отношения с поставщиками данных. Однако опора на подрядчиков создает уникальные проблемы, связанные с безопасностью данных, конфиденциальностью и правами интеллектуальной собственности.
Долгосрочные последствия этой стратегии сбора данных все еще раскрываются. В случае успеха это может ускорить автоматизацию рабочих мест для "белых воротничков", что потенциально повлияет на занятость в различных отраслях. Кроме того, использование данных из реального мира вызывает опасения по поводу предвзятости и справедливости в системах ИИ. Если данные для обучения отражают существующие социальные предубеждения, результирующие модели ИИ могут увековечить и усилить эти предубеждения.
Текущий статус инициативы OpenAI по сбору данных остается неясным. Неизвестно, сколько подрядчиков приняли участие или какой объем данных был собран. Поскольку компании, занимающиеся ИИ, продолжают придерживаться этой стратегии, вполне вероятно, что нормативный контроль и общественные дебаты усилятся, сосредоточившись на необходимости четких руководящих принципов и гарантий для защиты интеллектуальной собственности и индивидуальной конфиденциальности.
Discussion
Join the conversation
Be the first to comment