OpenAI et la société de données d'entraînement Handshake AI demanderaient à leurs sous-traitants tiers de télécharger des exemples de travaux réels effectués dans le cadre de leurs fonctions passées et actuelles, ce qui soulève des inquiétudes quant à la propriété intellectuelle et à la confidentialité des données. Selon un rapport de Wired, cette initiative semble s'inscrire dans une stratégie plus large des entreprises d'IA visant à tirer parti des sous-traitants pour générer des données d'entraînement de haute qualité, dans le but ultime d'automatiser davantage de tâches administratives.
La demande d'OpenAI, décrite dans une présentation de l'entreprise, invite les sous-traitants à détailler les tâches effectuées dans le cadre de leurs emplois précédents et à fournir des exemples concrets de leur travail, notamment des documents, des présentations, des feuilles de calcul, des images et des référentiels de code. L'entreprise demande aux sous-traitants de supprimer les informations exclusives et les informations personnelles identifiables (PII) avant de télécharger ces fichiers, en leur offrant l'accès à un "outil de nettoyage ChatGPT Superstar" pour les aider dans ce processus.
Cette démarche souligne le rôle essentiel des données dans l'entraînement des grands modèles linguistiques (LLM). Ces modèles, comme la série GPT d'OpenAI, apprennent à générer du texte de qualité humaine en analysant de vastes ensembles de données. La qualité et la pertinence de ces données d'entraînement ont un impact direct sur les performances et les capacités du modèle. En utilisant des exemples concrets de travaux professionnels, les entreprises d'IA visent à améliorer la précision et l'efficacité de leurs modèles dans l'automatisation de tâches complexes.
Cependant, cette pratique soulève d'importantes questions juridiques et éthiques. L'avocat spécialisé en propriété intellectuelle Evan Brown a déclaré à Wired que cette approche représente un risque considérable pour les laboratoires d'IA, car elle repose fortement sur la capacité des sous-traitants à déterminer avec précision ce qui constitue une information confidentielle. "Tout laboratoire d'IA qui adopte cette approche prend de grands risques avec une approche qui exige une grande confiance dans ses sous-traitants pour décider ce qui est confidentiel ou non", a déclaré M. Brown.
Un porte-parole d'OpenAI a refusé de commenter cette initiative spécifique.
L'utilisation de données fournies par des sous-traitants reflète une tendance croissante dans l'industrie de l'IA. À mesure que les modèles d'IA deviennent plus sophistiqués, la demande de données d'entraînement de haute qualité et issues du monde réel augmente. Les entreprises explorent diverses méthodes pour obtenir ces données, notamment la génération de données synthétiques, le web scraping et les partenariats avec des fournisseurs de données. Le recours à des sous-traitants, cependant, introduit des défis uniques liés à la sécurité des données, à la confidentialité et aux droits de propriété intellectuelle.
Les implications à long terme de cette stratégie de collecte de données sont encore en train de se révéler. Si elle réussit, elle pourrait accélérer l'automatisation des emplois de bureau, ce qui pourrait avoir un impact sur l'emploi dans divers secteurs. De plus, l'utilisation de données du monde réel soulève des inquiétudes quant aux biais et à l'équité dans les systèmes d'IA. Si les données d'entraînement reflètent les biais sociétaux existants, les modèles d'IA qui en résultent peuvent perpétuer et amplifier ces biais.
L'état actuel de l'initiative de collecte de données d'OpenAI reste incertain. On ne sait pas combien de sous-traitants ont participé ou le volume de données qui a été collecté. Alors que les entreprises d'IA continuent de poursuivre cette stratégie, il est probable que l'examen réglementaire et le débat public s'intensifieront, en se concentrant sur la nécessité de directives claires et de garanties pour protéger la propriété intellectuelle et la vie privée des individus.
Discussion
Join the conversation
Be the first to comment