OpenAI demande à des sous-traitants externes de télécharger des missions et des tâches réelles issues de leur emploi actuel ou passé afin d'évaluer les performances de ses modèles d'IA de nouvelle génération. Des documents obtenus par WIRED auprès d'OpenAI et de la société de données d'entraînement Handshake AI révèlent que le projet vise à établir une base de référence de performance humaine pour diverses tâches, qui sera ensuite utilisée pour évaluer les capacités des modèles d'IA.
Cette initiative s'inscrit dans le cadre d'un effort plus large d'OpenAI, lancé en septembre, visant à mesurer ses modèles d'IA par rapport à des professionnels humains dans divers secteurs. L'entreprise considère cette comparaison comme une mesure cruciale pour évaluer les progrès réalisés vers la réalisation d'une intelligence artificielle générale (IAG), définie comme un système d'IA qui surpasse les capacités humaines dans la plupart des tâches économiquement intéressantes.
Selon un document confidentiel d'OpenAI, « Nous avons embauché des personnes de différentes professions pour nous aider à collecter des tâches réelles inspirées de celles que vous avez effectuées dans le cadre de votre emploi à temps plein, afin de pouvoir mesurer les performances des modèles d'IA sur ces tâches. » Le document demande aux sous-traitants de « Prendre des éléments existants de travaux complexes ou de longue haleine (heures ou jours) que vous avez effectués dans votre profession et de les transformer chacun en une tâche. »
La stratégie de collecte de données met en évidence un défi majeur dans le développement de l'IA : évaluer avec précision la capacité d'une IA à effectuer des tâches réelles. En comparant les performances de l'IA à une base de référence humaine dérivée du travail réel, OpenAI vise à acquérir une compréhension plus nuancée des forces et des faiblesses de ses modèles. Cette approche est particulièrement pertinente à mesure que les systèmes d'IA s'intègrent de plus en plus dans les environnements professionnels.
Les implications de la réalisation de l'IAG sont considérables, transformant potentiellement des industries et remodelant la nature du travail. Bien qu'OpenAI souligne les avantages potentiels de l'IAG, tels qu'une productivité et une innovation accrues, le développement soulève également des inquiétudes quant aux suppressions d'emplois et aux considérations éthiques des systèmes d'IA de plus en plus autonomes.
Le processus d'évaluation d'OpenAI reflète le débat en cours au sein de la communauté de l'IA sur la meilleure façon de mesurer et de contrôler les systèmes d'IA de plus en plus puissants. À mesure que les modèles d'IA deviennent plus sophistiqués, il est essentiel d'établir des points de référence et des protocoles de sécurité fiables pour garantir leur développement et leur déploiement responsables. L'entreprise n'a pas publié de détails spécifiques sur les types de tâches collectées ni sur les critères utilisés pour évaluer les performances de l'IA, mais elle a déclaré que les données seraient utilisées pour améliorer la précision et la fiabilité de ses futurs modèles d'IA. Le projet est en cours et les résultats de l'évaluation devraient éclairer les futurs efforts de développement d'OpenAI.
Discussion
Join the conversation
Be the first to comment