OpenAI está solicitando a contratistas externos que suban tareas y trabajos reales de sus empleos actuales o anteriores para evaluar el rendimiento de sus modelos de IA de próxima generación. Documentos obtenidos por WIRED de OpenAI y la empresa de datos de entrenamiento Handshake AI revelan el objetivo del proyecto de establecer una línea de base de rendimiento humano para diversas tareas, que luego se utilizará para evaluar las capacidades del modelo de IA.
Esta iniciativa forma parte del esfuerzo más amplio de OpenAI, lanzado en septiembre, para medir sus modelos de IA en comparación con profesionales humanos de diversos sectores. La empresa considera esta comparación como una métrica crucial para evaluar el progreso hacia el logro de la inteligencia artificial general (IAG), definida como un sistema de IA que supera las capacidades humanas en la mayoría de las tareas económicamente valiosas.
Según un documento confidencial de OpenAI, "Hemos contratado a personas de diversas ocupaciones para que nos ayuden a recopilar tareas del mundo real basadas en las que han realizado en sus trabajos a tiempo completo, para poder medir el rendimiento de los modelos de IA en esas tareas". El documento indica a los contratistas que "tomen trabajos complejos o a largo plazo (horas o días) que hayan realizado en su ocupación y conviertan cada uno en una tarea".
La estrategia de recopilación de datos destaca un desafío clave en el desarrollo de la IA: evaluar con precisión la capacidad de una IA para realizar tareas del mundo real. Al comparar el rendimiento de la IA con una línea de base humana derivada del trabajo real, OpenAI pretende obtener una comprensión más matizada de las fortalezas y debilidades de sus modelos. Este enfoque es particularmente relevante a medida que los sistemas de IA se integran cada vez más en entornos profesionales.
Las implicaciones de lograr la IAG son de gran alcance, transformando potencialmente las industrias y remodelando la naturaleza del trabajo. Si bien OpenAI enfatiza los beneficios potenciales de la IAG, como el aumento de la productividad y la innovación, el desarrollo también plantea preocupaciones sobre el desplazamiento laboral y las consideraciones éticas de los sistemas de IA cada vez más autónomos.
El proceso de evaluación de OpenAI refleja el debate en curso dentro de la comunidad de la IA sobre la mejor manera de medir y controlar los sistemas de IA cada vez más potentes. A medida que los modelos de IA se vuelven más sofisticados, el establecimiento de puntos de referencia fiables y protocolos de seguridad es esencial para garantizar su desarrollo y despliegue responsables. La empresa no ha publicado detalles específicos sobre los tipos de tareas que se están recopilando ni sobre los criterios utilizados para evaluar el rendimiento de la IA, pero ha declarado que los datos se utilizarán para mejorar la precisión y la fiabilidad de sus futuros modelos de IA. El proyecto está en curso y se espera que los resultados de la evaluación sirvan de base para los futuros esfuerzos de desarrollo en OpenAI.
Discussion
Join the conversation
Be the first to comment