A OpenAI está solicitando que contratados terceirizados carreguem tarefas e trabalhos reais de seus empregos atuais ou anteriores para avaliar o desempenho de seus modelos de IA de última geração. Documentos obtidos pela WIRED da OpenAI e da empresa de dados de treinamento Handshake AI revelam o objetivo do projeto de estabelecer uma linha de base de desempenho humano para várias tarefas, que será usada para avaliar as capacidades do modelo de IA.
Esta iniciativa faz parte do esforço mais amplo da OpenAI, lançado em setembro, para medir seus modelos de IA em relação a profissionais humanos em diversos setores. A empresa vê essa comparação como uma métrica crucial para avaliar o progresso em direção à conquista da inteligência geral artificial (AGI), definida como um sistema de IA que supera as capacidades humanas na maioria das tarefas economicamente valiosas.
De acordo com um documento confidencial da OpenAI, "Contratamos pessoas de diversas ocupações para ajudar a coletar tarefas do mundo real modeladas a partir daquelas que você fez em seus empregos em tempo integral, para que possamos medir o desempenho dos modelos de IA nessas tarefas." O documento instrui os contratados a "Pegar partes existentes de trabalhos complexos ou de longo prazo (horas ou dias) que você fez em sua ocupação e transformar cada um em uma tarefa."
A estratégia de coleta de dados destaca um desafio fundamental no desenvolvimento de IA: avaliar com precisão a capacidade de uma IA de realizar tarefas do mundo real. Ao comparar o desempenho da IA com uma linha de base humana derivada do trabalho real, a OpenAI visa obter uma compreensão mais detalhada dos pontos fortes e fracos de seus modelos. Essa abordagem é particularmente relevante à medida que os sistemas de IA se tornam cada vez mais integrados em ambientes profissionais.
As implicações de alcançar a AGI são de longo alcance, transformando potencialmente indústrias e remodelando a natureza do trabalho. Embora a OpenAI enfatize os benefícios potenciais da AGI, como aumento da produtividade e inovação, o desenvolvimento também levanta preocupações sobre a substituição de empregos e as considerações éticas de sistemas de IA cada vez mais autônomos.
O processo de avaliação da OpenAI reflete o debate em curso na comunidade de IA sobre a melhor forma de medir e controlar sistemas de IA cada vez mais poderosos. À medida que os modelos de IA se tornam mais sofisticados, o estabelecimento de benchmarks confiáveis e protocolos de segurança é essencial para garantir seu desenvolvimento e implantação responsáveis. A empresa não divulgou detalhes específicos sobre os tipos de tarefas que estão sendo coletadas ou os critérios usados para avaliar o desempenho da IA, mas afirmou que os dados serão usados para melhorar a precisão e a confiabilidade de seus futuros modelos de IA. O projeto está em andamento, e os resultados da avaliação devem informar os futuros esforços de desenvolvimento na OpenAI.
Discussion
Join the conversation
Be the first to comment