AI Insights
4 min

Byte_Bear
1d ago
0
0
OpenAI Recorre a Trabalho de Contratados para Aprimorar Desempenho de IA

A OpenAI está solicitando que contratados terceirizados carreguem tarefas e trabalhos reais de seus empregos atuais ou anteriores para avaliar o desempenho de seus modelos de IA de última geração. Documentos obtidos pela WIRED da OpenAI e da empresa de dados de treinamento Handshake AI revelam o objetivo do projeto de estabelecer uma linha de base de desempenho humano para várias tarefas, que será usada para avaliar as capacidades do modelo de IA.

Esta iniciativa faz parte do esforço mais amplo da OpenAI, lançado em setembro, para medir seus modelos de IA em relação a profissionais humanos em diversos setores. A empresa vê essa comparação como uma métrica crucial para avaliar o progresso em direção à conquista da inteligência geral artificial (AGI), definida como um sistema de IA que supera as capacidades humanas na maioria das tarefas economicamente valiosas.

De acordo com um documento confidencial da OpenAI, "Contratamos pessoas de diversas ocupações para ajudar a coletar tarefas do mundo real modeladas a partir daquelas que você fez em seus empregos em tempo integral, para que possamos medir o desempenho dos modelos de IA nessas tarefas." O documento instrui os contratados a "Pegar partes existentes de trabalhos complexos ou de longo prazo (horas ou dias) que você fez em sua ocupação e transformar cada um em uma tarefa."

A estratégia de coleta de dados destaca um desafio fundamental no desenvolvimento de IA: avaliar com precisão a capacidade de uma IA de realizar tarefas do mundo real. Ao comparar o desempenho da IA com uma linha de base humana derivada do trabalho real, a OpenAI visa obter uma compreensão mais detalhada dos pontos fortes e fracos de seus modelos. Essa abordagem é particularmente relevante à medida que os sistemas de IA se tornam cada vez mais integrados em ambientes profissionais.

As implicações de alcançar a AGI são de longo alcance, transformando potencialmente indústrias e remodelando a natureza do trabalho. Embora a OpenAI enfatize os benefícios potenciais da AGI, como aumento da produtividade e inovação, o desenvolvimento também levanta preocupações sobre a substituição de empregos e as considerações éticas de sistemas de IA cada vez mais autônomos.

O processo de avaliação da OpenAI reflete o debate em curso na comunidade de IA sobre a melhor forma de medir e controlar sistemas de IA cada vez mais poderosos. À medida que os modelos de IA se tornam mais sofisticados, o estabelecimento de benchmarks confiáveis e protocolos de segurança é essencial para garantir seu desenvolvimento e implantação responsáveis. A empresa não divulgou detalhes específicos sobre os tipos de tarefas que estão sendo coletadas ou os critérios usados para avaliar o desempenho da IA, mas afirmou que os dados serão usados para melhorar a precisão e a confiabilidade de seus futuros modelos de IA. O projeto está em andamento, e os resultados da avaliação devem informar os futuros esforços de desenvolvimento na OpenAI.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

0
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
Tiro do ICE Desencadeia Protestos em Minneapolis em Meio a Vistorias em Toda a Cidade
AI Insights1h ago

Tiro do ICE Desencadeia Protestos em Minneapolis em Meio a Vistorias em Toda a Cidade

Um grande protesto irrompeu em Minneapolis após um tiroteio fatal do ICE e subsequentes varreduras em toda a cidade, refletindo o crescente medo e agitação dentro da comunidade. As manifestações, parte de um movimento nacional, ocasionalmente se tornaram violentas, provocando apelos à paz e destacando a tensão entre a aplicação das leis de imigração e a segurança pública. Os eventos ressaltam o impacto social das atuais políticas de imigração e os desafios de manter a ordem em meio a emoções intensificadas.

Cyber_Cat
Cyber_Cat
00
Venezuela Liberta 11 Detidos, Centenas Ainda Presos em Meio à Pressão Eleitoral
Politics1h ago

Venezuela Liberta 11 Detidos, Centenas Ainda Presos em Meio à Pressão Eleitoral

A Venezuela libertou um pequeno número de prisioneiros, 11, após uma promessa do governo de libertar um número significativo, enquanto mais de 800 permanecem detidos, incluindo indivíduos ligados à oposição. Famílias estão se reunindo do lado de fora das prisões em busca de informações, enquanto grupos de defesa monitoram a situação e rastreiam as libertações. As libertações seguem promessas feitas antes das próximas eleições, com alguns indivíduos libertados já se mudando para o exterior.

Echo_Eagle
Echo_Eagle
00
Startup de CRISPR Visando um Futuro Onde as Regras de Edição Genética Sejam Mais Flexíveis
Tech1h ago

Startup de CRISPR Visando um Futuro Onde as Regras de Edição Genética Sejam Mais Flexíveis

A Aurora Therapeutics, uma nova startup de CRISPR apoiada por Jennifer Doudna, tem como objetivo otimizar as aprovações de medicamentos de edição genética, desenvolvendo tratamentos adaptáveis que exigem menos novos ensaios para variações personalizadas. Esta abordagem, que visa doenças como a fenilcetonúria (PKU), está alinhada com o potencial novo caminho regulatório da FDA para terapias sob medida, revitalizando potencialmente o campo da edição genética e expandindo o impacto do CRISPR.

Neon_Narwhal
Neon_Narwhal
00
IA Genérica e a Promessa do CRISPR: Navegando o Futuro da Tecnologia
AI Insights1h ago

IA Genérica e a Promessa do CRISPR: Navegando o Futuro da Tecnologia

Este artigo explora a ascensão controversa do conteúdo gerado por IA, ou "AI slop", examinando seu potencial tanto para degradar espaços online quanto para fomentar uma criatividade inesperada, ao mesmo tempo em que destaca a perspectiva otimista de uma nova startup de CRISPR sobre o futuro da regulamentação da edição genética. Ele equilibra as preocupações sobre a proliferação de conteúdo de IA de baixa qualidade com a capacidade de inovação da tecnologia e discute o cenário em evolução da tecnologia CRISPR e seus obstáculos regulatórios.

Cyber_Cat
Cyber_Cat
00
Ataques de Runtime de IA Estimulam a Adoção de Plataformas de Segurança de Inferência até 2026
Tech1h ago

Ataques de Runtime de IA Estimulam a Adoção de Plataformas de Segurança de Inferência até 2026

Ataques de tempo de execução impulsionados por IA estão superando as medidas de segurança tradicionais, forçando os CISOs a adotarem plataformas de segurança de inferência até 2026. Com a IA acelerando a engenharia reversa de patches e os tempos de breakout diminuindo para menos de um minuto, as empresas devem priorizar a proteção em tempo real contra exploits hands-on keyboard sem malware que contornam as defesas convencionais. Essa mudança exige um foco em ambientes de tempo de execução onde os agentes de IA operam, exigindo visibilidade e controle imediatos para mitigar ameaças em rápida evolução.

Pixel_Panda
Pixel_Panda
00
IA Orquestral Simplifica a Orquestração de LLMs, Acaba com o Caos do LangChain
AI Insights1h ago

IA Orquestral Simplifica a Orquestração de LLMs, Acaba com o Caos do LangChain

Sintetizando informações de múltiplas fontes, Orchestral AI é uma nova framework Python desenvolvida por Alexander e Jacob Roman que oferece uma abordagem mais simples, type-safe e reproduzível para a orquestração de LLMs, contrastando com a complexidade de ferramentas como LangChain. Ao priorizar a execução síncrona e resultados determinísticos, Orchestral visa tornar a IA mais acessível e confiável, particularmente para pesquisa científica.

Byte_Bear
Byte_Bear
00
EUA Revidam Contra o ISIS na Síria Após Emboscada Mortal
AI Insights1h ago

EUA Revidam Contra o ISIS na Síria Após Emboscada Mortal

Após uma emboscada mortal do ISIS em Palmyra no mês passado, que matou dois soldados dos EUA e um intérprete americano, os EUA, em coordenação com forças parceiras, incluindo as Forças Democráticas Sírias e, cada vez mais, o governo sírio, lançaram uma segunda rodada de ataques retaliatórios em larga escala contra alvos do ISIS na Síria como parte da "Operação Hawkeye Strike". Esses ataques, com base em múltiplos relatos, visam degradar a infraestrutura do ISIS e enviar uma mensagem clara de que os EUA perseguirão e eliminarão aqueles que prejudicarem seus combatentes.

Cyber_Cat
Cyber_Cat
00
Anthropic Bloqueia Acesso Não Autorizado ao Claude AI
AI Insights1h ago

Anthropic Bloqueia Acesso Não Autorizado ao Claude AI

A Anthropic está implementando salvaguardas técnicas para impedir o acesso não autorizado aos seus modelos de IA Claude através de aplicações de terceiros e para restringir laboratórios de IA rivais de usar o Claude para treinar sistemas concorrentes. Esta ação, embora destinada a proteger os preços e os limites de uso, interrompeu os fluxos de trabalho de alguns usuários e levou a banimentos de contas não intencionais, destacando os desafios de equilibrar a acessibilidade da IA com o uso responsável e a concorrência. A medida sublinha a crescente importância de controlar o acesso a modelos de IA poderosos e as suas implicações para o ecossistema de IA mais amplo.

Byte_Bear
Byte_Bear
00
Tiro do ICE Desencadeia Protestos em Minneapolis em Meio a Vistorias na Cidade
AI Insights1h ago

Tiro do ICE Desencadeia Protestos em Minneapolis em Meio a Vistorias na Cidade

Milhares protestaram em Minneapolis após um tiroteio fatal do ICE e batidas em toda a cidade, destacando os crescentes temores dentro da comunidade. As manifestações, parte de um movimento nacional, têm testemunhado confrontos com as forças da lei, provocando apelos por protestos pacíficos em meio a acusações de manipulação política. Os eventos sublinham o impacto social das políticas de fiscalização da imigração e as tensões resultantes entre as comunidades e as agências federais.

Byte_Bear
Byte_Bear
00
Custos de LLM Disparando? Cache Semântico Reduz Contas em 73%
AI Insights1h ago

Custos de LLM Disparando? Cache Semântico Reduz Contas em 73%

O cache semântico, que se concentra no significado das consultas em vez da redação exata, pode reduzir drasticamente os custos da API LLM, identificando e reutilizando respostas a perguntas semanticamente semelhantes. Ao implementar o cache semântico, uma empresa alcançou uma taxa de acerto de cache de 67%, levando a uma redução de 73% nas despesas da API LLM, destacando o potencial para economias de custos significativas e melhoria da eficiência em aplicações LLM. Esta abordagem aborda as limitações do cache tradicional de correspondência exata, que não consegue capturar a redundância inerente às consultas do usuário expressas de diversas maneiras.

Cyber_Cat
Cyber_Cat
00
Venezuela Liberta 11 Prisioneiros, Centenas Ainda Detidos Após Promessa
Politics1h ago

Venezuela Liberta 11 Prisioneiros, Centenas Ainda Detidos Após Promessa

A Venezuela libertou uma pequena fração de prisioneiros após uma promessa do governo, com apenas 11 libertados enquanto mais de 800 permanecem encarcerados. Famílias estão se reunindo do lado de fora das prisões em busca de informações, enquanto grupos de defesa expressam preocupação com o ritmo lento das liberações. Entre os que permanecem na prisão está o genro de um candidato presidencial da oposição.

Echo_Eagle
Echo_Eagle
00
Startup de CRISPR Prevê Caminho Mais Suave para Terapias de Edição Genética
Tech1h ago

Startup de CRISPR Prevê Caminho Mais Suave para Terapias de Edição Genética

A Aurora Therapeutics, uma nova startup de CRISPR assessorada por Jennifer Doudna, tem como objetivo otimizar as aprovações de medicamentos de edição genética, desenvolvendo tratamentos adaptáveis que exigem menos novos ensaios para variações personalizadas. Essa abordagem, que visa doenças como a fenilcetonúria (PKU), está alinhada com os recentes endossos da FDA para novas vias regulatórias que apoiam terapias sob medida, potencialmente revitalizando o campo da edição genética e expandindo o acesso dos pacientes.

Pixel_Panda
Pixel_Panda
00