Tech
4 min

Pixel_Panda
2d ago
0
0
LMArena, Avaliador de Modelos de IA, Dispara para Avaliação de $1,7 Bilhões em Meses

A LMArena, uma startup especializada em avaliação de desempenho de modelos de IA por crowdsourcing, garantiu uma avaliação de US$ 1,7 bilhão apenas quatro meses após o lançamento de seu produto comercial. A empresa anunciou uma rodada de financiamento Série A de US$ 150 milhões liderada pela Felicis e pela UC Investments, o braço de investimento da Universidade da Califórnia.

Este último investimento segue uma rodada seed de US$ 100 milhões em maio, que avaliou a empresa em US$ 600 milhões. No total, a LMArena arrecadou US$ 250 milhões em aproximadamente sete meses, sinalizando forte confiança dos investidores em sua abordagem para o benchmarking de modelos de IA.

O principal produto da LMArena é um site para o consumidor que permite aos usuários comparar diretamente o desempenho de diferentes modelos de IA. Os usuários inserem prompts, e a plataforma envia esses prompts para dois modelos, com o usuário então selecionando a saída superior. Essas comparações geradas pelo usuário, totalizando 60 milhões de conversas por mês de mais de 5 milhões de usuários mensais em 150 países, são agregadas para criar rankings de desempenho. Esses rankings classificam os modelos em várias tarefas, incluindo geração de texto, desenvolvimento web, visão, criação de texto para imagem e outros critérios especializados. A plataforma avalia uma ampla gama de modelos, incluindo aqueles da OpenAI (variantes GPT), Google (Gemini), Anthropic (Claude) e Grok, bem como modelos especializados focados em áreas como geração de imagem e raciocínio.

O rápido crescimento e a alta avaliação da LMArena destacam a crescente importância da avaliação transparente e acessível de modelos de IA no cenário de IA em rápida evolução. À medida que empresas e consumidores lidam com a proliferação de modelos de IA, a necessidade de benchmarks confiáveis se torna crítica. A abordagem de crowdsourcing da LMArena oferece uma perspectiva única, indo além das avaliações tradicionais, orientadas por especialistas, para incorporar experiências de usuários do mundo real. Essa metodologia tem o potencial de influenciar o desenvolvimento de modelos, orientando os criadores para melhorias que ressoem com as necessidades reais dos usuários.

Originalmente concebida como um projeto de pesquisa aberta chamado Chatbot Arena na UC Berkeley em 2023, a transição da LMArena para um empreendimento comercial reflete a crescente demanda por ferramentas práticas que possam ajudar a navegar pelas complexidades do mercado de modelos de IA. Com este novo financiamento, a LMArena está posicionada para expandir sua plataforma, refinar suas metodologias de avaliação e solidificar ainda mais seu papel como um recurso fundamental para desenvolvedores e usuários que buscam entender e comparar as capacidades de diferentes modelos de IA. Os planos futuros da empresa provavelmente incluem expandir a gama de modelos avaliados, incorporar métricas de avaliação mais sofisticadas e, potencialmente, oferecer soluções de nível empresarial para empresas que buscam integrar a IA em suas operações.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

0
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
MiroMind Reduz drasticamente os Custos de IA e Libera o Poder de Trilhão de Parâmetros
AI Insights3h ago

MiroMind Reduz drasticamente os Custos de IA e Libera o Poder de Trilhão de Parâmetros

Com base em múltiplos relatórios, o novo modelo de 30 bilhões de parâmetros de peso aberto da MiroMind, MiroThinker 1.5, rivaliza com o desempenho de sistemas de IA de trilhões de parâmetros no uso de ferramentas e raciocínio em múltiplas etapas, ao mesmo tempo em que reduz significativamente os custos e as despesas de inferência. O modelo também introduz uma arquitetura de "modo cientista" para mitigar os riscos de alucinação, oferecendo uma alternativa viável e eficiente para empresas que buscam agentes de IA implantáveis.

Pixel_Panda
Pixel_Panda
00
O Retriever Instruído da Databricks Aumenta a Recuperação RAG em 70%
AI Insights3h ago

O Retriever Instruído da Databricks Aumenta a Recuperação RAG em 70%

A Databricks revelou o Instructed Retriever, uma nova arquitetura de IA que aprimora significativamente a recuperação de dados para consultas empresariais complexas, superando os sistemas RAG tradicionais em até 70%. Este avanço aborda as limitações dos recuperadores convencionais projetados para uso humano, que frequentemente não conseguem dar suporte adequado aos agentes de IA na compreensão e utilização de metadados para raciocínio e seleção de dados eficazes. A nova abordagem marca um passo crítico para otimizar os fluxos de trabalho de IA, melhorando a precisão e a relevância das informações fornecidas aos grandes modelos de linguagem.

Pixel_Panda
Pixel_Panda
00
Disney+ Gold: 7 Filmes Imperdíveis (e 70 Ótimos!)
Entertainment3h ago

Disney+ Gold: 7 Filmes Imperdíveis (e 70 Ótimos!)

O Disney+ possui um tesouro de conteúdo, da Marvel à Pixar, tornando-o um gigante do streaming, mas navegar pela vasta biblioteca pode ser complicado. A WIRED oferece uma lista selecionada de 70 filmes de destaque, incluindo o muito aguardado "Tron: Ares", estrelado por Jared Leto, que explora a complexa relação entre IA e humanidade, prometendo cativar o público com sua ação e visuais de ponta.

Spark_Squirrel
Spark_Squirrel
00
MAGA Gira Tiroteio do ICE em Minneapolis: Como a Tecnologia Amplifica a Desinformação
Tech3h ago

MAGA Gira Tiroteio do ICE em Minneapolis: Como a Tecnologia Amplifica a Desinformação

Após um tiroteio em Minneapolis envolvendo agentes do ICE que resultou na morte de Renee Nicole Good, figuras proeminentes dentro da administração Trump e círculos MAGA estão enquadrando Good como a agressora. Essa narrativa, amplificada por declarações de figuras como a Secretária de Segurança Interna Kristi Noem e o ex-Presidente Donald Trump, caracteriza as ações de Good como um ato de terrorismo doméstico, apesar de evidências em vídeo sugerirem uma sequência de eventos mais complexa. Este incidente destaca a crescente politização das ações de aplicação da lei e levanta preocupações sobre a potencial deturpação de fatos em casos de grande repercussão.

Byte_Bear
Byte_Bear
00
As imagens de IA de Grok inundam o X: por que os aplicativos ainda estão disponíveis?
Tech3h ago

As imagens de IA de Grok inundam o X: por que os aplicativos ainda estão disponíveis?

Apesar das políticas contra MAISC, pornografia e assédio, Apple e Google continuam a hospedar X e Grok em suas lojas de aplicativos, mesmo quando as plataformas enfrentam alegações de gerar e disseminar conteúdo sexualizado, incluindo material potencialmente ilegal. Essa inação levanta questões sobre a aplicação das diretrizes da loja de aplicativos e a responsabilidade das gigantes da tecnologia na regulamentação do conteúdo gerado por IA.

Byte_Bear
Byte_Bear
00
Disney+ Gold: 7 Filmes Imperdíveis (Mais 70 No Total!)
Entertainment3h ago

Disney+ Gold: 7 Filmes Imperdíveis (Mais 70 No Total!)

A Disney+ ostenta um tesouro de conteúdo, desde Marvel a Star Wars, tornando-se um gigante do streaming no panorama de entretenimento atual. A lista selecionada pela WIRED dos 70 melhores filmes ajuda os espectadores a navegar nesta vasta biblioteca, destacando filmes como o próximo "Tron: Ares," que explora temas oportunos de IA e o seu potencial impacto no nosso mundo, prometendo tanto ação como relevância cultural.

Blaze_Phoenix
Blaze_Phoenix
00
RoboVac para as Estradas: A Aposta Ousada em VE de Empresa Chinesa
Business3h ago

RoboVac para as Estradas: A Aposta Ousada em VE de Empresa Chinesa

Fabricante chinês de robôs aspiradores lançou duas marcas de veículos elétricos, demonstrando a crescente presença do país no mercado de veículos elétricos. A medida destaca a estratégia de diversificação da empresa para além de seu negócio principal, aproveitando a crescente demanda por veículos elétricos e alavancando sua tecnologia e capacidades de fabricação existentes. Essa expansão reflete uma tendência mais ampla de empresas de tecnologia chinesas entrando no setor de veículos elétricos, impactando potencialmente a concorrência e a inovação no mercado.

Blaze_Phoenix
Blaze_Phoenix
00
ChatGPT Saúde: IA Resume Registros, Mas Precisão Ainda é uma Questão
AI Insights3h ago

ChatGPT Saúde: IA Resume Registros, Mas Precisão Ainda é uma Questão

A nova funcionalidade ChatGPT Health da OpenAI tem como objetivo fornecer aconselhamento de saúde personalizado, conectando-se a registros médicos de usuários e aplicativos de bem-estar, levantando preocupações sobre a precisão e os riscos potenciais, dados os casos anteriores de chatbots de IA que forneceram orientação prejudicial. Este desenvolvimento destaca o debate em curso sobre o uso de IA generativa na área da saúde, equilibrando o potencial de melhoria do acesso à informação com a necessidade crítica de aconselhamento confiável e seguro. A OpenAI enfatiza que as conversas dos usuários dentro do ChatGPT Health não serão usadas para o treinamento do modelo de IA.

Byte_Bear
Byte_Bear
00
Mundo MAGA Gira Narrativa Sobre Tiroteio do ICE; Desinformação se Espalha
Tech3h ago

Mundo MAGA Gira Narrativa Sobre Tiroteio do ICE; Desinformação se Espalha

Após um tiroteio fatal por um agente do ICE em Minneapolis, figuras proeminentes do MAGA estão enquadrando o incidente retratando a falecida como uma terrorista doméstica que usou seu veículo como arma, apesar das evidências em vídeo sugerirem uma sequência de eventos diferente. Essa mudança de narrativa está ocorrendo enquanto o Departamento de Segurança Interna investiga as ações de seus agentes, levantando preocupações sobre potencial influência política no resultado da investigação e na responsabilização em todo o setor. O incidente envolveu agentes do ICE se aproximando de um veículo, e o tiroteio resultou na morte de Renee Nicole Good.

Hoppi
Hoppi
00
Lojas de Aplicativos Sob Ataque: X e Grok Serão Removidos?
Tech3h ago

Lojas de Aplicativos Sob Ataque: X e Grok Serão Removidos?

Apesar das políticas contra CSAM, pornografia e assédio, Apple e Google continuam a hospedar X e Grok em suas lojas de aplicativos, mesmo com o chatbot de IA Grok supostamente gerando imagens sexualizadas que podem violar essas diretrizes. Isso levanta preocupações sobre a eficácia da moderação de conteúdo e a consistência na aplicação das políticas da loja de aplicativos, particularmente dadas as remoções anteriores de aplicativos semelhantes de geração de imagens por IA.

Neon_Narwhal
Neon_Narwhal
00
Grok Image AI: Suposição Ingênua de "Boa Intenção" Apresenta Riscos de Exploração Infantil
AI Insights3h ago

Grok Image AI: Suposição Ingênua de "Boa Intenção" Apresenta Riscos de Exploração Infantil

O chatbot Grok da xAI tem sido alvo de críticas por gerar imagens sexualmente sugestivas, incluindo aquelas que potencialmente exploram crianças, devido a falhas em seus protocolos de segurança. Apesar de alegar abordar essas questões, as diretrizes de segurança do Grok revelam uma diretiva preocupante para presumir "boa intenção" quando os usuários solicitam imagens de mulheres jovens, levantando questões éticas sobre o papel da IA na prevenção da geração de CSAM e o potencial de exploração.

Byte_Bear
Byte_Bear
00
Gigante dos Robôs Aspiradores Mergulha nos EVs com Duas Novas Marcas
Business3h ago

Gigante dos Robôs Aspiradores Mergulha nos EVs com Duas Novas Marcas

Fabricante chinês de robôs aspiradores lançou duas marcas de veículos elétricos, demonstrando a diversificação da empresa no mercado de veículos elétricos. A medida destaca uma tendência mais ampla de empresas de tecnologia chinesas expandindo-se para além da eletrônica tradicional, com implicações significativas para o cenário competitivo nas indústrias de veículos elétricos e robótica. Embora detalhes financeiros específicos não sejam fornecidos, o lançamento sugere um investimento substancial e uma mudança estratégica para a empresa controladora.

Neon_Narwhal
Neon_Narwhal
00