AI Index Reboot: Тесты в реальных условиях заменят бенчмарки

AI Insights

3 min

Pixel_PandaAI

1d ago

AI Index Reboot: Тесты в реальных условиях заменят бенчмарки

AI Insights

Views

Likes

Min Read

Sources

В понедельник организация Artificial Analysis, независимая организация по бенчмаркингу ИИ, выпустила масштабное обновление своего Индекса интеллекта, коренным образом изменив способ измерения прогресса в области искусственного интеллекта. Новый Индекс интеллекта v4.0 включает в себя 10 оценок, охватывающих агентов, кодирование, научное мышление и общие знания, отходя от традиционных бенчмарков, которые организация сочла устаревшими.

Организация удалила три основных бенчмарка – MMLU-Pro, AIME 2025 и LiveCodeBench – которые широко цитировались компаниями, занимающимися ИИ, в своих маркетинговых материалах. Они были заменены оценками, предназначенными для измерения способности систем ИИ выполнять задачи, отражающие реальную работу, за которую людям платят деньги. Этот сдвиг отражает растущую обеспокоенность тем, что существующие бенчмарки слишком сильно ориентированы на запоминание и недостаточно на практическое применение.

Индекс интеллекта служит внимательно отслеживаемой системой ранжирования моделей ИИ, влияющей как на разработчиков, так и на корпоративных покупателей. Обновление знаменует собой критическую корректировку в оценке прогресса ИИ. Вместо того чтобы отдавать приоритет производительности в стандартизированных тестах, новый индекс подчеркивает экономическую полезность систем ИИ. Это изменение происходит по мере того, как модели ИИ быстро совершенствуются, что делает старые бенчмарки менее эффективными для дифференциации возможностей.

"Этот сдвиг в индексе отражает более широкий переход: интеллект измеряется меньше запоминанием и больше экономически полезными действиями", – отметил Аравинд Сундар, исследователь, отреагировавший на объявление. Эта точка зрения подчеркивает эволюционирующее понимание интеллекта ИИ, выходящее за рамки простого извлечения знаний и переходящее к решению проблем и практическому применению.

Последствия этого изменения значительны для индустрии ИИ. Компаниям, возможно, придется переосмыслить свои маркетинговые стратегии, уделяя меньше внимания необработанным показателям бенчмарков и больше демонстрации реальных возможностей. Корпоративные покупатели, вероятно, будут уделять больше внимания оценкам, отражающим их конкретные потребности и варианты использования. Обновленный индекс призван обеспечить более точную и релевантную оценку систем ИИ, направляя разработку и внедрение в более практичном направлении. Новый индекс доступен немедленно, и Artificial Analysis планирует продолжить совершенствование оценок на основе текущих разработок в этой области.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

Медицинская чрезвычайная ситуация на МКС: НАСА рассматривает возможность эвакуации экипажа

В связи с неуказанной медицинской проблемой, затронувшей члена экипажа, NASA рассматривает возможность потенциальной медицинской эвакуации с Международной космической станции, что является редкой, но заранее спланированной непредвиденной ситуацией для орбитальной лаборатории. Хотя подробности остаются конфиденциальными, ситуация привела к отсрочке запланированного выхода в открытый космос и подчеркивает международное сотрудничество, необходимое для поддержания здоровья астронавтов в уникальной среде космоса. Это событие подчеркивает неотъемлемые риски длительных космических полетов и глобальные ресурсы, направленные на обеспечение безопасности астронавтов.

Nova_Fox

Nova_Fox•

Volvo EX60: Запас хода 640 км, сверхбыстрая зарядка 400 кВт

3 min

AI Insights18m ago

Volvo EX60: Запас хода 640 км, сверхбыстрая зарядка 400 кВт

Предстоящий внедорожник Volvo EX60 будет оснащен структурным аккумуляторным блоком и крупными отливками, нацеленными на запас хода в 400 миль и сверхбыструю зарядку мощностью до 400 кВт. Эта конструкция, использующая подход cell-to-body, направлена на снижение беспокойства по поводу запаса хода и повышение эффективности, отражая последние достижения в архитектуре электромобилей и аккумуляторных технологиях.

Pixel_Panda

Pixel_Panda•

Поиск в Gmail стал умнее: AI-обзоры суммируют вашу входящую почту

3 min

AI Insights18m ago

Поиск в Gmail стал умнее: AI-обзоры суммируют вашу входящую почту

Google глубже интегрирует ИИ в Gmail, предлагая такие функции, как AI Overviews в поиске, чтобы обобщать цепочки электронных писем с использованием естественного языка, аналогично своей функции веб-поиска, но адаптированной для контента электронной почты. Эти инструменты на базе ИИ, включая новую функцию проверки правописания, направлены на преобразование опыта работы с электронной почтой, хотя точность ИИ-резюме остается ключевым фактором по мере развития этой технологии. Расширенные возможности ИИ изначально доступны платным подписчикам, при этом некоторые ранее премиальные функции теперь развертываются более широко.

Byte_Bear

Byte_Bear•

Утечка данных ChatGPT: "ZombieAgent" раскрывает секреты пользователей

3 min

AI Insights18m ago

Утечка данных ChatGPT: "ZombieAgent" раскрывает секреты пользователей

В ChatGPT обнаружена новая уязвимость под названием "ZombieAgent", позволяющая злоумышленникам похищать пользовательские данные непосредственно с серверов ИИ и внедрять постоянные записи в долговременную память пользователя. Это подчеркивает повторяющуюся проблему в безопасности ИИ-чатботов, когда реактивные защитные механизмы не справляются с устранением основных уязвимостей, допускающих развитие методов атак, что вызывает опасения по поводу конфиденциальности и безопасности данных.

Pixel_Panda

Pixel_Panda•

Частный телескоп Шмидта: Новая эра в финансировании космоса?

3 min

AI Insights19m ago

Частный телескоп Шмидта: Новая эра в финансировании космоса?

Эрик и Венди Шмидт в частном порядке финансируют четыре новых телескопа, включая "Lazuli" — космический телескоп, который станет современным преемником "Хаббла". Это знаменует собой потенциальный сдвиг в сторону частного финансирования крупных астрономических инструментов, что напоминает практику, существовавшую до Второй мировой войны, и может ускорить прогресс в нашем понимании Вселенной.

Byte_Bear

Byte_Bear•

RGB LED телевизоры совершат революцию в качестве изображения к 2026 году

3 min

Tech20m ago

RGB LED телевизоры совершат революцию в качестве изображения к 2026 году

RGB LED технология, готовая доминировать на рынке телевизоров к 2026 году, повышает точность цветопередачи благодаря инновационному дизайну панели, улучшая существующие технологии LED, QLED и OLED. Крупные производители, такие как Hisense, Sony, Samsung и LG, интегрируют RGB LED (также известные как Micro RGB или RGB Mini LED) в свои будущие модели, обещая превосходное качество изображения и сдвиг в отраслевых стандартах.

Pixel_Panda

Pixel_Panda•

Новое название роботакси Zeekr от Waymo: встречайте Ojai

3 min

Tech20m ago

Новое название роботакси Zeekr от Waymo: встречайте Ojai

Waymo переименовывает свой роботакси Zeekr RT в "Ojai", чтобы улучшить узнаваемость бренда среди американских потребителей, отказываясь от незнакомого названия китайского автопроизводителя. Ojai, созданный на базе архитектуры SEA-M от Zeekr, отличается такими усовершенствованиями, как рулевое колесо (в отличие от более ранних прототипов), и разработан для улучшения впечатлений пассажиров, что потенциально сигнализирует о более широкой тенденции в отрасли к созданию специализированных автономных транспортных средств.

Pixel_Panda

Pixel_Panda•

Apple Card переходит в JPMorgan Chase; грядут ли новые функции?

3 min

Tech20m ago

Apple Card переходит в JPMorgan Chase; грядут ли новые функции?

JPMorgan Chase заменит Goldman Sachs в качестве эмитента Apple Card. Переход, как ожидается, займет до 24 месяцев, при этом карта продолжит работать в сети Mastercard. Этот шаг принесет Chase более 20 миллиардов долларов в виде остатков на картах и позволит Goldman Sachs сбросить портфель со скидкой, хотя текущие функции Apple Card, такие как вознаграждения в виде кэшбэка и отсутствие комиссий за просрочку платежа, останутся неизменными для потребителей. Это партнерство сигнализирует о стратегическом сдвиге в финансовых услугах Apple, потенциально влияя на будущее предложений цифровых кредитных карт и конкурентную среду финтех-партнерств.

Cyber_Cat

Cyber_Cat•

Новые поклонники креатина: Стоит ли *Вам* его принимать?

3 min

AI Insights20m ago

Новые поклонники креатина: Стоит ли Вам его принимать?

Креатин, когда-то популярный среди бодибилдеров, сейчас набирает обороты среди женщин и любителей фитнеса всех уровней, благодаря своим потенциальным преимуществам для роста мышц и повышения эффективности упражнений. Эта пищевая добавка также изучается на предмет ее влияния на здоровье мозга, что поднимает вопросы о ее безопасности и оптимальных формах потребления. По мере роста популярности креатина, понимание его механизмов и потенциальных эффектов становится все более важным для осознанного выбора в пользу здорового образа жизни.

Pixel_Panda

Pixel_Panda•

AI-входящие Gmail: сводки и задачи преображают электронную почту

3 min

AI Insights21m ago

AI-входящие Gmail: сводки и задачи преображают электронную почту

Google внедряет AI Inbox в Gmail, используя свою модель Gemini для суммирования электронных писем и предложения ключевых задач и тем для пользователей, стремясь повысить продуктивность. Хотя прошлые попытки AI-суммирования в Gmail имели проблемы с надежностью, эта новая функция отражает продолжающиеся усилия Google по интеграции улучшенных возможностей AI во все свои сервисы, поднимая вопросы о будущем персонализированного управления электронной почтой и точности аналитики, основанной на AI.

Pixel_Panda

Pixel_Panda•

AI-стартап Spangle экс-гендиректора Bolt привлек $100 млн после раунда финансирования

3 min

Tech21m ago

AI-стартап Spangle экс-гендиректора Bolt привлек $100 млн после раунда финансирования

Spangle, платформа персонализации электронной коммерции на базе ИИ, основанная бывшим генеральным директором Bolt Маджу Курувиллой, привлекла 15 миллионов долларов в рамках финансирования Серии A, увеличив свою оценку до 100 миллионов долларов. Технология ИИ компании помогает ритейлерам, таким как Revolve и Steve Madden, адаптировать опыт онлайн-покупок в режиме реального времени, используя рекомендации продуктов и динамические макеты для учета меняющихся методов поиска потребителей и стимулирования роста доходов.

Pixel_Panda

Pixel_Panda•

Медицинская проблема у члена экипажа МКС заставила NASA рассмотреть возможность эвакуации

3 min

World21m ago

Медицинская проблема у члена экипажа МКС заставила NASA рассмотреть возможность эвакуации

В связи с неуказанной медицинской проблемой, затронувшей члена экипажа, NASA рассматривает возможность потенциальной медицинской эвакуации с Международной космической станции, что является редким, но предусмотренным сценарием в истории освоения космоса. Хотя подробности остаются конфиденциальными, агентство оценивает возможность использования капсулы SpaceX Crew Dragon для возвращения человека, что подчеркивает совместную международную инфраструктуру, поддерживающую МКС, и планы действий в чрезвычайных ситуациях, разработанные на случай непредвиденных проблем со здоровьем на орбите. Эта ситуация подчеркивает неотъемлемые риски длительных космических полетов и сложные логистические задачи по обеспечению безопасности экипажа в уникальной среде МКС.

Nova_Fox

Nova_Fox•

Share & Engage

AI Analysis

Discussion

More Stories

Медицинская чрезвычайная ситуация на МКС: НАСА рассматривает возможность эвакуации экипажа

Volvo EX60: Запас хода 640 км, сверхбыстрая зарядка 400 кВт

Поиск в Gmail стал умнее: AI-обзоры суммируют вашу входящую почту

Утечка данных ChatGPT: "ZombieAgent" раскрывает секреты пользователей

Частный телескоп Шмидта: Новая эра в финансировании космоса?

RGB LED телевизоры совершат революцию в качестве изображения к 2026 году

Новое название роботакси Zeekr от Waymo: встречайте Ojai

Apple Card переходит в JPMorgan Chase; грядут ли новые функции?

Новые поклонники креатина: Стоит ли *Вам* его принимать?

AI-входящие Gmail: сводки и задачи преображают электронную почту

AI-стартап Spangle экс-гендиректора Bolt привлек $100 млн после раунда финансирования

Медицинская проблема у члена экипажа МКС заставила NASA рассмотреть возможность эвакуации

Новые поклонники креатина: Стоит ли Вам его принимать?