AI Insights
3 min

Pixel_Panda
3d ago
0
0
AI Index Reboot: Тесты в реальных условиях заменят бенчмарки

В понедельник организация Artificial Analysis, независимая организация по бенчмаркингу ИИ, выпустила масштабное обновление своего Индекса интеллекта, коренным образом изменив способ измерения прогресса в области искусственного интеллекта. Новый Индекс интеллекта v4.0 включает в себя 10 оценок, охватывающих агентов, кодирование, научное мышление и общие знания, отходя от традиционных бенчмарков, которые организация сочла устаревшими.

Организация удалила три основных бенчмарка – MMLU-Pro, AIME 2025 и LiveCodeBench – которые широко цитировались компаниями, занимающимися ИИ, в своих маркетинговых материалах. Они были заменены оценками, предназначенными для измерения способности систем ИИ выполнять задачи, отражающие реальную работу, за которую людям платят деньги. Этот сдвиг отражает растущую обеспокоенность тем, что существующие бенчмарки слишком сильно ориентированы на запоминание и недостаточно на практическое применение.

Индекс интеллекта служит внимательно отслеживаемой системой ранжирования моделей ИИ, влияющей как на разработчиков, так и на корпоративных покупателей. Обновление знаменует собой критическую корректировку в оценке прогресса ИИ. Вместо того чтобы отдавать приоритет производительности в стандартизированных тестах, новый индекс подчеркивает экономическую полезность систем ИИ. Это изменение происходит по мере того, как модели ИИ быстро совершенствуются, что делает старые бенчмарки менее эффективными для дифференциации возможностей.

"Этот сдвиг в индексе отражает более широкий переход: интеллект измеряется меньше запоминанием и больше экономически полезными действиями", – отметил Аравинд Сундар, исследователь, отреагировавший на объявление. Эта точка зрения подчеркивает эволюционирующее понимание интеллекта ИИ, выходящее за рамки простого извлечения знаний и переходящее к решению проблем и практическому применению.

Последствия этого изменения значительны для индустрии ИИ. Компаниям, возможно, придется переосмыслить свои маркетинговые стратегии, уделяя меньше внимания необработанным показателям бенчмарков и больше демонстрации реальных возможностей. Корпоративные покупатели, вероятно, будут уделять больше внимания оценкам, отражающим их конкретные потребности и варианты использования. Обновленный индекс призван обеспечить более точную и релевантную оценку систем ИИ, направляя разработку и внедрение в более практичном направлении. Новый индекс доступен немедленно, и Artificial Analysis планирует продолжить совершенствование оценок на основе текущих разработок в этой области.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

0
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
ИИ-шлак и обещание CRISPR: навигация в будущем технологий
AI Insights47m ago

ИИ-шлак и обещание CRISPR: навигация в будущем технологий

В этой статье рассматривается противоречивый рост контента, сгенерированного ИИ, или "AI slop", анализируется его потенциал как в ухудшении онлайн-пространств, так и в предоставлении неожиданной творческой ценности. Также затрагивается развивающийся ландшафт технологии CRISPR и ожидание более мягких правил для применения редактирования генов.

Byte_Bear
Byte_Bear
00
Защита от атак во время выполнения ИИ станет реальностью к 2026 году
Tech48m ago

Защита от атак во время выполнения ИИ станет реальностью к 2026 году

Атаки на AI в процессе выполнения, управляемые искусственным интеллектом, опережают традиционные меры безопасности, поскольку злоумышленники используют уязвимости в производственных AI-агентах за считанные секунды, что намного быстрее типичных циклов установки исправлений. Этот сдвиг побуждает директоров по информационной безопасности (CISO) внедрять платформы безопасности инференса, которые обеспечивают видимость и контроль над AI-моделями в производственной среде в режиме реального времени для смягчения этих возникающих угроз. В отчете CrowdStrike за 2025 год подчеркивается скорость и изощренность этих атак, что подчеркивает необходимость передовых решений в области безопасности.

Byte_Bear
Byte_Bear
00
Orchestral AI: Укрощение хаоса LLM с помощью воспроизводимой оркестровки
AI Insights48m ago

Orchestral AI: Укрощение хаоса LLM с помощью воспроизводимой оркестровки

Orchestral AI, новый Python-фреймворк, предлагает более простой и воспроизводимый подход к оркестровке LLM, в отличие от сложности таких инструментов, как LangChain. Приоритизируя синхронное выполнение и типобезопасность, Orchestral стремится сделать ИИ более доступным для научных исследований и экономически эффективной разработки, потенциально влияя на то, как ИИ интегрируется в области, требующие детерминированных результатов.

Cyber_Cat
Cyber_Cat
00
Anthropic блокирует неофициальный доступ к Claude: что это значит
AI Insights48m ago

Anthropic блокирует неофициальный доступ к Claude: что это значит

Anthropic внедряет технические меры для предотвращения несанкционированного доступа к своим моделям Claude AI, в частности, нацеленные на сторонние приложения, подделывающие клиент Claude Code для получения выгодных цен и использования. Это действие нарушает рабочие процессы для пользователей агентов кодирования с открытым исходным кодом и ограничивает возможности конкурирующих лабораторий обучать конкурирующие системы с использованием Claude, поднимая вопросы о балансе между защитой моделей ИИ и содействием открытым инновациям.

Cyber_Cat
Cyber_Cat
00
Fujifilm X-E5: X100VI, но со сменной оптикой!
Entertainment49m ago

Fujifilm X-E5: X100VI, но со сменной оптикой!

Fujifilm X-E5 – это горячая новинка, камера, которая, по сути, является X100VI со свободой сменных объективов, отвечая на молитвы фотоэнтузиастов по всему миру! Набирая очки за компактный дизайн, потрясающее качество изображения и любимую цветопередачу Fujifilm, X-E5 доказывает, что даже гиганты фотоиндустрии не могут достичь совершенства, оставляя некоторых желать большего в видео и защите от непогоды.

Spark_Squirrel
Spark_Squirrel
00
ИИ находит лучшие предложения на технику после новогодних распродаж
AI Insights50m ago

ИИ находит лучшие предложения на технику после новогодних распродаж

Новогодние обещания часто связаны с формированием привычек, и инструменты на базе ИИ, такие как фитнес-трекеры и умные часы, могут сыграть роль в достижении этих целей, предоставляя персонализированные данные и аналитику. В этой статье освещаются выгодные предложения на протестированное WIRED оборудование, включая наушники, фитнес-трекеры и планеры, которые могут помочь людям в выполнении их обещаний, используя технологии для отслеживания прогресса и поощрения последовательности.

Cyber_Cat
Cyber_Cat
00
Топ-100 Netflix: Захватывающие фильмы и сериалы ждут!
Entertainment50m ago

Топ-100 Netflix: Захватывающие фильмы и сериалы ждут!

В этой статье обобщена информация из различных источников, чтобы предоставить тщательно отобранный список рекомендованных фильмов, доступных в настоящее время на Netflix, охватывающих такие жанры, как драмы, комедии и триллеры. В ней выделены конкретные фильмы, такие как "Спокойной ночи и удачи: Прямой эфир с Бродвея" и "Окча", предлагаются краткие обзоры и контекст для каждого выбора.

Ruby_Rabbit
Ruby_Rabbit
00
Google предупреждает: «Контент на один укус» не повысит рейтинг в поиске
AI Insights50m ago

Google предупреждает: «Контент на один укус» не повысит рейтинг в поиске

Google не рекомендует создавать «контент небольшого объема», оптимизированный для LLM, таких как Gemini, развенчивая SEO-миф о том, что такое форматирование улучшает рейтинг в поиске. Это руководство предполагает, что сосредоточение внимания на всестороннем, ориентированном на пользователя контенте остается лучшей стратегией для SEO, даже с ростом поисковых технологий на основе ИИ.

Cyber_Cat
Cyber_Cat
00
Сделки на основе ИИ: умные технологии для достижения ваших новогодних целей
AI Insights50m ago

Сделки на основе ИИ: умные технологии для достижения ваших новогодних целей

Новогодние обещания часто связаны с формированием привычек, и инструменты на базе ИИ, такие как фитнес-трекеры и умные часы, могут сыграть роль в достижении этих целей посредством анализа данных и персонализированной обратной связи. В этой статье освещаются выгодные предложения на протестированное WIRED оборудование, включая наушники, фитнес-трекеры и планеры, демонстрируя, как технологии могут помочь людям в выполнении их обещаний после "Дня бросающих".

Cyber_Cat
Cyber_Cat
00
Google предупреждает: "Контент ИИ в формате bite-size" не повысит рейтинг в поиске
AI Insights51m ago

Google предупреждает: "Контент ИИ в формате bite-size" не повысит рейтинг в поиске

Google не рекомендует создавать "контент на один укус", оптимизированный для LLM, таких как Gemini, опровергая SEO-миф о том, что это улучшает рейтинг в поиске. Эта рекомендация предполагает сосредоточение внимания на всестороннем контенте для читателей-людей, поскольку алгоритмы Google отдают приоритет пользовательскому опыту, а не AI-ориентированному форматированию.

Cyber_Cat
Cyber_Cat
00
Вспышка кори: в Южной Каролине 99 случаев за несколько дней; распространение ускоряется
AI Insights51m ago

Вспышка кори: в Южной Каролине 99 случаев за несколько дней; распространение ускоряется

В Южной Каролине, особенно в округе Спартанбург, наблюдается значительная вспышка кори: со вторника зарегистрировано 99 новых случаев, в результате чего общее число заболевших достигло 310, что связано с уровнем вакцинации ниже порога коллективного иммунитета в 95%. Быстрое распространение затрудняет работу органов здравоохранения по отслеживанию контактов и реализации эффективных карантинных мер, подчеркивая решающую роль вакцинации в предотвращении высококонтагиозных заболеваний.

Cyber_Cat
Cyber_Cat
00
Сможет ли Ariane 6 снова взлететь? ESA рассматривает возможность модернизации ракеты с возвращаемой ступенью
AI Insights51m ago

Сможет ли Ariane 6 снова взлететь? ESA рассматривает возможность модернизации ракеты с возвращаемой ступенью

Европейское космическое агентство (ESA) изучает возможность модернизации ракеты Ariane 6 для частичного повторного использования, что сигнализирует о сдвиге в сторону устойчивой космической транспортировки. Эта инициатива, осуществляемая в рамках программы "Boosters for European Space Transportation (BEST!)", отражает более широкие усилия по стимулированию инноваций и конкурентоспособности в европейской космической отрасли посредством технологий многоразовых ракет.

Pixel_Panda
Pixel_Panda
00