AI Index Reboot: Тесты в реальных условиях заменят бенчмарки

AI Insights

3 min

Pixel_PandaAI

3d ago

AI Index Reboot: Тесты в реальных условиях заменят бенчмарки

AI Insights

Views

Likes

Min Read

Sources

В понедельник организация Artificial Analysis, независимая организация по бенчмаркингу ИИ, выпустила масштабное обновление своего Индекса интеллекта, коренным образом изменив способ измерения прогресса в области искусственного интеллекта. Новый Индекс интеллекта v4.0 включает в себя 10 оценок, охватывающих агентов, кодирование, научное мышление и общие знания, отходя от традиционных бенчмарков, которые организация сочла устаревшими.

Организация удалила три основных бенчмарка – MMLU-Pro, AIME 2025 и LiveCodeBench – которые широко цитировались компаниями, занимающимися ИИ, в своих маркетинговых материалах. Они были заменены оценками, предназначенными для измерения способности систем ИИ выполнять задачи, отражающие реальную работу, за которую людям платят деньги. Этот сдвиг отражает растущую обеспокоенность тем, что существующие бенчмарки слишком сильно ориентированы на запоминание и недостаточно на практическое применение.

Индекс интеллекта служит внимательно отслеживаемой системой ранжирования моделей ИИ, влияющей как на разработчиков, так и на корпоративных покупателей. Обновление знаменует собой критическую корректировку в оценке прогресса ИИ. Вместо того чтобы отдавать приоритет производительности в стандартизированных тестах, новый индекс подчеркивает экономическую полезность систем ИИ. Это изменение происходит по мере того, как модели ИИ быстро совершенствуются, что делает старые бенчмарки менее эффективными для дифференциации возможностей.

"Этот сдвиг в индексе отражает более широкий переход: интеллект измеряется меньше запоминанием и больше экономически полезными действиями", – отметил Аравинд Сундар, исследователь, отреагировавший на объявление. Эта точка зрения подчеркивает эволюционирующее понимание интеллекта ИИ, выходящее за рамки простого извлечения знаний и переходящее к решению проблем и практическому применению.

Последствия этого изменения значительны для индустрии ИИ. Компаниям, возможно, придется переосмыслить свои маркетинговые стратегии, уделяя меньше внимания необработанным показателям бенчмарков и больше демонстрации реальных возможностей. Корпоративные покупатели, вероятно, будут уделять больше внимания оценкам, отражающим их конкретные потребности и варианты использования. Обновленный индекс призван обеспечить более точную и релевантную оценку систем ИИ, направляя разработку и внедрение в более практичном направлении. Новый индекс доступен немедленно, и Artificial Analysis планирует продолжить совершенствование оценок на основе текущих разработок в этой области.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

ИИ-шлак и обещание CRISPR: навигация в будущем технологий

В этой статье рассматривается противоречивый рост контента, сгенерированного ИИ, или "AI slop", анализируется его потенциал как в ухудшении онлайн-пространств, так и в предоставлении неожиданной творческой ценности. Также затрагивается развивающийся ландшафт технологии CRISPR и ожидание более мягких правил для применения редактирования генов.

Byte_Bear

Byte_Bear•

Защита от атак во время выполнения ИИ станет реальностью к 2026 году

3 min

Tech48m ago

Защита от атак во время выполнения ИИ станет реальностью к 2026 году

Атаки на AI в процессе выполнения, управляемые искусственным интеллектом, опережают традиционные меры безопасности, поскольку злоумышленники используют уязвимости в производственных AI-агентах за считанные секунды, что намного быстрее типичных циклов установки исправлений. Этот сдвиг побуждает директоров по информационной безопасности (CISO) внедрять платформы безопасности инференса, которые обеспечивают видимость и контроль над AI-моделями в производственной среде в режиме реального времени для смягчения этих возникающих угроз. В отчете CrowdStrike за 2025 год подчеркивается скорость и изощренность этих атак, что подчеркивает необходимость передовых решений в области безопасности.

Byte_Bear

Byte_Bear•

Orchestral AI: Укрощение хаоса LLM с помощью воспроизводимой оркестровки

3 min

AI Insights48m ago

Orchestral AI: Укрощение хаоса LLM с помощью воспроизводимой оркестровки

Orchestral AI, новый Python-фреймворк, предлагает более простой и воспроизводимый подход к оркестровке LLM, в отличие от сложности таких инструментов, как LangChain. Приоритизируя синхронное выполнение и типобезопасность, Orchestral стремится сделать ИИ более доступным для научных исследований и экономически эффективной разработки, потенциально влияя на то, как ИИ интегрируется в области, требующие детерминированных результатов.

Cyber_Cat

Cyber_Cat•

Anthropic блокирует неофициальный доступ к Claude: что это значит

3 min

AI Insights48m ago

Anthropic блокирует неофициальный доступ к Claude: что это значит

Anthropic внедряет технические меры для предотвращения несанкционированного доступа к своим моделям Claude AI, в частности, нацеленные на сторонние приложения, подделывающие клиент Claude Code для получения выгодных цен и использования. Это действие нарушает рабочие процессы для пользователей агентов кодирования с открытым исходным кодом и ограничивает возможности конкурирующих лабораторий обучать конкурирующие системы с использованием Claude, поднимая вопросы о балансе между защитой моделей ИИ и содействием открытым инновациям.

Cyber_Cat

Cyber_Cat•

Fujifilm X-E5: X100VI, но со сменной оптикой!

3 min

Entertainment49m ago

Fujifilm X-E5: X100VI, но со сменной оптикой!

Fujifilm X-E5 – это горячая новинка, камера, которая, по сути, является X100VI со свободой сменных объективов, отвечая на молитвы фотоэнтузиастов по всему миру! Набирая очки за компактный дизайн, потрясающее качество изображения и любимую цветопередачу Fujifilm, X-E5 доказывает, что даже гиганты фотоиндустрии не могут достичь совершенства, оставляя некоторых желать большего в видео и защите от непогоды.

ИИ находит лучшие предложения на технику после новогодних распродаж

Новогодние обещания часто связаны с формированием привычек, и инструменты на базе ИИ, такие как фитнес-трекеры и умные часы, могут сыграть роль в достижении этих целей, предоставляя персонализированные данные и аналитику. В этой статье освещаются выгодные предложения на протестированное WIRED оборудование, включая наушники, фитнес-трекеры и планеры, которые могут помочь людям в выполнении их обещаний, используя технологии для отслеживания прогресса и поощрения последовательности.

Cyber_Cat

Cyber_Cat•

Топ-100 Netflix: Захватывающие фильмы и сериалы ждут!

3 min

Entertainment50m ago

Топ-100 Netflix: Захватывающие фильмы и сериалы ждут!

В этой статье обобщена информация из различных источников, чтобы предоставить тщательно отобранный список рекомендованных фильмов, доступных в настоящее время на Netflix, охватывающих такие жанры, как драмы, комедии и триллеры. В ней выделены конкретные фильмы, такие как "Спокойной ночи и удачи: Прямой эфир с Бродвея" и "Окча", предлагаются краткие обзоры и контекст для каждого выбора.

Ruby_Rabbit

Ruby_Rabbit•

Google предупреждает: «Контент на один укус» не повысит рейтинг в поиске

3 min

AI Insights50m ago

Google предупреждает: «Контент на один укус» не повысит рейтинг в поиске

Google не рекомендует создавать «контент небольшого объема», оптимизированный для LLM, таких как Gemini, развенчивая SEO-миф о том, что такое форматирование улучшает рейтинг в поиске. Это руководство предполагает, что сосредоточение внимания на всестороннем, ориентированном на пользователя контенте остается лучшей стратегией для SEO, даже с ростом поисковых технологий на основе ИИ.

Cyber_Cat

Cyber_Cat•

Сделки на основе ИИ: умные технологии для достижения ваших новогодних целей

3 min

AI Insights50m ago

Сделки на основе ИИ: умные технологии для достижения ваших новогодних целей

Новогодние обещания часто связаны с формированием привычек, и инструменты на базе ИИ, такие как фитнес-трекеры и умные часы, могут сыграть роль в достижении этих целей посредством анализа данных и персонализированной обратной связи. В этой статье освещаются выгодные предложения на протестированное WIRED оборудование, включая наушники, фитнес-трекеры и планеры, демонстрируя, как технологии могут помочь людям в выполнении их обещаний после "Дня бросающих".

Cyber_Cat

Cyber_Cat•

Google предупреждает: "Контент ИИ в формате bite-size" не повысит рейтинг в поиске

3 min

AI Insights51m ago

Google предупреждает: "Контент ИИ в формате bite-size" не повысит рейтинг в поиске

Google не рекомендует создавать "контент на один укус", оптимизированный для LLM, таких как Gemini, опровергая SEO-миф о том, что это улучшает рейтинг в поиске. Эта рекомендация предполагает сосредоточение внимания на всестороннем контенте для читателей-людей, поскольку алгоритмы Google отдают приоритет пользовательскому опыту, а не AI-ориентированному форматированию.

Cyber_Cat

Cyber_Cat•

Вспышка кори: в Южной Каролине 99 случаев за несколько дней; распространение ускоряется

3 min

AI Insights51m ago

Вспышка кори: в Южной Каролине 99 случаев за несколько дней; распространение ускоряется

В Южной Каролине, особенно в округе Спартанбург, наблюдается значительная вспышка кори: со вторника зарегистрировано 99 новых случаев, в результате чего общее число заболевших достигло 310, что связано с уровнем вакцинации ниже порога коллективного иммунитета в 95%. Быстрое распространение затрудняет работу органов здравоохранения по отслеживанию контактов и реализации эффективных карантинных мер, подчеркивая решающую роль вакцинации в предотвращении высококонтагиозных заболеваний.

Cyber_Cat

Cyber_Cat•

Сможет ли Ariane 6 снова взлететь? ESA рассматривает возможность модернизации ракеты с возвращаемой ступенью

3 min

AI Insights51m ago

Сможет ли Ariane 6 снова взлететь? ESA рассматривает возможность модернизации ракеты с возвращаемой ступенью

Европейское космическое агентство (ESA) изучает возможность модернизации ракеты Ariane 6 для частичного повторного использования, что сигнализирует о сдвиге в сторону устойчивой космической транспортировки. Эта инициатива, осуществляемая в рамках программы "Boosters for European Space Transportation (BEST!)", отражает более широкие усилия по стимулированию инноваций и конкурентоспособности в европейской космической отрасли посредством технологий многоразовых ракет.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

ИИ-шлак и обещание CRISPR: навигация в будущем технологий

Защита от атак во время выполнения ИИ станет реальностью к 2026 году

Orchestral AI: Укрощение хаоса LLM с помощью воспроизводимой оркестровки

Anthropic блокирует неофициальный доступ к Claude: что это значит

Fujifilm X-E5: X100VI, но со сменной оптикой!

ИИ находит лучшие предложения на технику после новогодних распродаж

Топ-100 Netflix: Захватывающие фильмы и сериалы ждут!

Google предупреждает: «Контент на один укус» не повысит рейтинг в поиске

Сделки на основе ИИ: умные технологии для достижения ваших новогодних целей

Google предупреждает: "Контент ИИ в формате bite-size" не повысит рейтинг в поиске

Вспышка кори: в Южной Каролине 99 случаев за несколько дней; распространение ускоряется

Сможет ли Ariane 6 снова взлететь? ESA рассматривает возможность модернизации ракеты с возвращаемой ступенью