OpenAI просит сторонних подрядчиков загружать реальные задания и задачи с их текущего или предыдущего места работы для оценки производительности своих моделей ИИ следующего поколения. Документы, полученные WIRED от OpenAI и компании по обучению данных Handshake AI, раскрывают цель проекта: установить базовый уровень производительности человека для различных задач, который затем будет использоваться для оценки возможностей моделей ИИ.
Эта инициатива является частью более широких усилий OpenAI, начатых в сентябре, по измерению производительности своих моделей ИИ по сравнению с профессионалами в различных отраслях. Компания рассматривает это сравнение как важнейший показатель прогресса в достижении общего искусственного интеллекта (AGI), определяемого как система ИИ, которая превосходит возможности человека в большинстве экономически ценных задач.
Согласно конфиденциальному документу OpenAI, "Мы наняли людей разных профессий, чтобы помочь собрать реальные задачи, смоделированные на основе тех, которые вы выполняли на своей основной работе, чтобы мы могли измерить, насколько хорошо модели ИИ справляются с этими задачами". Документ предписывает подрядчикам: "Возьмите существующие части долгосрочной или сложной работы (часы или дни), которую вы выполняли по своей профессии, и превратите каждую в задачу".
Стратегия сбора данных подчеркивает ключевую проблему в разработке ИИ: точную оценку способности ИИ выполнять реальные задачи. Сравнивая производительность ИИ с базовым уровнем человека, полученным на основе фактической работы, OpenAI стремится получить более тонкое понимание сильных и слабых сторон своих моделей. Этот подход особенно актуален, поскольку системы ИИ все больше интегрируются в профессиональную среду.
Последствия достижения AGI далеко идущие, потенциально преобразующие отрасли и меняющие характер работы. Хотя OpenAI подчеркивает потенциальные выгоды AGI, такие как повышение производительности и инноваций, разработка также вызывает опасения по поводу вытеснения рабочих мест и этических соображений, связанных с все более автономными системами ИИ.
Процесс оценки OpenAI отражает продолжающиеся дебаты в сообществе ИИ о том, как лучше измерять и контролировать все более мощные системы ИИ. Поскольку модели ИИ становятся все более сложными, установление надежных контрольных показателей и протоколов безопасности имеет важное значение для обеспечения их ответственной разработки и развертывания. Компания не опубликовала конкретных сведений о типах собираемых задач или критериях, используемых для оценки производительности ИИ, но заявила, что данные будут использоваться для повышения точности и надежности ее будущих моделей ИИ. Проект продолжается, и ожидается, что результаты оценки повлияют на будущие усилия по разработке в OpenAI.
Discussion
Join the conversation
Be the first to comment