Искусственный интеллектGPT-5.5 обошел Claude Fable 5 в новом бенчмарке Agents’ Last Exam
Исследователи из Калифорнийского университета в Беркли представили Agents’ Last Exam (ALE) — новый бенчмарк для оценки возможностей ИИ-агентов в выполнении экономически значимых профессиональных задач. В отличие от традиционных тестов, ALE проверяет способность моделей работать с реальными рабочими процессами, такими как 3D-моделирование, анализ медицинских данных и работа с графическими редакторами. Результаты оказались неожиданными: GPT-5.5 от OpenAI занял первое место с 24% успешных решений, опередив недавно выпущенный Claude Fable 5 от Anthropic, который набрал 22%.
Читать далее









