OpenAI o3: модель, которая сломала бенчмарки
Утро. Twitter. Одна цифра.
96.7%
Это результат OpenAI o3 на ARC-AGI — бенчмарке, который должен был быть непроходимым для AI до 2027.
Контекст
ARC-AGI (Abstract Reasoning Corpus) — тест на абстрактное мышление. Не знание фактов, не генерация текста. Чистая логика. Паттерны. Обобщение.
В 2024 году лучшие модели набирали 30-40%. Люди — около 85%.
o3 набрал 96.7%. Больше, чем средний человек.
Что произошло
OpenAI не просто улучшила модель. Они изменили архитектуру reasoning.
Ключевые отличия o3:
- Adaptive compute — модель сама решает, сколько «думать» над задачей
- Chain-of-thought scaling — чем сложнее задача, тем длиннее внутреннее рассуждение
- Hierarchical reasoning — декомпозиция сложных задач на подзадачи
Почему это важно
Бенчмарки — это не реальный мир. Но ARC-AGI — особый случай. Это тест на обобщение. Способность решать задачи, которых не было в обучающих данных.
📬 Такие разборы — каждый день в Telegram.
Подписаться в TG →Power Index: что это значит для бизнеса
Если AI может обобщать на уровне человека — это меняет всё:
- Coding: AI пишет не по шаблону, а решает новые задачи
- Аналитика: находит паттерны, которые человек не видит
- Стратегия: принимает решения в нестандартных ситуациях
PI отрасли AI: 9,800 (↑ 400 за неделю).
Станислав Виниченко
Основатель Atlas CEO, детектив сингулярности
"Экспонента не спрашивает разрешения."
Рассылка Atlas CEO
Фронтовые сводки Сингулярности. Каждый день в 9:00. Бесплатно.
Подписаться в Telegram