2025-09-30 08:02:08
🖍 Claude Sonnet 4.5 от Anthropic
У меня на экране — барчарт SWE-bench Verified. у соннета 4.5 — 77.2% «без параллели», 82.0% с параллельным тест-тайм вычислением. справа сереют gpt-5 и его codex-вариант (72.8/74.5), в хвосте gemini 2.5 pro (67.2). Становится ясно: эпоха «попробуем один раз прогнать» умерла — теперь побеждает тот, кто умеет гонять агентные пайплайны.
Что антрoпик реально привезли:
▫️ Школьная математика и рассуждение: AIME-2025 до 100% «юзая python» (без — 87.0%) у GPT-5 99.6% (без — 94.6%, имхо у GPT-5 даже лучше), GPQA-Diamond 83.4%, мультиязычный MMLU 89.1%. Кстати, GPT-5 обгоняет на визуальных MMMU, а gemini держит GPQA-диамант выше.
▫️ Долгое внимание: в реальных задачах модель не теряет нить >30 часов + «high compute» режим = параллельные попытки + отбраковка
tl;dr
1) Sonnet 4.5 — новый лидер в реальном кодинге
2) Лучше GPT-5? На бумаге — да, а так хз, надо тестить. Ну а так догоняющее развитие никто не отменял
👓 https://www.anthropic.com/news/claude-sonnet-4-5
У меня на экране — барчарт SWE-bench Verified. у соннета 4.5 — 77.2% «без параллели», 82.0% с параллельным тест-тайм вычислением. справа сереют gpt-5 и его codex-вариант (72.8/74.5), в хвосте gemini 2.5 pro (67.2). Становится ясно: эпоха «попробуем один раз прогнать» умерла — теперь побеждает тот, кто умеет гонять агентные пайплайны.
Что антрoпик реально привезли:
▫️ Школьная математика и рассуждение: AIME-2025 до 100% «юзая python» (без — 87.0%) у GPT-5 99.6% (без — 94.6%, имхо у GPT-5 даже лучше), GPQA-Diamond 83.4%, мультиязычный MMLU 89.1%. Кстати, GPT-5 обгоняет на визуальных MMMU, а gemini держит GPQA-диамант выше.
▫️ Долгое внимание: в реальных задачах модель не теряет нить >30 часов + «high compute» режим = параллельные попытки + отбраковка
tl;dr
1) Sonnet 4.5 — новый лидер в реальном кодинге
2) Лучше GPT-5? На бумаге — да, а так хз, надо тестить. Ну а так догоняющее развитие никто не отменял
👓 https://www.anthropic.com/news/claude-sonnet-4-5