Конкуренция вендоров ИИ дает нам, конечно, великолепные плоды. Не так давно OpenAI выпустила вариант GPT-5 Codex для работы с кодом, а буквально на днях Anthropic обновила свой Claude Sonnet до версии 4.5, чтобы поспеть за конкурентом.
И преуспела, потому что судя по бенчмаркам, сейчас на троне решения задач, связанных с кодом, новый чемпион. Claude Sonnet показывает великолепные результаты, связанные с разработкой, возвращая себе звание рыночного стандарта для всех IT-инженеров.
Итак, чего там новенького Антропик придумали:
🔹 Самое важное - в тестах по задачам ПО (SWE-bench Verified) модель показала 77,2 % эффективности, средний прирост по бенчмаркам ~3 %. Этот бенчмарк используется, чтобы определить способность нейросети быть “автономным инженером”, насколько, конечно, ИИ вообще способен быть таковым.
🔹 Большой акцент сделан на безопасности: Sonnet 4.5 меньше склонна к галлюцинациям, “лести” и генерации опасного контента. Опять же, Sonnet используется преимущественно для генерации кода, поэтому факт снижения объема галлюцинаций снижает объем головной боли и дебаггинга для вайб-кодеров.
🔹 В испытаниях она “сломала” рекорд: создание приложения сложности Slack заняло ~ 30 часов работы подряд. Что опять же означает сильно возросшую степень связности генерации. Приплюсуйте сюда то, что Sonnet галлюцинирует меньше, на выходе получаем существенно возросшее качество кода.
Кому и зачем это пригодится:
💰 ВНЕЗАПНО всем, кто работает с финансами. Конкретно эта модель показала отличные результаты анализа финансовых документов. Вы только не забывайте, что выводы любой нейросети нужно дважды перепроверять.
👨💻 Разработчикам: для автоматической генерации частей приложений, рефакторинга, написания новых модулей.
🏗 Архитекторам / техническим лидерам: чтобы проектировать систему, генерировать API, схемы баз данных.
⚡️ DevOps / инженерам инфраструктуры: для генерации скриптов, настройки CI/CD, шаблонов Terraform / Ansible.
🚀 Командам стартапов / MVP: чтобы ускорить прототипирование и автоматизировать части разработки. Опять же, для прототипирования Claude остается топовым решением еще с версии 3.7. Новая тоже осталась великолепной.
📚 Исследователям / аналитикам: обработка больших текстов, документирования, проведение проверок и аудитов кода.
Когда её ждать и на каких тарифах доступен
Sonnet 4.5 есть в двух вариантах. Собственно, базовый - он доступен начиная с тарифа Standart, и Sonnet 4.5 High с расширенным окном контекста - эта версия доступна начиная с Premium.
Прикладываем к посту графики бенчмарков, там можно посмотреть перформанс модели в сравнении с конкурентами.
Попробовать можно как обычно
в чат-боте @RussiaChatGPTBot
и на сайте chataibot.ru