Claude 3.7 Sonnet от Anthropic нацеливается на OpenAI и DeepSeek в следующей большой битве ИИ

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше
Anthropic только что сделала предупредительный выстрел в OpenAI , DeepSeek и всю индустрию ИИ, выпустив Claude 3.7 Sonnet , модель, которая дает пользователям беспрецедентный контроль над тем, сколько времени ИИ тратит на « размышления » перед генерацией ответа. Выпуск, наряду с дебютом Claude Code , агента кодирования ИИ в командной строке, сигнализирует об агрессивном продвижении Anthropic на рынок корпоративного ИИ — рынке, который может изменить то, как компании создают программное обеспечение и автоматизируют работу.
Ставки не могли быть выше. В прошлом месяце DeepSeek ошеломила мир технологий моделью ИИ, которая соответствовала американским системам за малую часть стоимости , что привело к падению акций Nvidia на 17% и вызвало тревогу по поводу лидерства Америки в области ИИ. Теперь Anthropic делает ставку на то, что точный контроль над рассуждениями ИИ — а не только чистая скорость или экономия средств — даст ей преимущество.

«Мы просто считаем, что рассуждение — это основная часть и основной компонент ИИ, а не отдельная вещь, за доступ к которой нужно платить отдельно», — сказала Дайан Пенн, которая возглавляет управление продуктами для исследований в Anthropic, в интервью VentureBeat. «Как и люди, ИИ должен обрабатывать как быстрые ответы, так и сложные мысли. На простой вопрос, например «который час?», он должен отвечать мгновенно. Но для сложных задач — например, планирования двухнедельной поездки в Италию с учетом потребностей в безглютеновой диете — ему требуется больше времени на обработку».
«Мы не рассматриваем рассуждение, планирование и самокоррекцию как отдельные возможности», — добавила она. «Так что это, по сути, наш способ выразить это философское различие… В идеале сама модель должна распознавать, когда проблема требует более интенсивного мышления и корректировки, а не требовать от пользователей явно выбирать различные режимы рассуждения».

Данные бенчмарка подтверждают амбициозное видение Anthropic. В режиме расширенного мышления Claude 3.7 Sonnet достигает точности 78,2% в задачах на рассуждение на уровне выпускников, бросая вызов последним моделям OpenAI и превосходя DeepSeek R1.
Но более показательные показатели получены в ходе реальных приложений: модель набрала 81,2% баллов по использованию инструментов, ориентированных на розничную торговлю, и демонстрирует заметные улучшения в следовании инструкциям (93,2%) — областях, в которых конкуренты либо испытывают трудности, либо не опубликовали результаты.
В то время как DeepSeek и OpenAI лидируют в традиционных математических тестах , унифицированный подход Claude 3.7 демонстрирует, что одна модель может эффективно переключаться между быстрыми ответами и глубоким анализом, потенциально устраняя необходимость для предприятий поддерживать отдельные системы ИИ для разных типов задач.
Время выпуска имеет решающее значение. Появление DeepSeek в прошлом месяце вызвало шок в Кремниевой долине, показав, что сложные рассуждения ИИ могут быть достигнуты с гораздо меньшей вычислительной мощностью, чем считалось ранее. Это поставило под сомнение фундаментальные предположения о затратах на разработку ИИ и требованиях к инфраструктуре. Когда DeepSeek опубликовал свои результаты, акции Nvidia упали на 17% за один день — инвесторы внезапно засомневались, действительно ли дорогие чипы необходимы для продвинутого ИИ.
Для бизнеса ставки не могут быть выше. Компании тратят миллионы на интеграцию ИИ в свои операции, делая ставку на то, какой подход будет доминировать. Гибридная модель Anthropic предлагает убедительный средний путь: возможность тонкой настройки производительности ИИ в зависимости от поставленной задачи, от мгновенных ответов службы поддержки клиентов до сложного финансового анализа. Система сохраняет предыдущую цену Anthropic в размере 3 долларов за миллион входных токенов и 15 долларов за миллион выходных токенов, даже с добавленными функциями рассуждения.

«Наши клиенты пытаются добиться результатов для своих клиентов», — объяснил Майкл Герстенхабер, руководитель платформы Anthropic. «Использование одной и той же модели и ее поощрение разными способами позволяет кому-то вроде Thompson Reuters проводить юридические исследования, позволяет нашим партнерам по кодированию, таким как Cursor или GitHub , разрабатывать приложения и достигать этих целей».
Гибридный подход Anthropic представляет собой как техническую эволюцию, так и стратегический гамбит. В то время как OpenAI поддерживает отдельные модели для различных возможностей , а DeepSeek фокусируется на эффективности затрат , Anthropic стремится к унифицированным системам, которые могут выполнять как рутинные задачи, так и сложные рассуждения. Это философия, которая может изменить то, как компании внедряют ИИ, устраняя необходимость жонглировать несколькими специализированными моделями.
Anthropic сегодня также представила Claude Code , инструмент командной строки, который позволяет разработчикам делегировать сложные инженерные задачи непосредственно ИИ. Система требует одобрения человека перед внесением изменений в код, что отражает растущую отраслевую направленность на ответственную разработку ИИ.

«На самом деле вам все равно придется принять изменения, которые вносит Клод. Вы — рецензент, который держит все под контролем», — отметил Пенн. «По сути, есть своего рода контрольный список, который вам нужно принять, чтобы модель предприняла определенные действия».
Эти заявления прозвучали на фоне острой конкуренции в разработке ИИ. Недавно исследователи из Стэнфорда создали модель рассуждений с открытым исходным кодом стоимостью менее 50 долларов, а Microsoft только что интегрировала модель o3-mini от OpenAI в Azure. Успех DeepSeek также подстегнул новые подходы к разработке ИИ, и некоторые компании изучают методы дистилляции моделей, которые могут еще больше снизить затраты.

Пенн проиллюстрировал резкий прогресс в возможностях ИИ неожиданным примером: «Мы просили разные версии Клода играть в покемонов… Эта версия добралась до Вермилион-Сити , поймала несколько покемонов и даже прошла гринд, чтобы повысить уровень. У нее есть нужные покемоны для сражений с соперниками».
«Я думаю, вы увидите, как мы продолжим внедрять инновации и повышать качество рассуждений, продвигаться к таким вещам, как динамическое рассуждение», — объяснил Пенн. «Мы всегда считали это основной частью интеллекта, а не чем-то отдельным».
Настоящим испытанием подхода Anthropic станет принятие его на предприятии. Хотя игра Pokémon может показаться тривиальной, она демонстрирует, какой адаптивный интеллект нужен бизнесу: ИИ, который может выполнять как рутинные операции, так и сложные стратегические решения без переключения между специализированными моделями. Более ранние версии Claude не могли перемещаться за пределы начального города игры. Последняя версия разрабатывает стратегии, управляет ресурсами и принимает тактические решения — возможности, которые отражают сложность реальных бизнес-задач.
Для корпоративных клиентов это может означать разницу между поддержкой нескольких систем ИИ для разных задач и развертыванием единого, более эффективного решения. Следующие несколько месяцев покажут, изменит ли ставка Anthropic на унифицированное обоснование ИИ корпоративный рынок или станет очередным экспериментом в быстрой эволюции отрасли.
Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .
Произошла ошибка.

venturebeat