Anthropic улучшает Claude: новый функционал заметок для эффективного решения многоэтапных задач

Компания Anthropic нашла эффективный способ повысить эффективность своего AI-помощника при выполнении сложных многоэтапных задач — предоставив ему возможность делать заметки в процессе работы. По заявлению компании, введение «блокнота», где Клод может фиксировать свои соображения, в сочетании с примерами подсказок значительно увеличивает его способность к решению проблем.

Система функционирует через команду “think”, которая предоставляет Клоду возможность записывать свои размышления перед тем, как перейти к следующему шагу. На техническом уровне это просто команда JSON, фиксирующая эти мысли.

Это нововведение отличается от недавно представленной функции “расширенное мышление”. В то время как расширенное мышление помогает Клоду обдумывать ответы перед их формированием, новый “инструмент мышления” активируется непосредственно в процессе ответа, особенно когда требуется обработка новой информации из других источников.

В ходе тестирования в сценариях, связанных с обслуживанием клиентов авиакомпаний, Клод продемонстрировал результаты, на 54% превышающие базовый уровень при использовании оптимизированной подсказки. По сведениям Anthropic, данные улучшения в многошаговых задачах и лучшее соблюдение инструкций могут существенно повысить качество работы агентских AI-систем, которые до сих пор сталкиваются с проблемами надежности. Тесты, проводимые в области программной инженерии, показали менее значительные результаты — баллы SWE-Bench улучшились на 1,6%.

Ключевым моментом является не просто наличие блокнота, а то, каким образом Клод может его эффективно использовать. Anthropic предоставляет примеры подсказок, которые показывают, как формулировать правила, проверять факты и планировать дальнейшие шаги.

По словам Anthropic, команда «think» особенно полезна для анализа выходных данных, соблюдения сложных правил и принятия сложных пошаговых решений, где ошибки могут привести к серьезным последствиям. Примеры из конкретной области помогают добиваться наилучших результатов. Инструмент «Think» стоит использовать лишь тогда, когда более простые задачи — такие как обращение к отдельным инструментам или использование подсказок с ограниченным количеством условий — становятся недостаточно надежными.

Инструмент встраивается в существующие системы Клода и влияет на производительность только в действительности, когда он используется. Хотя большинство тестов проводилось на основе Claude 3.7 Sonnet, Anthropic утверждает, что улучшения работают так же хорошо и с Claude 3.5 Sonnet.

Источник