Soneto do Claude 3.7 e Código do Claude
Uma ilustração do Claude pensando passo a passo
Foi anunciado o Claude 3.7 Sonnet1, um modelo que incorpora um raciocínio híbrido, caracterizando-se por ser o mais avançado até o momento. O Claude 3.7 Sonnet é capaz de gerar respostas quase instantâneas ou raciocínio expandido, cuja lógica pode ser acompanhada pelo usuário. Além disso, os usuários da API possuem controle sobre o tempo de reflexão do modelo.
O Claude 3.7 Sonnet apresenta melhorias significativas em codificação e desenvolvimento web front-end. Juntamente com este modelo, foi lançada a ferramenta de linha de comando denominada Claude Code, atualmente disponível como uma prévia de pesquisa que permite aos desenvolvedores delegar tarefas de engenharia diretamente de seus terminais ao Claude.
Tela mostrando a integração do Claude Code
O Claude 3.7 Sonnet está acessível em todos os planos disponíveis, como Free, Pro, Team e Enterprise, além de estar integrado à API da Anthropic, Amazon Bedrock e Vertex AI do Google Cloud. O modo de raciocínio estendido é suportado em todas as plataformas, exceto na camada gratuita.
Os custos dos modos de raciocínio padrão e estendido permanecem inalterados em relação aos modelos anteriores: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída, incluindo tokens de raciocínio.
Claude 3.7 Sonnet: Raciocínio de ponta aplicável
O desenvolvimento do Claude 3.7 Sonnet foi guiado por uma filosofia que busca integrar os processos de raciocínio, permitindo uma experiência coesa para os usuários. Este modelo unifica o LLM tradicional e o raciocínio, permitindo que o usuário escolha entre respostas rápidas ou raciocínio aprofundado. No modo padrão, representa uma evolução do Claude 3.5 Sonnet. Já no modo de pensamento estendido, o modelo reflete antes de responder, melhorando o desempenho em tarefas como matemática, física, seguimento de instruções e codificação. De modo geral, as solicitações ao modelo apresentam desempenho similar em ambos os modos.
Além disso, ao utilizar o Claude 3.7 Sonnet via API, os usuários podem controlar o limite de tokens para raciocínio, permitindo ajustes que equilibram velocidade e custo em relação à qualidade das respostas.
Outra estratégia adotada foi reduzir a otimização para problemas de competição em matemática e ciência da computação, direcionando esforços para tarefas práticas que refletem o uso real dos LLMs nas empresas.
Testes iniciais demonstraram a superioridade do Claude em tarefas de codificação. A análise da Cursor evidenciou que o Claude se destaca na manipulação de códigos complexos e na utilização avançada de ferramentas. A Cognition constatou desempenho superior na elaboração de alterações de código e em atualizações completas. A Vercel ressaltou a precisão do Claude em fluxos complexos, enquanto a Replit implementou com sucesso o Claude na criação de aplicações web sofisticadas. Avaliações do Canva verificaram que o Claude gerou códigos de qualidade superior, com redução drástica de erros.
Gráfico de barras mostrando o Claude 3.7 Sonnet como o estado da arte para o SWE-bench Verified
O Claude 3.7 Sonnet alcançou desempenho de ponta no SWE-bench Verified, que avalia a eficiência dos modelos de IA em resolver problemas de software práticos. Consulte o apêndice para detalhes sobre scaffolding.
Gráfico de barras mostrando o Claude 3.7 Sonnet como o mais avançado para o TAU-bench
O Claude 3.7 Sonnet também se destacou no TAU-bench, que examina o desempenho de agentes de IA em tarefas complexas com interações de usuários e ferramentas. Informações adicionais sobre scaffolding podem ser consultadas no apêndice.
Tabela de benchmark comparando modelos de raciocínio de ponta
O Claude 3.7 Sonnet se sobressai em seguimento de instruções, raciocínio geral, recursos multimodais e codificação ágil, apresentando considerável avanço em matemática e ciências no modo de pensamento estendido. Além disso, superou todos os modelos anteriores em testes de gameplay de Pokémon.
Desde junho de 2024, o Sonnet tem sido amplamente adotado por desenvolvedores em todo o mundo. O lançamento do Claude Code amplia ainda mais as capacidades dos desenvolvedores, oferecendo uma ferramenta de codificação ágil em prévia de pesquisa.
O Claude Code atua como um colaborador ativo que pode pesquisar e editar códigos, executar testes, confirmar e enviar códigos para o GitHub, além de utilizar comandos de linha diretamente, mantendo os desenvolvedores informados em cada etapa do processo.
Embora o Claude Code ainda esteja em fase inicial, já tem se mostrado essencial para a equipe, especialmente em desenvolvimento orientado a testes, resolução de problemas complexos e refatoração em larga escala. Em testes preliminares, a ferramenta completou tarefas em um único ciclo que normalmente exigiriam mais de 45 minutos de trabalho manual, otimizando assim o tempo de desenvolvimento e a carga de trabalho.
Nas próximas semanas, melhorias contínuas serão implementadas, incluindo maior confiabilidade em chamadas de ferramentas, suporte a comandos de longa duração, aprimoramento da renderização no aplicativo e um melhor entendimento das capacidades do Claude.
O objetivo do Claude Code é captar como os desenvolvedores utilizam o Claude para codificação, visando informar futuras atualizações do modelo. Participar desta prévia proporciona acesso às ferramentas utilizadas para o desenvolvimento e aprimoramento do Claude, permitindo que o feedback dos usuários influencie diretamente sua evolução.
Trabalhando com o Claude em sua base de código
A experiência de codificação na plataforma Claude.ai foi aprimorada. A integração com o GitHub agora está disponível para todos os planos do Claude, permitindo que desenvolvedores conectem seus repositórios de código diretamente ao Claude.
Claude 3.7 Sonnet é o modelo de codificação mais avançado até agora. Com uma compreensão aprofundada dos projetos pessoais, profissionais e de código aberto, torna-se um parceiro eficiente na correção de bugs, desenvolvimento de recursos e documentação dos projetos mais relevantes no GitHub.
Construindo com responsabilidade
Foram realizados testes e avaliações abrangentes do Claude 3.7 Sonnet, com a colaboração de especialistas externos para garantir a conformidade com padrões de segurança, proteção e confiabilidade. O modelo é mais eficiente em distinguir entre solicitações benignas e prejudiciais, resultando em uma redução de 45% nas recusas desnecessárias em comparação com seu predecessor.
O cartão de sistema para esta versão inclui resultados de segurança em diversas categorias, oferecendo uma análise detalhada das avaliações da Política de Escalonamento Responsável, que pode ser aplicada em outros estudos de IA. O documento também aborda riscos emergentes, como ataques de injeção imediata, e detalha a avaliação das vulnerabilidades e adaptações feitas no Claude para mitigar tais ameaças. O exame das potenciais vantagens de segurança dos modelos de raciocínio também é destacado, enfatizando a capacidade de entender a racionalidade do modelo e sua confiabilidade. Consulte o cartão completo do sistema para obter informações adicionais.
O Claude 3.7 Sonnet e o Claude Code representam um avanço significativo em direção a sistemas de IA que ampliam as capacidades humanas. Com habilidades de raciocínio aprofundado, trabalho autônomo e colaboração eficiente, esses modelos se aproximam de um futuro no qual a IA não apenas assiste, mas também complementa o potencial humano.
Linha do tempo de marcos que mostra o progresso de Claude de assistente a pioneiro
Esperamos que os desenvolvedores explorem os novos recursos e criem inovações a partir deles. Agradecemos o retorno contínuo enquanto prosseguimos no aprimoramento e evolução de nossos modelos.
1 Lição aprendida sobre nomenclatura.
Fontes de dados de avaliação
Informações sobre o andaime
As pontuações obtidas foram alcançadas com um adendo à Política do Agente da Companhia Aérea, no qual foi instruído ao Claude a melhorar o uso da ferramenta de “planejamento”, onde o modelo é incentivado a anotar seu raciocínio enquanto resolve problemas, diferente do nosso modo padrão de pensamento, utilizando diversas iterações para otimizar suas capacidades. Para acomodar as etapas adicionais em que o Claude se engaja ao raciocinar mais, o número máximo de passos foi ampliado de 30 para 100 (a maioria das iterações foi concluída em menos de 30 passos, com apenas uma alcançando mais de 50).
Além disso, a pontuação do TAU-bench para o Claude 3.5 Sonnet (novo) difere do valor fornecido anteriormente no lançamento devido a melhorias no conjunto de dados introduzidas posteriormente. O conjunto de dados atualizado foi reavaliado para uma comparação mais precisa com o Claude 3.7 Sonnet.
Informações sobre o scaffolding
Existem diversas abordagens para resolver tarefas de agente aberto, como o SWE-bench. Algumas estratégias transferem parte significativa da complexidade de decidir quais arquivos investigar ou editar para uma solução mais tradicional, onde o modelo de linguagem central se limita a gerar código em locais pré-definidos ou a partir de um conjunto restrito de ações. O Agentless (Xia et al., 2024) é uma arquitetura popular usada na avaliação do R1 da Deepseek e outros modelos que aprimoram um agente por meio da recuperação de arquivos e edição, localização de patches e rejeição de amostras com base em testes de regressão. Outros scaffolds (por exemplo, Aide) complementam os modelos com computação adicional em tempo de teste, utilizando novas tentativas, melhores resultados possíveis ou Monte Carlo Tree Search (MCTS).
Para o Claude 3.7 Sonnet e Claude 3.5 Sonnet (novo), uma abordagem simplificada com mínimo scaffolding foi utilizada, onde o modelo decide quais comandos executar e quais arquivos editar em uma única sessão. O resultado primário pass@1 “no raciocínio estendido” simplesmente equipou o modelo com duas ferramentas – uma ferramenta bash e outra de edição de arquivos – juntamente com a “ferramenta de planejamento” para os resultados do TAU-bench. Por limitações de infraestrutura, apenas 489/500 problemas são realmente solucionáveis internamente. Para cálculo da pontuação vanilla pass@1, consideramos os 11 problemas não solucionáveis como falhas, mantendo a paridade com a tabela de classificação oficial. Para transparência, divulgamos os casos de teste que falharam em nossa infraestrutura.
Para nossa contagem de “alta computação”, introduzimos complexidade adicional e computação paralela em tempo de teste da seguinte forma:
Realizamos amostragem de várias tentativas em paralelo com o scaffolding descrito
Desconsideramos patches que quebram testes de regressão visíveis no repositório, semelhante à abordagem de amostragem de rejeição utilizada pelo Agentless, sem fazer uso de informações de teste ocultas.
As tentativas restantes foram classificadas com um modelo de pontuação similar aos resultados obtidos no GPQA e AIME da nossa pesquisa anterior, selecionando a melhor para entrega.
Como resultado, obtivemos uma pontuação de 70,3% no subconjunto de n=489 tarefas verificados que funcionam dentro da nossa infraestrutura. Sem o uso de scaffolding, o Claude 3.7 Sonnet alcançou 63,7% no SWE-bench Verified dentro do mesmo subconjunto. Os 11 casos de teste excluídos que apresentaram incompatibilidade com nossa infraestrutura interna são:
scikit-learn__scikit-learn-14710
matplotlib__matplotlib-20488