Claude 3.7: Análise do Sonnet e Claude Code da Anthropic

Foi anunciado hoje o Claude 3.7 Sonnet¹, o modelo mais avançado até o momento e o primeiro modelo híbrido de raciocínio disponível no mercado. O Claude 3.7 Sonnet é capaz de gerar respostas quase instantâneas ou de realizar raciocínios complexos de forma visível para o usuário. Os usuários da API têm controle detalhado sobre quanto tempo o modelo pode pensar.

O Claude 3.7 Sonnet apresenta melhorias significativas em programação e desenvolvimento web front-end. Juntamente com o modelo, estamos introduzindo uma ferramenta de linha de comando para codificação agentiva, chamada Claude Code. Esta ferramenta está disponível como uma prévia de pesquisa limitada e permite que desenvolvedores deleguem tarefas de engenharia substanciais ao Claude diretamente de seus terminais.

Tela mostrando a integração inicial do Claude Code

O Claude 3.7 Sonnet está disponível em todos os planos do Claude, incluindo Free, Pro, Team e Enterprise, além da API da Anthropic, Amazon Bedrock e Vertex AI da Google Cloud. O modo de pensamento estendido está acessível em todas as versões, exceto na gratuita.

Nos modos de raciocínio padrão e estendido, o Claude 3.7 Sonnet mantém o mesmo custo de seus predecessores: $3 por milhão de tokens de entrada e $15 por milhão de tokens de saída, incluindo tokens de raciocínio.

Claude 3.7 Sonnet: Raciocínio de ponta aplicado

O desenvolvimento do Claude 3.7 Sonnet adotou uma filosofia diferenciada em relação a outros modelos de raciocínio no mercado. Assim como os humanos utilizam um único cérebro tanto para respostas rápidas quanto para reflexões profundas, acreditamos que o raciocínio deve ser uma capacidade integrada dos modelos de ponta, e não um modelo separado. Essa abordagem unificada proporciona uma experiência mais coesa aos usuários.

O Claude 3.7 Sonnet reflete essa filosofia de várias maneiras. Primeiramente, ele combina as funcionalidades de um LLM comum e um modelo de raciocínio: o usuário pode decidir quando deseja que o modelo responda normalmente e quando precisa de um raciocínio mais prolongado antes de responder. No modo padrão, o Claude 3.7 Sonnet representa uma versão aprimorada do Claude 3.5 Sonnet. No modo de pensamento estendido, ele realiza uma auto-reflexão antes de responder, o que melhora seu desempenho em matemática, física, seguimento de instruções, programação e diversas outras tarefas. Os resultados sugerem que a forma de interagir com o modelo funciona de maneira semelhante em ambos os modos.

Em segundo lugar, ao utilizar o Claude 3.7 Sonnet através da API, os usuários podem controlar o orçamento de raciocínio: é possível determinar um limite de tokens que Claude pode usar, com um máximo de 128K tokens. Isso proporciona um equilíbrio entre velocidade (e custo) e qualidade da resposta.

Em terceiro lugar, ao desenvolver nossos modelos de raciocínio, priorizamos tarefas mais próximas da realidade, que refletem melhor como as empresas utilizam LLMs, em vez de problemas típicos de competições em matemática e computação.

Testes preliminares demonstraram a liderança do Claude em capacidades de codificação: a Cursor observou que o Claude é mais eficaz em tarefas de codificação do dia a dia, com melhorias significativas em áreas que vão desde a manipulação de bases de código complexas até o uso avançado de ferramentas. A Cognition constatou que o Claude superou outros modelos em planejamento de modificações de código e atualizações de pilha completa. A Vercel destacou a precisão excepcional do Claude em fluxos de trabalho complexos, enquanto a Replit empregou o Claude com sucesso para construir aplicativos web e dashboards do zero, onde outros modelos apresentaram dificuldades. Nas avaliações da Canva, o Claude produziu consistentemente códigos prontos para produção, com um gosto superior de design e redução significativa de erros.

Gráfico de barras mostrando o desempenho do Claude 3.7 Sonnet como state-of-the-art para SWE-bench Verified — O Claude 3.7 Sonnet alcança desempenho de ponta no SWE-bench Verified, que avalia a capacidade de modelos de IA para resolver problemas de software no mundo real. Veja o apêndice para mais informações sobre estruturação.

Gráfico de barras mostrando o desempenho do Claude 3.7 Sonnet como state-of-the-art para TAU-bench — O Claude 3.7 Sonnet alcança desempenho de ponta no TAU-bench, um framework que testa agentes de IA em tarefas reais complexas com interações de usuário e ferramentas. Veja o apêndice para mais informações sobre estruturação.

Tabela de benchmark comparando modelos de raciocínio avançados — O Claude 3.7 Sonnet se destaca em seguimento de instruções, raciocínio geral, capacidades multimodais e codificação agentiva, com o pensamento estendido proporcionando um aumento notável em matemática e ciências. Além de benchmarks tradicionais, foi o único modelo a superar todos anteriores em nossos testes de gameplay de Pokémon.

Claude Code

Desde junho de 2024, o Sonnet se consolidou como o modelo preferido por desenvolvedores em todo o mundo. Hoje, apresentamos aos desenvolvedores o Claude Code—nossa primeira ferramenta de codificação agentiva—em uma prévia de pesquisa limitada.

O Claude Code atua como colaborador ativo que pode pesquisar e ler código, editar arquivos, escrever e executar testes, além de enviar e registrar código no GitHub, mantendo os usuários atualizados em cada etapa.

Embora seja um produto inicial, o Claude Code já se tornou indispensável para nossa equipe, especialmente em desenvolvimento orientado a testes, depuração de problemas complexos e refatoração em larga escala. Em testes preliminares, o Claude Code completou tarefas em uma única execução que normalmente levariam mais de 45 minutos de trabalho manual, reduzindo tempo e esforço de desenvolvimento.

Nas próximas semanas, planejamos aprimorá-lo continuamente com base em nosso uso: melhorando a confiabilidade das chamadas de ferramentas, adicionando suporte a comandos de longa duração, melhorando a renderização in-app e expandindo a compreensão do Claude sobre suas próprias capacidades.

Nosso objetivo com o Claude Code é entender melhor como os desenvolvedores utilizam o Claude para codificação, a fim de informar melhorias futuras do modelo. Ao participar desta prévia, os usuários terão acesso às mesmas ferramentas poderosas que utilizamos para desenvolver e aprimorar Claude, e seu feedback ajudará a moldar seu futuro.

Colaborando com Claude em seu repositório de código

Além disso, aprimoramos a experiência de codificação no Claude.ai. Nossa integração com o GitHub já está disponível em todos os planos do Claude—permitindo que desenvolvedores conectem seus repositórios de código diretamente ao Claude.

O Claude 3.7 Sonnet é o nosso melhor modelo de codificação até agora. Com um entendimento mais profundo de seus projetos pessoais, profissionais e de código aberto, torna-se um parceiro mais poderoso para corrigir bugs, desenvolver funcionalidades e construir documentação em seus projetos mais relevantes do GitHub.

Desenvolvendo de maneira responsável

Realizamos testes extensivos e avaliações do Claude 3.7 Sonnet, colaborando com especialistas externos para garantir que ele atenda aos nossos padrões de segurança, proteção e confiabilidade. O Claude 3.7 Sonnet também apresenta distinções mais sutis entre solicitações prejudiciais e benignas, reduzindo recusas desnecessárias em 45% em comparação com seu predecessor.

O cartão do sistema desta versão aborda novos resultados de segurança em várias categorias, fornecendo uma análise detalhada de nossas avaliações de Política de Escalonamento Responsável que outros laboratórios de IA e pesquisadores podem aplicar em seu trabalho. O cartão também discute riscos emergentes associados ao uso de computadores, especialmente ataques de injeção de prompts, e explica como avaliamos essas vulnerabilidades e capacitamos o Claude a resistir e mitigar tais ameaças. Além disso, aborda potenciais benefícios de segurança provenientes de modelos de raciocínio: a capacidade de entender como os modelos tomam decisões e se o raciocínio do modelo é genuinamente confiável. Para mais detalhes, consulte o cartão do sistema.

Perspectivas futuras

O Claude 3.7 Sonnet e o Claude Code representam um avanço significativo em direção a sistemas de IA que podem realmente complementar as capacidades humanas. Com a habilidade de raciocinar de forma profunda, trabalhar de maneira autônoma e colaborar efetivamente, essas ferramentas nos aproximam de um futuro onde a IA enriquece e expande as realizações humanas.

Linha do tempo mostrando a evolução do Claude de assistente a pioneiro

Estamos ansiosos para que você explore essas novas capacidades e veja o que poderá criar com elas. Como sempre, valorizamos seu feedback enquanto continuamos a aprimorar e evoluir nossos modelos.

Claude 3.7 Sonnet: Raciocínio de ponta aplicado

Claude Code

Colaborando com Claude em seu repositório de código

Desenvolvendo de maneira responsável

Perspectivas futuras

Posts relacionados

Deixe um comentário Cancelar resposta