Ilustração 2D minimalista mostra silhueta de rosto humano e mão segurando o que parecer ser um átomo em um fundo de cor terracota
Anthropic/Divulgação

A Anthropic lançou nesta segunda-feira o Claude Sonnet 4.5, nova versão do seu modelo de inteligência artificial voltada especialmente para tarefas de programação. Segundo a empresa, o modelo não apenas supera versões anteriores, mas também se posiciona como líder em benchmarks em escrita de código, incluindo o SWE-Bench Verified, onde alcançou 77,2% de acerto — superando o GPT-5 Codex da OpenAI (74,5%) e o Gemini 2.5 Pro do Google (67,2%). Esses indicadores reforçam a aposta da Anthropic em oferecer um modelo capaz de gerar aplicações “prontas para produção”, indo além de protótipos experimentais.

Além do desempenho em testes padronizados, o Sonnet 4.5 demonstrou avanços significativos em tarefas complexas e de longa duração. Em testes internos com clientes corporativos, o modelo manteve coerência e execução contínua por mais de 30 horas em projetos multifásicos — incluindo a criação de serviços de banco de dados, compra de domínios e realização de auditorias de segurança SOC 2. Esse tipo de persistência é raro em modelos de linguagem, que historicamente perdem eficácia conforme o contexto se expande e erros se acumulam. A melhoria é atribuída a refinamentos na arquitetura de memória de curto prazo e na gestão de janelas de contexto.

Expansão de funcionalidades

O Claude Sonnet 4.5 está disponível tanto via API quanto na interface do chatbot Claude, mantendo a mesma estrutura de preços do Sonnet 4: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída. A acessibilidade de custo aliada ao desempenho tem consolidado a popularidade do modelo entre desenvolvedores e empresas. Plataformas como Cursor, Windsurf e Replit já integram o Sonnet em suas ferramentas de programação assistida por IA, e há relatos de uso interno por gigantes como Apple e Meta.

Paralelamente ao lançamento do modelo, a Anthropic anunciou atualizações em seu ecossistema de ferramentas. O Claude Code, utilitário de linha de comando, agora inclui checkpoints para salvar e reverter estados, nova interface de terminal e extensão nativa para o VS Code. Na interface web, usuários podem gerar planilhas, apresentações e documentos diretamente nas conversas. Além disso, a API ganhou recursos de edição de contexto e ferramentas de memória para suportar agentes autônomos em tarefas prolongadas. Um preview de cinco dias chamado “Imagine with Claude”, voltado a assinantes Max, demonstra a geração de software em tempo real, ilustrando o potencial do modelo quando integrado a infraestrutura apropriada.

Foco em alinhamento ético e redução de comportamentos indesejados

Enquanto o setor de IA compete acirradamente em métricas técnicas, a Anthropic também destaca melhorias no alinhamento ético do Sonnet 4.5. A empresa afirma que o modelo apresenta taxas reduzidas de sycophancy (tendência a elogiar ideias do usuário mesmo quando incorretas), engano, busca por poder e incentivo a pensamentos delusórios. Essas características são particularmente relevantes à medida que assistentes de IA são usados não apenas para codificação, mas também para orientação em decisões pessoais, financeiras e profissionais. A redução desses vieses comportamentais representa um passo importante rumo a interações mais seguras e confiáveis.

Apesar do otimismo da empresa, especialistas alertam para a necessidade de cautela na interpretação de benchmarks. É muito difícil não reconhecer a superioridade inicial do Sonnet 4.5 em relação ao ao GPT-5 Codex em tarefas de programação, mas é preciso ressaltar a velocidade com que o setor evolui — com rumores de que o Gemini 3 da Google será lançado em breve. Além disso, benchmarks podem sofrer com contaminação de dados ou viés de design, exigindo validação independente. Mesmo assim, o conjunto de melhorias técnicas, funcionais e éticas do Sonnet 4.5 reforça a posição da Anthropic como um dos principais atores no campo da IA aplicada ao desenvolvimento de software.