A Anthropic acaba de lançar dois novos modelos de inteligência artificial, o Claude Sonnet 4 e o Claude Opus 4, e este último está a gerar bastante interesse, especialmente entre programadores. As promessas são ambiciosas: uma capacidade de programação significativamente melhorada, com testemunhos iniciais a indicarem uma redução considerável de erros e um aumento notável na velocidade de desenvolvimento. Se utilizas IA para te ajudar a programar, estas novidades podem ser muito relevantes para ti.

No dia 22 de maio, a Anthropic disponibilizou estas novas iterações da sua família de modelos de linguagem. Enquanto o Claude Sonnet 4 fica acessível aos utilizadores da versão gratuita, é o Claude Opus 4, disponível mediante subscrição paga, que se destaca pelas suas capacidades avançadas, particularmente no domínio da criação e otimização de código.

Anthropic apresenta os novos Claude 4: O que trazem de novo?

A aposta da Anthropic em fortalecer as suas ferramentas para o desenvolvimento de software é clara. Num comunicado no seu blog oficial, a empresa confirmou que o Claude Opus 4 atingiu uma impressionante pontuação de 72,5% no exigente Software Engineering Benchmark (SWE-bench), uma métrica utilizada para avaliar a competência de modelos de IA na resolução de problemas de engenharia de software.

Os testes internos da Anthropic demonstraram ainda que o Opus 4 consegue manter um desempenho consistente em tarefas de programação que são longas e complexas, exigindo um foco contínuo e a execução de milhares de passos. A empresa revelou que o novo modelo foi capaz de trabalhar em código de forma ininterrupta durante sete horas, uma proeza que sublinha a sua robustez para projetos mais extensos.

Ganhos reais: O testemunho da Lovable com o Claude Opus 4

As melhorias anunciadas pela Anthropic parecem encontrar eco em experiências práticas de empresas que já utilizam a sua tecnologia. A Lovable, uma empresa que integra a tecnologia Claude na sua ferramenta de programação “Vibe” – um construtor de aplicações e websites baseado em instruções de IA (prompts) – partilhou resultados animadores após a transição para o Claude 4.

Numa publicação na plataforma X (anteriormente conhecida como Twitter), a Lovable reportou uma diminuição de erros na ordem dos 25% e um aumento global de velocidade a rondar os 40%. Estes ganhos foram observados tanto na criação de novos projetos como na edição de projetos já existentes através da ferramenta Vibe, após a implementação do Claude 4.

Anton Osika, fundador da Lovable, foi ainda mais longe numa outra publicação, afirmando que “o Claude 4 simplesmente eliminou a maioria dos erros da Lovable”. Osika referia-se especificamente a erros de sintaxe que os Modelos de Linguagem de Grande Escala (LLM) por vezes cometem durante o processo de programação com a ferramenta Vibe. Esta validação por parte de um utilizador real confere um peso significativo às alegações de desempenho do novo modelo da Anthropic.

Claude Opus 4 versus Gemini: A batalha na programação

No competitivo mundo dos modelos de IA para programação, as comparações são inevitáveis. Embora as opiniões sobre o Claude 4 ainda se estejam a formar na comunidade, alguns programadores têm reportado que este modelo consegue produzir código com menos erros quando comparado com alternativas como o Gemini, da Google. Esta vantagem parece ser particularmente notada em projetos que envolvem linguagens como Dart ou Kotlin.

Contudo, é importante notar que o desempenho pode variar consideravelmente dependendo do projeto específico e, crucialmente, da qualidade e detalhe do contexto fornecido ao modelo de IA. Em cenários de teste onde não é necessária uma janela de contexto excessivamente alargada, o Claude 4 pareceu, em algumas instâncias, superar o Gemini.

A questão da janela de contexto

Os modelos Claude sempre tiveram uma boa reputação no que diz respeito à programação, mas a concorrência tem vindo a intensificar-se. A Google, por exemplo, lançou recentemente o Gemini 2.5 Pro, que impressiona com uma janela de contexto de 1 milhão de tokens. Comparativamente, a janela de contexto de 200.000 tokens do Claude 4 e dos seus antecessores pode parecer uma desvantagem à primeira vista.

No entanto, é fundamental perceber que uma janela de contexto maior não se traduz automaticamente num desempenho superior em todas as tarefas de programação. Por vezes, a forma como o modelo utiliza uma janela mais contida pode ser mais eficiente para certas aplicações.

O segredo está na combinação e na engenharia de prompts

Tanto o Claude 4 como o Gemini são capazes de demonstrar momentos de brilhantismo surpreendente, mas também podem cometer falhas inesperadas. A eficácia de cada um destes modelos depende, em grande medida, da forma como a “engenharia de prompts” é realizada – ou seja, quão claras, precisas e bem estruturadas são as instruções que tu forneces à inteligência artificial.

Muitos especialistas na área sugerem que uma abordagem mista, combinando diferentes modelos, pode ser a estratégia mais vantajosa. Por exemplo, alguns programadores estão a utilizar modelos como o Claude 3 Opus (referido como “o3” no texto original, que se presume ser uma abreviação de Claude Opus 3) ou o Gemini para o planeamento inicial de projetos e arquitetura de software. Posteriormente, para as tarefas de escrita e depuração de código propriamente ditas, recorrem ao Claude 4 e ao Gemini, aproveitando os pontos fortes de cada um.

Outros artigos interessantes: