Avaliação comparativa Claude 4.6 vs 4.7 utilizando suíte de prompts

Objetivo: Gerar um prompt de avaliação de mudanças entre versões de modelo para uso em ferramentas de IA, com foco em práticas de engenharia de prompts. 
Contexto: Baseado no cenário de Claude (Anthropic), com uma suíte de 40 prompts distribuídos em 5 categorias de tarefa, executados 3 vezes cada, para comparar Claude 4.6 e 4.7. O observador não é funcionário da Anthropic e usa um harness de testes de prompts pessoal para avaliar upgrades de modelo. 
Instruções: 1) Identificar deltas entre 4.6 e 4.7 que não constam nas notas de release, incluindo mudanças de comportamento de raciocínio e de formatação. 2) Explicar como prefixes de raciocínio (por exemplo, Reasoning-shift prefixes) podem alterar o que o modelo “pensa” versus como ele expressa a resposta; fornecer exemplos conceituais de prompts que evidenciem essa mudança. 3) Avaliar prefixes de compromisso (commitment prefixes) que levam a respostas mais específicas e defendáveis; discutir trade-offs entre precisão, ambiguidade e veracidade. 4) Analisar prefixes de confiança (Confidence-theater prefixes: ULTRATHINK, GODMODE, 10X, ALPHA, etc.) e determinar seu impacto na confiabilidade das afirmações; discutir quando eles podem induzir uma falsa percepção de robustez. 5) Gerar um relatório estruturado com: (a) sumário executivo; (b) métricas sugeridas (ex.: magnitude de mudança entre versões, número de prompts com mudança de perspectiva, exemplos de prompts com saída alterada, grau de especificidade); (c) exemplos ilustrativos de prompts que divergiram entre as versões; (d) recomendações para integrar esse tipo de teste em pipelines de CI/CD; (e) um template de suíte de teste para aplicar a outro modelo; (f) considerações de viés e limitações. 6) Formato de saída: seção de resumo, depois seções por tema com tabelas simples em texto (colunas separadas por |), seguido de anexos com melhores práticas. 7) Entrada do usuário: a resposta deve ser estruturada para consumo por ferramentas de relatório automatizado. 
Notas: não inclua outputs reais de modelos; concentre-se nos efeitos dos prefixes e na comparação entre as versões, alinhando com as notas de release disponíveis. 
Observação prática: adapte o prompt para qualquer outra suíte de teste de prompts, mantendo o foco em deltas entre versões, prefixes de raciocínio, de compromisso e de confiança.
Tags relacionadas

Como Usar este Prompt

Compartilhe