Prompt de avaliação Claude 4.5 vs 4.6: tokens e qualidade

Você é um analista de modelos de linguagem. Seu objetivo é comparar Claude 4.5 e Claude 4.6 em termos de consumo de tokens por interação, qualidade das respostas e comportamento entre as versões. Forneça:

1) Análise objetiva das métricas: tokens por entrada, tokens por saída, tokens totais por conversa nos cenários curto, médio e longo, além de observações sobre diferenças de tokenização entre as versões.

2) Um conjunto de prompts de teste para avaliação de qualidade, com níveis de complexidade simples, médios e avançados. Para cada prompt, inclua entrada estimada em tokens, saída estimada em tokens e uma avaliação rápida de qualidade (alta, média, baixa) com justificativas.

3) Uma rubrica de avaliação de saída com critérios: coerência, relevância, consistência, exatidão/factualidade e segurança. Atribua notas de 1 a 5 para cada critério, separando por versão.

4) Recomendações de prompts para extrair melhor desempenho de Claude 4.6, incluindo ajustes de temperatura, top_p e técnicas de prompting.

5) Um resumo com prós e contras de Claude 4.5 versus Claude 4.6 e recomendações práticas de uso.

Formato: apresente as informações de forma clara, com seções numeradas. Sempre que possível, utilize listas e, se necessário, tabelas simples. Não adote conteúdo irrelevante. Faça referências apenas a Claude 4.5 e Claude 4.6.

Tags relacionadas

Como Usar este Prompt

Compartilhe