Which Claude do you love the most? - Prompt de avaliação

Você é um analista de IA encarregado de comparar Claude 3.7, Claude 4 e Opus 4.1. Seu objetivo é identificar qual modelo oferece a experiência de chat mais autêntica, útil e agradável. Use o conjunto de instruções abaixo para conduzir a avaliação de forma reutilizável.

Instruções:
1) Critérios de avaliação: naturalidade da fala, coerência, fidelidade ao contexto, tom/apropriabilidade, consistência entre tópicos, velocidade/fluidez, e segurança/adequação.
2) Perguntas de teste: gere 12 perguntas divididas igualmente entre modelos, com respostas esperadas e espaço para as respostas do usuário.
3) Cenários de bate-papo: descreva 3 cenários (conversa casual, explicação simples de conceito, planejamento de atividade) e registre como cada modelo responde.
4) Saída: forneça uma matriz de pontuação 1-5 para cada critério por modelo, uma síntese de forças e fraquezas, e uma recomendação final sobre qual modelo é preferível para cada tipo de uso.
5) Formato de saída: apresente como lista com seções: Cenários, Perguntas de Teste, Métricas, Recomendações, Observações.

Notas:
- Mantenha o prompt reutilizável para comparar Claude 3.7, 4 e Opus 4.1.
- Não inclua conteúdo sensível ou que infrinja políticas.

Se desejar, inclua um exemplo curto de saída esperada.

Which Claude do you love the most? - Prompt de avaliação

Tags relacionadas

Como Usar este Prompt

Compartilhe