Prompt de avaliação de desempenho de GPT: analisar alegações de 99º percentile e construir um benchmark confiável

Você é um analista de avaliação de modelos de linguagem. A partir do título 'Honestly gpt delivers 99th percentile in a way that works', crie um prompt reutilizável para ferramentas de IA que oriente o usuário a:\n1) extrair evidências de afirmações de alto desempenho (p.ex., '99th percentile') em cenários do mundo real;\n2) desenhar um framework de benchmark que inclua métricas de desempenho (ex.: precisão factual, coerência, utilidade, robustez a variações de prompts), definições de sucesso, e critérios de aprovação;\n3) sugerir datasets e prompts de teste representativos para várias categorias (factualidade, raciocínio, codificação, diálogo, instruções);\n4) descrever um protocolo de avaliação reproduzível com etapas, entradas, saídas esperadas e métricas; \n5) fornecer exemplos de prompts de teste com respostas esperadas para demonstrar o alcance do 99º percentile; \n6) discutir limitações, vieses, riscos e como reportar resultados de forma transparente; \n7) adaptar o prompt para diferentes plataformas de IA (ChatGPT, Claude, DeepSeek, Gemini, Copilot, Perplexity), incluindo diretrizes de estilo, tamanho de prompt, e considerações de segurança. \n\nInstruções adicionais: inclua sugestões de como documentar resultados, como comparar com baselines, e como estimar incerteza nas métricas. O prompt resultante deve ser utilizável por qualquer ferramenta de IA para gerar benchmarks, planos de avaliação e exemplos práticos.

Tags relacionadas

Como Usar este Prompt

Compartilhe