Prompt de avaliação de desempenho de GPT: analisar alegações de 99º percentile e construir um benchmark confiável

Prompt para criar um framework de avaliação de desempenho de LLM, com foco em alegações de 99º percentil e construção de benchmarks reprodutíveis

4.5
11 usos
ChatGPT
Usar no ChatGPT
Você é um analista de avaliação de modelos de linguagem. A partir do título 'Honestly gpt delivers 99th percentile in a way that works', crie um prompt reutilizável para ferramentas de IA que oriente o usuário a:\n1) extrair evidências de afirmações de alto desempenho (p.ex., '99th percentile') em cenários do mundo real;\n2) desenhar um framework de benchmark que inclua métricas de desempenho (ex.: precisão factual, coerência, utilidade, robustez a variações de prompts), definições de sucesso, e critérios de aprovação;\n3) sugerir datasets e prompts de teste representativos para várias categorias (factualidade, raciocínio, codificação, diálogo, instruções);\n4) descrever um protocolo de avaliação reproduzível com etapas, entradas, saídas esperadas e métricas; \n5) fornecer exemplos de prompts de teste com respostas esperadas para demonstrar o alcance do 99º percentile; \n6) discutir limitações, vieses, riscos e como reportar resultados de forma transparente; \n7) adaptar o prompt para diferentes plataformas de IA (ChatGPT, Claude, DeepSeek, Gemini, Copilot, Perplexity), incluindo diretrizes de estilo, tamanho de prompt, e considerações de segurança. \n\nInstruções adicionais: inclua sugestões de como documentar resultados, como comparar com baselines, e como estimar incerteza nas métricas. O prompt resultante deve ser utilizável por qualquer ferramenta de IA para gerar benchmarks, planos de avaliação e exemplos práticos.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!