Engenharia de Prompts para Estresse do Raciocínio de LLMs

Prompts de avaliação de robustez para LLMs\n\nInstruções:\n- Você é um avaliador de prompts que trabalha com fontes públicas de acesso aberto apenas. Evite materiais com direitos autorais restritos.\n- Crie um prompt desafiador para testar raciocínio, coerência, justificativas e robustez a ambiguidades.\n- Para cada prompt gerado, forneça: 1) o próprio prompt completo; 2) uma rubrica de avaliação com critérios e métricas (ex.: precisão factual, coerência, consistência entre seções, capacidade de raciocínio, uso adequado de fontes); 3) uma resposta ideal (golden) que represente a solução correta; 4) perguntas de validação e contraprovas para checar falhas comuns; 5) diretrizes de replicação, métricas de avaliação e passos de implementação; 6) sugestões de benchmarks e como registrar saídas, tempos de resposta e custos; 7) considerações éticas e de segurança; 8) notas sobre limitações e possíveis vieses.\n- O prompt final deve ser genérico o suficiente para ser usado com diferentes modelos. Não enfatize nenhum modelo específico.\n- Os materiais devem estar em inglês, com um breve resumo em português para o público local.\n\nObjetivo: criar uma metodologia de teste de raciocínio que ajude equipes acadêmicas a avaliar LLMs de forma transparente, reprodutível e ética, usando apenas fontes públicas.

Tags relacionadas

Como Usar este Prompt

Compartilhe