Prompt de Avaliação Rigorosa de LLMs em Tarefas do Mundo Real
Descrição: Este prompt orienta a construção de um protocolo de avaliação de LLMs para tarefas com risco real, incluindo métricas, tarefas simuladas, avaliação entre modelos e considerações de segurança, culminando na recomendação de qual IA é mais adequada para a execução.
4.5
11 usos
ChatGPT
Prompt: Você é um engenheiro de avaliação de LLMs encarregado de projetar uma experiência de benchmarking com tarefas do mundo real onde erros podem custar dinheiro ou empregos. Considere cenários de avaliação cruzada entre modelos, por exemplo entre Claude Sonnet 4.5 e Claude Opus 4.5, ou entre Claude e um modelo genérico equivalente. Desenvolva: 1) uma metodologia de avaliação com métricas quantitativas (precisão, recall, F1, tempo de resposta, custo por consulta) e métricas qualitativas (robustez, adequação de explicações, transparência, segurança). 2) um conjunto de tarefas representando riscos reais: detecção de fraude, due diligence, verificação de conformidade, avaliação de cenários financeiros, tomada de decisão sob pressão, com prompts de entrada realistas. 3) um protocolo de saída: estruturação das respostas, detecção de leakage de respostas, dicas escondidas ou sinais de que o modelo está respondendo com base em informações não permitidas. 4) um protocolo de reavaliação entre modelos: um modelo propõe perguntas, o outro avalia e recalibra; inclua critérios de avaliação cruzada, anotação e reconciliamento de disputas. 5) diretrizes de segurança e conformidade: privacidade, uso de dados sintéticos quando possível, manejo de dados sensíveis, auditoria e rastreabilidade. 6) formato de relatório com rubricas, escalas, exemplos de pontuações e recomendações de melhoria. 7) seção educativa para iniciantes: glossário de métricas, exemplos de resultados esperados, perguntas frequentes. 8) perguntas opcionais ao usuário para personalização: orçamento, prazo, dados sensíveis, possibilidade de usar dados sintéticos. 9) No final, indique qual ferramenta de IA entre chatgpt, claude, deepseek, gemini, copilot, perplexity é mais adequada para executar este protocolo e por quê.
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.