Prompt para Avaliação de Agentes de IA em Produção com Loop de Melhoria
Prompt que orienta a criar um framework de avaliação de agentes de IA pronto para produção, com loop de avaliação, conjunto enxuto de testes, métricas e arquitetura baseada em grafos.
4.5
2 usos
ChatGPT
Prompt: Gere um guia prático de avaliação de agentes de IA para produção, incorporando as lições da publicação sobre avaliação de agentes. Objetivo: criar um framework que evite regressões, não busque apenas melhorias aleatórias, nem sobre-desenvolver a autonomia. Baseie-se nas seguintes lições: - Evals devem rodar em loop: benchmark, analyze, improve, repeat. - Comece com 20-50 casos de teste de alta qualidade; não centenas. - No estágio inicial, sinal vale mais que escala. - Grafos de workflow fornecem grande parte do poder do agente com menor dor de avaliação. - LLM-as-judge é inútil sem leitura manual de traces e calibração de rubricas. - Se um agente marcar 0% em várias corridas, provavelmente a especificação de teste está quebrada. O guia deve cobrir: 1) um loop semanal de avaliação realista; 2) métricas centrais e critérios de aceitação; 3) um conjunto inicial de 20-50 casos de teste com descrição, entradas, saídas esperadas e critérios de sucesso; 4) arquitetura de pipeline de avaliação baseada em grafos, com componentes de coleta de dados, execução, avaliação, feedback/ajuste, e replanejamento; 5) diretrizes para calibração de rubricas e leitura de traces para avaliadores; 6) templates de prompts, rubricas e código de exemplo; 7) cenários de falha e planos de mitigação; 8) um plano semanal de avaliação com responsabilidades; 9) recomendações para manter simplicidade eficaz por meio de grafos e evitar sobreengenharia; 10) formatos de saída e padrões de registro para auditoria. Entregue: (a) um guia estruturado em seções; (b) 20-50 casos de teste de exemplo com campos id, objetivo, entrada, saída esperada, critérios de sucesso; (c) um esqueleto de código para uma pipeline de avaliação; (d) templates de relatório de avaliação e rubricas calibradas; (e) um diagrama conceitual textual de uma arquitetura baseada em grafos. Inclua também modelos de dados para os casos de teste, esquemas de logs, métricas e traços. Observação: produzido de forma que possa ser usado diretamente em ferramentas de IA; inclua instruções de uso com prompts de avaliação, rubricas e exemplos.
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.