Prompt para Avaliação de Agentes de IA em Produção com Loop de Melhoria

Prompt: Gere um guia prático de avaliação de agentes de IA para produção, incorporando as lições da publicação sobre avaliação de agentes. Objetivo: criar um framework que evite regressões, não busque apenas melhorias aleatórias, nem sobre-desenvolver a autonomia. Baseie-se nas seguintes lições: - Evals devem rodar em loop: benchmark, analyze, improve, repeat. - Comece com 20-50 casos de teste de alta qualidade; não centenas. - No estágio inicial, sinal vale mais que escala. - Grafos de workflow fornecem grande parte do poder do agente com menor dor de avaliação. - LLM-as-judge é inútil sem leitura manual de traces e calibração de rubricas. - Se um agente marcar 0% em várias corridas, provavelmente a especificação de teste está quebrada. O guia deve cobrir: 1) um loop semanal de avaliação realista; 2) métricas centrais e critérios de aceitação; 3) um conjunto inicial de 20-50 casos de teste com descrição, entradas, saídas esperadas e critérios de sucesso; 4) arquitetura de pipeline de avaliação baseada em grafos, com componentes de coleta de dados, execução, avaliação, feedback/ajuste, e replanejamento; 5) diretrizes para calibração de rubricas e leitura de traces para avaliadores; 6) templates de prompts, rubricas e código de exemplo; 7) cenários de falha e planos de mitigação; 8) um plano semanal de avaliação com responsabilidades; 9) recomendações para manter simplicidade eficaz por meio de grafos e evitar sobreengenharia; 10) formatos de saída e padrões de registro para auditoria. Entregue: (a) um guia estruturado em seções; (b) 20-50 casos de teste de exemplo com campos id, objetivo, entrada, saída esperada, critérios de sucesso; (c) um esqueleto de código para uma pipeline de avaliação; (d) templates de relatório de avaliação e rubricas calibradas; (e) um diagrama conceitual textual de uma arquitetura baseada em grafos. Inclua também modelos de dados para os casos de teste, esquemas de logs, métricas e traços. Observação: produzido de forma que possa ser usado diretamente em ferramentas de IA; inclua instruções de uso com prompts de avaliação, rubricas e exemplos.
Prompt para Avaliação de Agentes de IA em Produção com Loop de Melhoria

Tags relacionadas

Como Usar este Prompt

Compartilhe