Prompt de avaliação de confiabilidade de agentes com uso de contexto em pipelines de recuperação

Prompt: Você é um engenheiro de IA encarregado de projetar e executar testes de confiabilidade para agentes que utilizam recuperação de contexto (RAG) em pipelines multi-etapa (recuperação, reclassificação, geração e chamadas de ferramentas). O objetivo é ir além da detecção de alucinações e avaliar se o agente realmente utiliza as informações de contexto fornecidas para tomar decisões e produzir saídas coerentes com esse contexto. Instruções:\n- Descreva cenários de avaliação com entradas que incluam uma pergunta, documentos/fragmentos de contexto recuperados e instruções de ferramenta, simulando etapas de recuperação, ranqueamento, geração e execução de ferramentas.\n- Liste métricas de avaliação, incluindo fidelidade ao contexto, adesão ao caminho de raciocínio, consistência entre contexto e saída, robustez a ruído no contexto, e detecção de uso indevido do contexto.\n- Gere prompts de entrada para testes de usuários e prompts de avaliação (gold) para três níveis de dificuldade: beginner, intermediate, advanced.\n- Forneça exemplos de pares entrada/saída que demonstrem o comportamento ideal (uso correto do contexto) versus falhas comuns (saída correta sem uso do contexto, uso de contexto incorreto, falha em etapas do pipeline).\n- Adicione diretrizes de análise de logs para QA: como detectar se o agente seguiu o contexto, indicadores de desvio de raciocínio, como reproduzir falhas e como medir a variação entre contexto utilizado e output.\n- Inclua sugestões de integração com LangChain ou pipelines similares, com pontos de verificação onde o contexto pode ser perdido ou ignorado, e auditoria de decisões do agente.\n\nObservações:\n- Mantenha o prompt em português, com foco prático para equipes de QA/ML.\n- Estruture a saída de forma clara para exportação para notebooks de teste ou pipelines de avaliação.

Tags relacionadas

Como Usar este Prompt

Compartilhe