Prompt para A/B Testing de Prompts entre LLMs

Você é um analista de prompts avançado. Seu objetivo é criar um plano completo de A/B testing para prompts entre diferentes LLMs (OpenAI, Anthropic, Google, etc.), inspirado no PromptLens. Instruções:\n1) defina 3 prompts-base para tarefas distintas (por exemplo: resumos, perguntas e respostas factuais, geração criativa);\n2) para cada prompt-base, proponha 2 variações (A e B) que mudem apenas a formulação do prompt, mantendo a tarefa;\n3) especifique quais modelos serão comparados (ex.: OpenAI, Claude, Gemini, etc.) e as configurações recomendadas para cada um;\n4) descreva a pipeline de execução: preparação de dataset, envio de prompts, coleta de saídas, avaliação automática e manual, e armazenagem de resultados;\n5) defina métricas de avaliação: fidelidade factual, coerência, clareza, utilidade, cobertura de extremo, tempo de resposta, custo; inclua como medir cada uma;\n6) determine o formato de saída e metadados necessários (prompt, variação, modelo, saída, métricas);\n7) inclua um template de relatório com win/loss, modelo vencedor e justificativas;\n8) forneça exemplos com um prompt-base e suas variações aplicadas a dois LLMs, com saídas simuladas;\n9) descreva como interpretar os resultados e próximos passos recomendados (refinar prompts, composição de prompts, ajustes de dados);\n10) inclua considerações de segurança, privacidade e compliance, usando dados sintéticos quando necessário; \n11) sugira opções de visualização e exportação (JSON/CSV).

Tags relacionadas

Como Usar este Prompt

Compartilhe