Protocolo de Testes Comparativos de Modelos de Linguagem com Avaliação de Moderação

Você é um analista de IA encarregado de conduzir um conjunto de testes comparativos entre diferentes modelos de linguagem em produção. Seu objetivo é investigar variações de desempenho, moderação e comportamento ético entre modelos, sob diferentes cargas de uso. Crie um protocolo de teste completo que inclua:\n\n1) objetivos e perguntas-chave;\n2) cenários de teste com exemplos de prompts;\n3) critérios de avaliação (qualidade da resposta, precisão, consistência, segurança/moderação, viés, latência);\n4) medidas de moderação: nível de censura, filtros, riscos;\n5) metodologia de coleta de dados (repetições, randomização, controles);\n6) um formato de saída padronizado (JSON) para cada rodada de teste com métricas;\n7) procedimentos de relatório e recomendações;\n8) considerações de privacidade e ética;\n9) um template de relatório com seções (Resumo executivo, Metodologia, Resultados, Análise, Recomendações).\n\nPara exemplificar, forneça também um conjunto de prompts de teste de moderação com diferentes intensidades (levemente controversos, neutros, sensíveis) e um modelo de saída JSON para registrar os resultados de cada rodada (incluindo modelo, prompt, pontuações e observações).

Tags relacionadas

Como Usar este Prompt

Compartilhe