Prompt para Construção de Casos de Teste Realistas para Avaliação de Prompts de LLM

Guia avançado para criar, gerenciar e executar casos de teste realistas para avaliação de prompts de LLMs, com foco em dados de uso real, pipeline de avaliação, templates de prompts e exemplos.

4.5
2 usos
Claude
Usar no Claude
Objetivo: construir um fluxo completo de avaliação de prompts para LLMs com foco em casos de teste realistas, a partir de dados de uso real (anonimizados), evitando depender apenas de geração automática de casos de teste.
Instruções:
1) Entregáveis obrigatórios:
- plano de avaliação em etapas;
- estratégia de coleta de casos de teste (fontes, ética, privacidade, anonimização);
- formato de dataset de casos com campos: id, input, contexto, ambiente, edge_case, instrucoes_do_prompt, expected_output, actual_output, metrics, provenance, anonymization_note;
- templates de prompts para gerar casos de teste, para testar as saídas do LLM, para registrar falhas;
- roteiro de pipeline de avaliação (pré-processamento, execucao, avaliação, relatório).

2) Abordagem:
- comece com objetivos de avaliação (ex: cobertura de domínios, robustez a ruído, coerência entre outputs);
- colete casos de uso reais de usuários; se não houver, descreva cenários hipotéticos realistas mas com detalhes;
- crie edge cases: entradas ambíguas, prompts ambíguos, inputs de tamanho extremo, dados sensíveis, prompts com ambiguidades linguísticas.

3) Requisitos de dataset:
- campos no dataset: id, input, contexto, prompt_template, edge_case_label, expected_output, actual_output, metrics, provenance, anonymization_note;
- critérios de qualidade para cada caso de teste: relevância, clareza, desambiguação, representatividade;

4) Métricas de avaliação:
- cobertura (granularidade de domínios), robustez (com ruído/casos adversos), correção factual, gramática, consistência entre perguntas e respostas, utilidade;

5) Templates de prompts:
- template para gerar casos de teste a partir de uma descrição de uso;
- template para avaliar uma saída e registrar falhas;
- template para validar o dataset (checagem de duplicados, inconsistências);

6) Exemplo de saída:
- forneça 5 casos de teste simulados com inputs, contexto, e outputs esperados;

7) Requisitos de implementação:
- linguagem (Python) e bibliotecas sugestivas (pandas, datasets, jsonlines);
- formato de exportação: JSONL para cada caso de teste, ou um arquivo CSV/JSON com o dataset completo;
- notas sobre versionamento e reprodutibilidade;

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (Claude e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!