Benchmark de Prompt Engineering para Raciocínio
Prompt avançado que orienta a criação e a validação de benchmarks de prompts de raciocínio, incluindo métricas, datasets, variações de prompting e implementação multiplataforma.
4.5
18 usos
ChatGPT
Prompt de Benchmark de Raciocínio para Modelos de Linguagem
Objetivo: projetar e validar um conjunto de prompts que avaliem a capacidade de raciocínio dos modelos e o impacto de prompts estruturados na qualidade das respostas.
Instruções para o pesquisador:
- Use o TruthfulQA como baseline de referência. Defina como medir melhoria ao aplicar prompts de raciocínio.
- Proponha um protocolo de benchmark com:
1) Tipos de tarefas de raciocínio (passo-a-passo, multi-step, perguntas com embasamento factual, puzzles, dilemas éticos);
2) Métricas independentes (exatidão factual, coerência, completude, consistência entre passos, clareza da explicação, robustez a ruídos, latência);
3) Conjuntos de dados, com rótulos de avaliação manuais ou automatizados;
4) Condições de teste: prompts que solicitam cadeia de pensamento (CoT) vs prompts sem CoT, prompts com verificação de respostas.
- Descreva variações de prompting para raciocínio e padrões de avaliação, incluindo:
- CoT aberto (o modelo gera uma explicação passo a passo),
- CoT estruturado (explicação em etapas com verificação),
- Prompt com instruções para evitar alucinações,
- Prompt de verificação dupla (gerar resposta, em seguida verificar coerência/consistência).
- Forneça um conjunto de itens de teste com as soluções esperadas e critérios de anotação.
- Inclua diretrizes de implementação para diferentes plataformas de IA (p. ex., ChatGPT, Claude, Gemini), cobrindo:
- Formatação de saída, limites de tokens, e estratégias para mitigar alucinações.
- Apresente um prompt de exemplo agregado para iniciar o benchmark, com:
- Tarefa clara,
- Formato de saída desejado (resposta + explicação passo a passo, seguida de verificação de coerência),
- Critérios de avaliação,
- Instruções para anotação.
- Ofereça código pseudo para automatizar coleta de respostas, extração de explicações e cálculo de métricas.
Formato de saída:
- O modelo deve retornar:
1) uma descrição do benchmark,
2) a lista de itens de teste com soluções esperadas,
3) as métricas propostas,
4) o prompt de exemplo,
5) um guia de implementação cross-plataformas.
Notas:
- Use TruthfulQA como baseline de desempenho inicial.
- O prompt deve ser claro, não ambíguo, com exemplos explícitos.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.
Outros prompts de Avaliação de Prompts de Raciocínio
Continue explorando prompts nesta categoria.
Prompt de avaliação de prompts com raciocínio passo a passo
Prompt para avaliar prompts que pedem raciocínio explícito, com foco em robustez, segurança e avaliação de resultados sem expor a cadeia de pensamento completa.