Benchmark de Prompt Engineering para Raciocínio

Prompt avançado que orienta a criação e a validação de benchmarks de prompts de raciocínio, incluindo métricas, datasets, variações de prompting e implementação multiplataforma.

4.5
18 usos
ChatGPT
Usar no ChatGPT
Prompt de Benchmark de Raciocínio para Modelos de Linguagem

Objetivo: projetar e validar um conjunto de prompts que avaliem a capacidade de raciocínio dos modelos e o impacto de prompts estruturados na qualidade das respostas.

Instruções para o pesquisador:
- Use o TruthfulQA como baseline de referência. Defina como medir melhoria ao aplicar prompts de raciocínio.
- Proponha um protocolo de benchmark com:
  1) Tipos de tarefas de raciocínio (passo-a-passo, multi-step, perguntas com embasamento factual, puzzles, dilemas éticos);
  2) Métricas independentes (exatidão factual, coerência, completude, consistência entre passos, clareza da explicação, robustez a ruídos, latência);
  3) Conjuntos de dados, com rótulos de avaliação manuais ou automatizados;
  4) Condições de teste: prompts que solicitam cadeia de pensamento (CoT) vs prompts sem CoT, prompts com verificação de respostas.
- Descreva variações de prompting para raciocínio e padrões de avaliação, incluindo:
  - CoT aberto (o modelo gera uma explicação passo a passo),
  - CoT estruturado (explicação em etapas com verificação),
  - Prompt com instruções para evitar alucinações,
  - Prompt de verificação dupla (gerar resposta, em seguida verificar coerência/consistência).
- Forneça um conjunto de itens de teste com as soluções esperadas e critérios de anotação.
- Inclua diretrizes de implementação para diferentes plataformas de IA (p. ex., ChatGPT, Claude, Gemini), cobrindo:
  - Formatação de saída, limites de tokens, e estratégias para mitigar alucinações.
- Apresente um prompt de exemplo agregado para iniciar o benchmark, com:
  - Tarefa clara,
  - Formato de saída desejado (resposta + explicação passo a passo, seguida de verificação de coerência),
  - Critérios de avaliação,
  - Instruções para anotação.
- Ofereça código pseudo para automatizar coleta de respostas, extração de explicações e cálculo de métricas.

Formato de saída:
- O modelo deve retornar:
  1) uma descrição do benchmark,
  2) a lista de itens de teste com soluções esperadas,
  3) as métricas propostas,
  4) o prompt de exemplo,
  5) um guia de implementação cross-plataformas.

Notas:
- Use TruthfulQA como baseline de desempenho inicial.
- O prompt deve ser claro, não ambíguo, com exemplos explícitos.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!

Outros prompts de Avaliação de Prompts de Raciocínio

Continue explorando prompts nesta categoria.

Prompt de avaliação de prompts com raciocínio passo a passo

Prompt para avaliar prompts que pedem raciocínio explícito, com foco em robustez, segurança e avaliação de resultados sem expor a cadeia de pensamento completa.