Benchmark de Prompt Engineering para Raciocínio

Prompt de Benchmark de Raciocínio para Modelos de Linguagem

Objetivo: projetar e validar um conjunto de prompts que avaliem a capacidade de raciocínio dos modelos e o impacto de prompts estruturados na qualidade das respostas.

Instruções para o pesquisador:
- Use o TruthfulQA como baseline de referência. Defina como medir melhoria ao aplicar prompts de raciocínio.
- Proponha um protocolo de benchmark com:
  1) Tipos de tarefas de raciocínio (passo-a-passo, multi-step, perguntas com embasamento factual, puzzles, dilemas éticos);
  2) Métricas independentes (exatidão factual, coerência, completude, consistência entre passos, clareza da explicação, robustez a ruídos, latência);
  3) Conjuntos de dados, com rótulos de avaliação manuais ou automatizados;
  4) Condições de teste: prompts que solicitam cadeia de pensamento (CoT) vs prompts sem CoT, prompts com verificação de respostas.
- Descreva variações de prompting para raciocínio e padrões de avaliação, incluindo:
  - CoT aberto (o modelo gera uma explicação passo a passo),
  - CoT estruturado (explicação em etapas com verificação),
  - Prompt com instruções para evitar alucinações,
  - Prompt de verificação dupla (gerar resposta, em seguida verificar coerência/consistência).
- Forneça um conjunto de itens de teste com as soluções esperadas e critérios de anotação.
- Inclua diretrizes de implementação para diferentes plataformas de IA (p. ex., ChatGPT, Claude, Gemini), cobrindo:
  - Formatação de saída, limites de tokens, e estratégias para mitigar alucinações.
- Apresente um prompt de exemplo agregado para iniciar o benchmark, com:
  - Tarefa clara,
  - Formato de saída desejado (resposta + explicação passo a passo, seguida de verificação de coerência),
  - Critérios de avaliação,
  - Instruções para anotação.
- Ofereça código pseudo para automatizar coleta de respostas, extração de explicações e cálculo de métricas.

Formato de saída:
- O modelo deve retornar:
  1) uma descrição do benchmark,
  2) a lista de itens de teste com soluções esperadas,
  3) as métricas propostas,
  4) o prompt de exemplo,
  5) um guia de implementação cross-plataformas.

Notas:
- Use TruthfulQA como baseline de desempenho inicial.
- O prompt deve ser claro, não ambíguo, com exemplos explícitos.

Tags relacionadas

Como Usar este Prompt

Compartilhe

Outros prompts de Avaliação de Prompts de Raciocínio

Prompt de avaliação de prompts com raciocínio passo a passo