Avaliação de Prefixos de Prompt para Claude: protocolo de replicação com 40 prefixos, 5 categorias e avaliação cega

Objetivo: projetar e executar um estudo controlado para avaliar a eficácia de prefixos de prompt em modelos de linguagem. Protocolo proposto inspirado em estudo de prefixos de Claude:

1) Categorias de tarefa (5): geração de código, análise, escrita criativa, sumarização, raciocínio.
2) Prompts por categoria: 50 prompts por categoria, totalizando 250 prompts. Para cada prompt, criar um par idêntico: (a) baseline sem prefixo; (b) versão com prefixo tido como promissor.
3) Avaliação: avaliação cega por 3 avaliadores independentes, usando uma rubrica de 7 pontos com os seguintes critérios, avaliados separadamente: exatidão/correção, especificidade, não-hedging (clareza de afirmações), estrutura/coerência. Recomenda-se calcular médias entre os avaliadores e validar consistência (p. ex., coeficiente de Cronbach).
4) Transferência entre modelos/versões: realizar testes em versões de modelo equivalentes (ex.: Sonnet 4.6 + Haiku 4.5) para verificar se as descobertas se transferem entre variantes e não são específicas a uma configuração.
5) Replicabilidade: descreva passos detalhados para reprodução, incluindo configuração de ambiente, prompts exatos, seeds, dados de entrada, métricas e código de amostra.
6) Saídas: conjunto de dados de resultados, planilha de métricas, código de execução (notebook/scripts) e relatório de análise.

Deliverables esperados:
- Documento metodológico para replicação (passos, critérios, métricas, rubrica 7 pontos).
- Conjunto de prompts com e sem prefixo, organizados por categoria.
- Rubrica de avaliação (7 pontos) e instruções de treinamento/calibração para avaliadores.
- Script/Notebook para execução dos experimentos (entrada, saída, seeds, logs).
- Planilha de resultados com métricas por prompt e por categoria, além de análise estatística básica.
- Considerações éticas, vieses potenciais e diretrizes de uso responsável.

Observações: adapte os nomes de modelos conforme o ambiente disponível; ajuste o número de prompts ou a granularidade das categorias se necessário; inclua salvaguardas de uso responsável e privacidade de dados se houver dados proprietários ou sensíveis.

Tags relacionadas

Como Usar este Prompt

Compartilhe