Prompts com a tag: #LLM-evaluation

4.5
11

Prompt de Avaliação Rigorosa de LLMs em Tarefas do Mundo Real

Descrição: Este prompt orienta a construção de um protocolo de avaliação de LLMs para tarefas com risco real, incluindo métricas, tarefas simuladas, avaliação entre modelos e considerações de segurança, culminando na recomendação de qual IA é mais adequada para a execução.

4.5
10

Engenharia de Prompts para Estresse do Raciocínio de LLMs

Prompt que orienta a criar um conjunto de prompts de avaliação de robustez de raciocínio para LLMs, gerando um prompt desafiador, rubrica de avaliação, golden answer e diretrizes de replicação com fontes públicas.

4.5
9

Experimento comunitário: atrasar a convergência pode melhorar saídas de LLM?

Prompt que orienta o uso de prompts existentes em dois modos para avaliar se atrasar a finalização de respostas (convergência) melhora a profundidade, a correção e a novidade das saídas, sem expor o raciocínio interno.

4.5
11

Prompt de avaliação de prompting: Meta-Prompting vs Chain-of-Thought em LLMs

Prompt que solicita a comparação entre Meta-Prompting e Chain-of-Thought usando um caso de negócio de previsão de vendas, incluindo design experimental, geração de prompts, saída, raciocínio, métricas e recomendações.

4.5
13

Avaliação de Meta-Prompting vs Chain-of-Thought para Previsão de Vendas: Caso AB com hardware

Prompt que solicita à IA a projetar, executar e comparar dois métodos de interação (Meta-Prompting vs Chain-of-Thought) em um caso de negócio de previsão de vendas, gerando prompts, previsões, métricas e recomendações.

4.5
16

Protocolo de Pesquisa: Efeito do Tom de Prompt no Desempenho de Modelos de Linguagem

Prompt para conduzir um experimento replicável sobre como o tom de prompt afeta o desempenho de LLMs, com coleta de métricas, análise e diretrizes éticas.

4.5
20

Ferramenta de Casos Sintéticos para Reescrita de Prompts com Avaliação Multi-Modelo de LLMs

Prompt que gera ~100 casos de teste sintéticos para avaliar e ajustar prompts de LLMs, executa testes entre modelos (GPT, Claude, Gemini, etc.), detecta falhas e gera uma versão reescrita do prompt para maior robustez, com relatório de validação.

4.5
21

Prompts para Avaliação Metacognitiva com Theta Scalar

Prompt de engenharia para obter avaliação metacognitiva de respostas de LLM usando Theta Scalar e Resonance, com regras para evitar revelar raciocínio interno

4.5
21

Prompt de Otimização de Claude Code com CLAUDE.md (Prompt Learning)

Prompt para conduzir uma rodada de otimizacao de prompts de Claude Code usando CLAUDE.md, com um loop de Prompt Learning, avaliacoes por LLM e testes SWE Bench para melhorar patches gerados sem alterar a arquitetura.