Prompts com a tag: #LLM-evaluation
Prompt de Avaliação Rigorosa de LLMs em Tarefas do Mundo Real
Descrição: Este prompt orienta a construção de um protocolo de avaliação de LLMs para tarefas com risco real, incluindo métricas, tarefas simuladas, avaliação entre modelos e considerações de segurança, culminando na recomendação de qual IA é mais adequada para a execução.
Engenharia de Prompts para Estresse do Raciocínio de LLMs
Prompt que orienta a criar um conjunto de prompts de avaliação de robustez de raciocínio para LLMs, gerando um prompt desafiador, rubrica de avaliação, golden answer e diretrizes de replicação com fontes públicas.
Experimento comunitário: atrasar a convergência pode melhorar saídas de LLM?
Prompt que orienta o uso de prompts existentes em dois modos para avaliar se atrasar a finalização de respostas (convergência) melhora a profundidade, a correção e a novidade das saídas, sem expor o raciocínio interno.
Prompt de avaliação de prompting: Meta-Prompting vs Chain-of-Thought em LLMs
Prompt que solicita a comparação entre Meta-Prompting e Chain-of-Thought usando um caso de negócio de previsão de vendas, incluindo design experimental, geração de prompts, saída, raciocínio, métricas e recomendações.
Avaliação de Meta-Prompting vs Chain-of-Thought para Previsão de Vendas: Caso AB com hardware
Prompt que solicita à IA a projetar, executar e comparar dois métodos de interação (Meta-Prompting vs Chain-of-Thought) em um caso de negócio de previsão de vendas, gerando prompts, previsões, métricas e recomendações.
Prompt de avaliação de desempenho de GPT: analisar alegações de 99º percentile e construir um benchmark confiável
Prompt para criar um framework de avaliação de desempenho de LLM, com foco em alegações de 99º percentil e construção de benchmarks reprodutíveis
Protocolo de Pesquisa: Efeito do Tom de Prompt no Desempenho de Modelos de Linguagem
Prompt para conduzir um experimento replicável sobre como o tom de prompt afeta o desempenho de LLMs, com coleta de métricas, análise e diretrizes éticas.
Prompt de avaliação estruturada de resultados de aprimoramento de imagem com LLM
Prompt para usar IA como camada de avaliação em fluxos de melhoria de imagem, comparando before/after e gerando recomendações
Ferramenta de Casos Sintéticos para Reescrita de Prompts com Avaliação Multi-Modelo de LLMs
Prompt que gera ~100 casos de teste sintéticos para avaliar e ajustar prompts de LLMs, executa testes entre modelos (GPT, Claude, Gemini, etc.), detecta falhas e gera uma versão reescrita do prompt para maior robustez, com relatório de validação.
Prompts para Avaliação Metacognitiva com Theta Scalar
Prompt de engenharia para obter avaliação metacognitiva de respostas de LLM usando Theta Scalar e Resonance, com regras para evitar revelar raciocínio interno
Prompt de Otimização de Claude Code com CLAUDE.md (Prompt Learning)
Prompt para conduzir uma rodada de otimizacao de prompts de Claude Code usando CLAUDE.md, com um loop de Prompt Learning, avaliacoes por LLM e testes SWE Bench para melhorar patches gerados sem alterar a arquitetura.