Prompts com a tag: #evaluation

4.5
30

Harness de Engenharia de Prompts Multi-step com Guardrails e Validação

Gera um prompt-harness para engenharia de prompts multi-step, incluindo prompts de teste, guardrails, critérios de avaliação, cenários de falha e guia de versionamento.

4.2
29

Avaliação de Raciocínio em Prompts: Extenso vs Auto

Prompt para conduzir um experimento controlado sobre se raciocínio mais longo realmente aumenta a qualidade das respostas, enfatizando estrutura, restrições e avaliação de desempenho em várias tarefas.

4.5
28

Prompt para Detecção de Reversão de Versão de Modelo e Avaliação de Saídas

Prompt que orienta a detectar mudanças de versão de modelo em um ambiente de IA, comparar saídas entre versões, investigar regressões e fornecer um plano de reprodução e mitigação.

4.5
27

Prompt para avaliação de IA na leitura de imagens com diagramas e matemática

Prompt avançado para avaliação comparativa de IA em leitura de imagens com diagramas e problemas matemáticos, incluindo variações de ângulo e qualidade da imagem, com saída estruturada e recomendações práticas.

4.0
25

Prompt de detecção de sinais de versão de IA e desenho de prompts

Prompt para extrair, analisar e documentar sinais de versão de modelos de IA a partir de padrões de resposta, com recomendações de ferramentas e estratégias de prompt-tuning.

4.5
45

Prompt de Avaliação de Concisão entre Grok e ChatGPT

Prompt que orienta IA a avaliar, medir e melhorar a concisão de respostas, inspirado na comparação Grok vs ChatGPT, oferecendo métricas, uma resposta-modelo concisa e um conjunto de prompts de teste.

4.5
42

Prompt de avaliação de prompts com raciocínio passo a passo

Prompt para avaliar prompts que pedem raciocínio explícito, com foco em robustez, segurança e avaliação de resultados sem expor a cadeia de pensamento completa.

4.5
41

Prompts humanos vs gerados por IA: avaliação, cenários e melhores práticas

Prompt estruturado para comparar prompts humanos e IA, cobrindo critérios de qualidade, cenários, avaliação e melhores práticas, com saída acionável e checklist.