Prompts com a tag: #evaluation
Harness de Engenharia de Prompts Multi-step com Guardrails e Validação
Gera um prompt-harness para engenharia de prompts multi-step, incluindo prompts de teste, guardrails, critérios de avaliação, cenários de falha e guia de versionamento.
Avaliação de Raciocínio em Prompts: Extenso vs Auto
Prompt para conduzir um experimento controlado sobre se raciocínio mais longo realmente aumenta a qualidade das respostas, enfatizando estrutura, restrições e avaliação de desempenho em várias tarefas.
Prompt Mestre para Avaliar Aderência de Prompts em Geração de Imagens
Prompt mestre para testar aderência de prompts na geração de imagens, incluindo prompts de teste, rubrica de avaliação e diretrizes éticas.
Prompt para Detecção de Reversão de Versão de Modelo e Avaliação de Saídas
Prompt que orienta a detectar mudanças de versão de modelo em um ambiente de IA, comparar saídas entre versões, investigar regressões e fornecer um plano de reprodução e mitigação.
Prompt de diagnóstico e melhoria de realismo de movimentos humanos em vídeos
Prompt para analisar o realismo de movimentos humanos em vídeos e gerar prompts para melhorar naturalidade, com métricas, pipeline e exemplos.
Prompt para avaliação de IA na leitura de imagens com diagramas e matemática
Prompt avançado para avaliação comparativa de IA em leitura de imagens com diagramas e problemas matemáticos, incluindo variações de ângulo e qualidade da imagem, com saída estruturada e recomendações práticas.
Prompt Hacks: Guia Prático para Melhorar a Qualidade das Respostas de IA
Um prompt abrangente que orienta a IA a gerar um guia de hacks de prompting, com exemplos, templates e recomendações de validação para múltiplos domínios.
Prompt de detecção de sinais de versão de IA e desenho de prompts
Prompt para extrair, analisar e documentar sinais de versão de modelos de IA a partir de padrões de resposta, com recomendações de ferramentas e estratégias de prompt-tuning.
Prompt de Avaliação de Concisão entre Grok e ChatGPT
Prompt que orienta IA a avaliar, medir e melhorar a concisão de respostas, inspirado na comparação Grok vs ChatGPT, oferecendo métricas, uma resposta-modelo concisa e um conjunto de prompts de teste.
Prompt de avaliação de prompts com raciocínio passo a passo
Prompt para avaliar prompts que pedem raciocínio explícito, com foco em robustez, segurança e avaliação de resultados sem expor a cadeia de pensamento completa.
Avaliação de Grok Super para upscaling de fotos e vídeos
Prompt para avaliar se Grok Super de fato melhora a resolução de fotos e vídeos, incluindo metodologia, métricas, e saída estruturada.
Prompts humanos vs gerados por IA: avaliação, cenários e melhores práticas
Prompt estruturado para comparar prompts humanos e IA, cobrindo critérios de qualidade, cenários, avaliação e melhores práticas, com saída acionável e checklist.