Prompts com a tag: #evaluation

4.5
4

Prompt vs. Result: Avaliação de Correspondência entre Imagem e Descrição

Prompt para orientar uma IA a julgar se uma imagem corresponde à descrição fornecida, retornando veredito, nota de alinhamento, evidências visuais, inconsistências, melhorias e prompts alternativos.

4.5
4

Avaliação estruturada de loops de feedback de agentes para Promptify

Prompt para orientar a construção de métricas, ciclo de avaliação e critérios de parada para loops de feedback de agentes em prompts agenticos, com foco em qualidade, segurança e eficiência.

4.5
4

Prompt para Alinhar Imagens com Grok Standard

Este prompt ensina a criar prompts de imagem alinhados a um padrão de compreensão (grok), incluindo etapas, checklists, e exemplos para facilitar iterações rápidas.

4.5
10

Harness de Engenharia de Prompts Multi-step com Guardrails e Validação

Gera um prompt-harness para engenharia de prompts multi-step, incluindo prompts de teste, guardrails, critérios de avaliação, cenários de falha e guia de versionamento.

4.2
10

Avaliação de Raciocínio em Prompts: Extenso vs Auto

Prompt para conduzir um experimento controlado sobre se raciocínio mais longo realmente aumenta a qualidade das respostas, enfatizando estrutura, restrições e avaliação de desempenho em várias tarefas.

4.5
10

Prompt para Detecção de Reversão de Versão de Modelo e Avaliação de Saídas

Prompt que orienta a detectar mudanças de versão de modelo em um ambiente de IA, comparar saídas entre versões, investigar regressões e fornecer um plano de reprodução e mitigação.

4.5
10

Prompt para avaliação de IA na leitura de imagens com diagramas e matemática

Prompt avançado para avaliação comparativa de IA em leitura de imagens com diagramas e problemas matemáticos, incluindo variações de ângulo e qualidade da imagem, com saída estruturada e recomendações práticas.

4.0
9

Prompt de detecção de sinais de versão de IA e desenho de prompts

Prompt para extrair, analisar e documentar sinais de versão de modelos de IA a partir de padrões de resposta, com recomendações de ferramentas e estratégias de prompt-tuning.