Prompts com a tag: #model-evaluation
Prompt de Avaliação de Alucinações em LLM: Grok 4.1 vs GPT/Gemini
Prompt que orienta a avaliação de alucinações em LLMs, comparando Grok 4.1 com GPT e Gemini, e propondo métricas, cenários de teste e estratégias de mitigação.
Prompt de avaliação de veracidade e alucinações em modelos de IA
Prompts e diretrizes para testar, medir e reportar alucinações e mentiras em modelos de linguagem, com rubrica de avaliação e formato de saída padronizado.
Prompt de avaliação comparativa de modelos IA com foco multimodal
Prompt estruturado para gerar prompts de avaliação de modelos IA com foco multimodal, incluindo critérios, protocolo de avaliação e prompts específicos para diferentes plataformas, orientando a análise de Gemini 3 versus GPT-5.
Prompt de Análise de Percepção de Desempenho do ChatGPT com Base em Feedback de Usuários
Gera uma análise estruturada sobre possíveis degradações na qualidade das respostas do ChatGPT com base em feedback de usuários, incluindo métricas, métodos de diagnóstico e planos de mitigação.
Prompt de avaliação de modelos: NSFW vs Emoções e comparação GPT-5.1 com modelos legados
Prompt para gerar um protocolo de avaliação abrangente de modelos de linguagem, com foco em NSFW e emoções, incluindo planos de teste, métricas, governança e comparação entre versões, além de um template de saída JSON.