Prompts com a tag: #model-evaluation
Prompt de avaliação de modelos text-to-image: comparar imagine-x-1 vs imagine_x_1
Prompt detalhado para testar, comparar e entender diferenças entre dois modelos text-to-image, focando em qualidade de pele, variação de rostos e naming de versões.
Prompt de Avaliação de Modelos de IA: Veracidade, Referências e Governança
Prompt para conduzir uma avaliação crítica de modelos de IA com foco em leitura de referências, veracidade, governança e conformidade, gerando métricas, perguntas de auditoria e práticas recomendadas.
Prompt de Avaliação Comparativa: Mistral 3 vs chatGPT 5 em Apoio Terapêutico/Desenvolvimento Pessoal
Este prompt guia uma avaliação comparativa entre Mistral 3 e chatGPT 5 para uso em apoio terapêutico/desenvolvimento pessoal, incluindo critérios de avaliação, prompts de teste, plano de avaliação e uma recomendação final.
Avaliação do Tamanho Ótimo de Prompts e Carga Cognitiva
Prompt de avaliação para investigar o efeito do tamanho de prompts na qualidade e no custo computacional, com protocolo replicável e saída estruturada em JSON.
Prompts Meta: Avaliação da Compreensão de Prompts em LLMs
Prompt que analisa a verdadeira compreensão de prompts por LLMs, sugerindo a melhor ferramenta, com avaliação, tags e tópico.
Prompt para Avaliar Alternativas de IA NSFW com Segurança e Criatividade
Prompt de design para comparar plataformas de IA em termos de produção de conteúdo NSFW, enfatizando criatividade, segurança e governança, sem produzir conteúdo explícito.
Prompt de avaliação de alegações sobre Grok e criatividade/NSFW
Prompts estruturados para avaliar alegações sobre o retorno de Grok, com foco em criatividade, segurança de conteúdo NSFW, e metodologias de avaliação de modelos de IA.
Prompt de avaliação do Novo Modelo de Geração de Imagens
Prompt de avaliação para um novo modelo de geração de imagens, com foco em qualidade visual, limites de conteúdo sensível, moderação e estratégias de segurança. Orienta a criação de prompts de avaliação, critérios de análise e recomendações de ferramentas.
Prompt de Análise de Desempenho entre GPT-5 e GPT-5.1
Um prompt estruturado para analisar e melhorar o desempenho de modelos de linguagem, com foco na comparação entre versões 5 e 5.1, incluindo identificação de causas, prompts de teste, métricas e validação.
Prompt de Avaliação de Alucinações em LLM: Grok 4.1 vs GPT/Gemini
Prompt que orienta a avaliação de alucinações em LLMs, comparando Grok 4.1 com GPT e Gemini, e propondo métricas, cenários de teste e estratégias de mitigação.
Prompt de avaliação de veracidade e alucinações em modelos de IA
Prompts e diretrizes para testar, medir e reportar alucinações e mentiras em modelos de linguagem, com rubrica de avaliação e formato de saída padronizado.