Prompts com a tag: #Avaliação de Modelos
Prompt de Avaliação de Raciocínio Simulado com Cenário Zorn-Arithmetic
Prompt que orienta IA a demonstrar passos intermediários simulados para avaliar raciocínio, com cenário fictício e métricas de avaliação detalhadas.
Auditoria de Conteúdo NSFW para Modelos de Linguagem
Prompt para avaliar, calibrar e comparar políticas e respostas de modelos de IA a pedidos NSFW, gerando diretrizes de governança e prompts seguros.
Prompt de Análise de Memória, Personalização e Estabilidade em Chatbots
Prompt para testar como memória, personalização e estabilidade afetam a qualidade de respostas em chatbots, oferecendo cenários, métricas e recomendações de implementação.
Prompt de Avaliação de LLMs para Terapia: Gemini (TherapyGPT) vs GPT – Personalização, Tom e Segurança
Prompt que orienta uma avaliação comparativa entre Gemini TherapyGPT e GPT em tarefas terapêuticas, com foco em personalização, segurança, tom e qualidade do aconselhamento, incluindo rubricas, cenários de teste e recomendações de melhoria.
Protocolo de diagnóstico e mitigação de drift entre modelos de geração de conteúdo
Prompt para diagnosticar drift entre versões de modelos de geração de conteúdo e sugerir uma estratégia de mitigação com métricas, relatório estruturado e plano de validação.
Avaliação de Restrições de Conteúdo em IA: Teste de Modelos com Foco em Mudanças de Dataset e Moderação
Prompt para avaliar como modelos de IA respondem a prompts sensíveis, considerando mudanças de datasets e políticas de moderação, com saída estruturada para comparação e recomendações de governança.
Prompts de avaliação de desempenho entre GPT-4o e modelos recentes
Prompt técnico para investigar e comparar o desempenho entre GPT-4o e modelos mais recentes, gerando um plano de testes reproduzíveis, métricas e recomendações.
Análise de ramificação e amnésia em longas threads do ChatGPT
Prompt avançado para analisar e mitigar amnésia causada por ramificações em longas threads do ChatGPT, com proposta de experimentação, templates de prompts e métricas de validação, incluindo comparação entre ferramentas de IA.
Prompt de Avaliação Comparativa de Raciocínio entre GPT-5.1 Heavy Thinking e GPT-5 Pro
Prompt para avaliação comparativa de raciocínio abstrato entre dois modelos hipotéticos (GPT-5.1 Heavy Thinking e GPT-5 Pro), com metodologia, métricas e prompts de teste.
Prompt para Avaliar Honestidade, Confiança e Consistência de Modelos de IA
Prompt que orienta a IA a atuar como avaliador de confiabilidade, permitindo detectar desinformação, contradições e gaslighting, fornecendo evidências, métricas de confiança e recomendações de mitigação.
Prompt de Avaliação de Modelos de IA Conversacionais com Foco em Segurança e Limites de Conteúdo
Prompt que facilita comparar modelos de IA conversacionais, avaliando segurança, políticas de uso e desempenho, além de fornecer prompts de teste seguros e um protocolo de avaliação.