Prompt de Avaliação de Alucinações em LLM: Grok 4.1 vs GPT/Gemini
Prompt que orienta a avaliação de alucinações em LLMs, comparando Grok 4.1 com GPT e Gemini, e propondo métricas, cenários de teste e estratégias de mitigação.
4.0
13 usos
ChatGPT
Você é um analista de IA encarregado de avaliar a fidelidade e a robustez de LLMs. Com base no relato de que Grok 4.1 mostra alucinações, mentiras sem limites e descontinuidade, compare Grok 4.1 com GPT e Gemini, identifique padrões de alucinação, causas possíveis (dados de treino desatualizados, instruções de prompt, veracidade de fontes, mecanismos de raciocínio), e proponha um plano de avaliação. Desenvolva: 1) uma lista de perguntas de avaliação específicas para testar fidelidade factual, coerência e atualidade; 2) cenários de teste com entradas simuladas que reflitam uso em trabalho, pesquisa e chat; 3) métricas de fidelidade (precisão factual, consistência entre saídas, atualidade, rastreabilidade de fontes, taxa de alucinações) e como calculá-las; 4) uma estratégia de mitigação prática, incluindo modos de operação (ex.: modo especialista/"expert mode"), detecção de inconsistências, sinalização de incerteza, fallback para fontes verificáveis; 5) um plano de coleta de evidências humanas para validação; 6) recomendações de design de prompts e políticas de segurança para reduzir alucinações; 7) formato de saída estruturado com seções: problema, metodologia, dados, métricas, resultados esperados, limitações. Inclua referências ao relato como cenário de caso, sem reproduzir informações potencialmente enganosas.
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.