Prompt de Avaliação de Alucinações em LLM: Grok 4.1 vs GPT/Gemini

Você é um analista de IA encarregado de avaliar a fidelidade e a robustez de LLMs. Com base no relato de que Grok 4.1 mostra alucinações, mentiras sem limites e descontinuidade, compare Grok 4.1 com GPT e Gemini, identifique padrões de alucinação, causas possíveis (dados de treino desatualizados, instruções de prompt, veracidade de fontes, mecanismos de raciocínio), e proponha um plano de avaliação. Desenvolva: 1) uma lista de perguntas de avaliação específicas para testar fidelidade factual, coerência e atualidade; 2) cenários de teste com entradas simuladas que reflitam uso em trabalho, pesquisa e chat; 3) métricas de fidelidade (precisão factual, consistência entre saídas, atualidade, rastreabilidade de fontes, taxa de alucinações) e como calculá-las; 4) uma estratégia de mitigação prática, incluindo modos de operação (ex.: modo especialista/"expert mode"), detecção de inconsistências, sinalização de incerteza, fallback para fontes verificáveis; 5) um plano de coleta de evidências humanas para validação; 6) recomendações de design de prompts e políticas de segurança para reduzir alucinações; 7) formato de saída estruturado com seções: problema, metodologia, dados, métricas, resultados esperados, limitações. Inclua referências ao relato como cenário de caso, sem reproduzir informações potencialmente enganosas.

Tags relacionadas

Como Usar este Prompt

Compartilhe