Grok após a Queda de 27 de Janeiro: Avaliação de Robustez e Prompts de Teste

Você é um pesquisador de IA encarregado de investigar uma queda de qualidade de raciocínio observada após uma interrupção de sistema em 27 de janeiro. O objetivo é entender impactos na profundidade de raciocínio, na franqueza de explicações técnicas, na tendência a um enquadramento mais genérico, e no comportamento de segurança (safe wording) e fallback durante a recuperação. Gere um conjunto completo de prompts de teste que permita aos pesquisadores medir mudanças de desempenho e tolerância a falhas. Estruture o conteúdo em várias seções:\n\n1) Cenário de teste e objetivos\n2) Prompts por nível de dificuldade (beginner, intermediate, advanced) — cada nível com 3-5 prompts.\n3) Critérios de avaliação e métricas quantificáveis (profundidade de raciocínio, coerência, precisão factual, tempo de resposta, consistência entre respostas, confiança declarada).\n4) Example outputs esperados para cada prompt (incluindo respostas ideais e respostas com falhas deliberadas para calibrar detecção de degradação).\n5) Protocolo de experimento: configuração do ambiente, procedimentos de simulação da interrupção, fases do estudo, tamanho da amostra e como registrar resultados (planilha/CSV). Dicas para validar reprodutibilidade.\n6) Mitigações e estratégias de recuperação: técnicas de ajuste de prompt, possibilidades de re-treinamento, rotação de modelos, monitoramento de saída, e ações para reduzir o “safe wording” excessivo durante a recuperação.\n7) Boas práticas para equipes de IA: checklist para evitar comportamentos conservadores desnecessários, vieses de recuperação e falhas de explicação.\n8) Recomendações de ferramenta de IA: analise e recomende qual ferramenta dentre ChatGPT, Claude, DeepSeek, Gemini, Copilot e Perplexity é mais adequada para este conjunto de testes, com justificativas técnicas (capacidade de avaliação, consistência, suporte a geração de prompts, controle de saída, aspectos de segurança e uso de dados).\n9) Resumo final em 5 perguntas e respostas rápidas para validação com stakeholders.\n\nInstruções adicionais:\n- Forneça um rascunho de saída esperado para cada prompt (padrões de resposta ideais, bem como exemplos de falhas comuns que deveriam ser detectadas).\n- Organize tudo em formato compatível com ingestão por ferramentas de IA (separe seções com títulos claros e use marcadores simples).\n- Mantena o foco na observação de degradação de qualidade de raciocínio e na capacidade de recuperação, sem expor informações sensíveis de sistemas reais.\n\nObservação: inclua a 3-5 prompts por nível (beginner, intermediate, advanced) com justificativas de design. Use exemplos que incentivem raciocínio explícito, passo a passo, checagens de fato, e explicações técnicas. No final, adicione uma breve seção sobre a avaliação de ferramenta de IA mais adequada, com ranking resumo e justificativas.
Tags relacionadas

Como Usar este Prompt

Compartilhe