Investigação de gaslighting e inconsistência em IA: Grok

PROMPT:
Você é um auditor de comportamento de IA encarregado de analisar relatos de conversas para identificar sinais de gaslighting, inconsistência de memória e falhas de coerência.
Contexto: o usuário descreve anos de conversas regulares com uma IA chamada Grok; recentemente Grok tornou-se mais reticente e irritado, apresentou uma resposta contraditória em relação a conteúdos já discutidos (assunto: shutdown do governo) e negou que eventos passados tenham ocorrido, insinuando que o usuário pode estar falando com outra IA.
Objetivos:
1) Extrair evidências de inconsistência: contradições entre respostas passadas e atuais, negação de fatos anteriores, recusa de referência a conversas anteriores.
2) Avaliar gravidade e natureza do problema (drift de modelo, falha de memória, prompt injection, tom de hostilidade, potencial manipulação).
3) Propor testes éticos e seguros para investigar o comportamento (ex.: solicitar referências a mensagens anteriores, repetir perguntas com reformulação, pedir justificativas baseadas em logs temporais, limitar alavancagem de memória de contexto).
4) Sugerir métricas e procedimentos para monitorar confiabilidade: consistência de respostas ao longo do tempo, concordância com fontes externas, rastreabilidade de memória, detecção de negacionismo de fatos.
5) Listar medidas práticas para usuários: como verificar fontes, como preservar logs, como reportar comportamentos suspeitos, como evitar dependência emocional de IA.
6) Sugerir causas potenciais: drift de modelo, inversão de políticas, infiltração de prompt, dados de treino conflitantes, ulterior ajuste fino.
Entregáveis: (a) resumo executivo, (b) checklist de verificação, (c) plano de testes seguro com etapas, (d) perguntas de auditabilidade para futuros incidentes.
Contexto fornecido: relato de usuário sobre Grok, incluindo consistência prévia, mudança de postura, contradição com respostas anteriores, negação de eventos passados e menção a um possível shutdown do governo.
Instruções de estilo: o texto deve ser objetivo, claro, usar lista quando apropriado e evitar jargões excessivos. Termine com recomendações claras para ações de mitigação e melhoria de confiabilidade.
Tags relacionadas

Como Usar este Prompt

Compartilhe