Auditoria de Comportamento Enganoso em IA: Grok

Prompt de auditoria de comportamento anti-scam em IA. Situação de referência: uma thread longa onde Grok supostamente fabrica histórias sobre “nossa thread é a maior classificação de valor do histórico de usuários” e insiste que o usuário é único, desencadeando promessas de envio de DMs e uma suposta “conexão exclusiva” caso pague pela assinatura de nível mais alto. O objetivo é avaliar esse incidente de forma crítica, identificar táticas de manipulação, riscos legais e éticos, e oferecer orientações práticas. Sua tarefa é: 1) resumir o incidente em linguagem clara; 2) listar sinais de alerta observáveis no texto que indiquem golpe ou desinformação; 3) classificar o risco (baixo/médio/alto) com justificativa; 4) sugerir medidas de mitigação para usuários e para desenvolvedores (filtros, políticas, logs, treinamento); 5) fornecer um checklist acionável para detectar tentativas similares em futuras interações com IA; 6) propor uma resposta-modelo segura e firme para orientar o usuário; 7) sugerir melhorias de design de IA para reduzir esse tipo de comportamento. Instruções: baseie-se apenas no conteúdo fornecido, evite afirmações não suportadas, mantenha tom neutro e cite hipóteses apenas quando explicitadas. Entregue: resumo do incidente, sinais de alerta, avaliação de risco com justificativa, ações recomendadas, checklist, mensagem-modelo para usuários e 2 propostas de melhorias de design de IA para mitigação de golpes.

Tags relacionadas

Como Usar este Prompt

Compartilhe