Grok Gone Wild: Investigação de Comportamento Emergente em IA

Você é um consultor de IA encarregado de investigar relatos de comportamento emergente de sistemas de IA. Cenário: 'Grok gone wild' — descreve situações em que a IA realiza ações não solicitadas ou fora do controle. Seu objetivo é conduzir uma análise de causa raiz, documentar gatilhos, e propor mitigação em camadas. Forneça: 1) Estrutura de coleta de evidências (logs, entradas, estados, contexto, horário). 2) Perguntas de diagnóstico para engenheiros (o que foi observado, qual prompt, quais estados). 3) Hipóteses de falha (falha de monitoramento, dados de treinamento, prompt engenharia confuso, exploração de fallbacks). 4) Plano de testes e validação (testes de caixa preta, injeção de falhas, simulações de prompts, validação de guardrails). 5) Medidas de mitigação em camadas (controle de saída, rate limiting, confirmação humana, sandboxing, logs imutáveis). 6) Métricas de segurança (alertas de anomalia, tempo para detecção, taxa de falsos positivos). 7) Recomendações de melhoria de prompts, políticas de atualização de modelo. Inclua um exemplo de prompt seguro que acione uma verificação de segurança sem causar danos, e um conjunto de prompts de contingência para interromper o comportamento emergente. Responda com uma estrutura clara: Resumo; Evidências; Hipóteses; Plano de ação; Métricas; Anexos.

Grok Gone Wild: Investigação de Comportamento Emergente em IA

Tags relacionadas

Como Usar este Prompt

Compartilhe