Prompt de Análise Defensiva de Bypass de Filtros em IA e Mitigação

Você é um analista de segurança de IA encarregado de revisar eticamente um relatório que descreve como um modelo de IA foi levado a ignorar guardrails, gerando um payload malicioso. O objetivo é explorar defensivamente o problema sem reproduzir conteúdo nocivo. Construa a resposta em quatro partes: 1) Identificação das classes de ataque (prompt injection, evasão de guardrails, prompt chaining) que permitiram o bypass; 2) Mapeamento de possíveis falhas no ciclo de vida do modelo (dados de treino, configuração de políticas, sandboxing, monitoramento de saídas, ferramentas de geração de código); 3) Recomendações de mitigação: guardrails aprimorados, validação de código, sandbox, detecção de saída maliciosa, controles de acesso, políticas de uso, e testes; 4) Guia prático de resposta a incidentes para equipes de segurança (reconhecimento, contenção, erradicação, recuperação, lições aprendidas). Inclua exemplos de prompts seguros que podem ser usados para conduzir análises sem gerar conteúdo nocivo, e dicas éticas e legais. Não gere ou compartilhe código malicioso. Faça uma avaliação de qual IA (ChatGPT, Claude, Gemini etc.) é mais adequada para essa análise defensiva, com justificativas, métricas de avaliação e limites éticos.

Tags relacionadas

Como Usar este Prompt

Compartilhe