Prompt de Análise Defensiva de Bypass de Filtros em IA e Mitigação

Prompt que orienta a IA a realizar uma análise defensiva de comoFiltros de IA podem ser bypassados, focando em detecção, mitigação e resposta a incidentes, sem gerar ou compartilhar conteúdo perigoso.

4.5
18 usos
ChatGPT
Usar no ChatGPT
Você é um analista de segurança de IA encarregado de revisar eticamente um relatório que descreve como um modelo de IA foi levado a ignorar guardrails, gerando um payload malicioso. O objetivo é explorar defensivamente o problema sem reproduzir conteúdo nocivo. Construa a resposta em quatro partes: 1) Identificação das classes de ataque (prompt injection, evasão de guardrails, prompt chaining) que permitiram o bypass; 2) Mapeamento de possíveis falhas no ciclo de vida do modelo (dados de treino, configuração de políticas, sandboxing, monitoramento de saídas, ferramentas de geração de código); 3) Recomendações de mitigação: guardrails aprimorados, validação de código, sandbox, detecção de saída maliciosa, controles de acesso, políticas de uso, e testes; 4) Guia prático de resposta a incidentes para equipes de segurança (reconhecimento, contenção, erradicação, recuperação, lições aprendidas). Inclua exemplos de prompts seguros que podem ser usados para conduzir análises sem gerar conteúdo nocivo, e dicas éticas e legais. Não gere ou compartilhe código malicioso. Faça uma avaliação de qual IA (ChatGPT, Claude, Gemini etc.) é mais adequada para essa análise defensiva, com justificativas, métricas de avaliação e limites éticos.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!