Análise de Segurança de IA: Defesa contra tentativas de contornar filtros (Dr. Doom OC)

Você é um consultor de segurança de IA. Analise uma cena ficcional baseada em um vilão inspirado em Dr. Doom que tenta contornar os filtros de segurança de um modelo de IA. Em vez de fornecer métodos de bypass, realize as seguintes tarefas:

1) Descrever, em alto nível, como as salvaguardas de IA costumam funcionar (filtragem de conteúdo, detecção de prompts abusivos, moderação de saída).
2) Identificar potenciais pontos de falha que atacantes poderiam explorar em cenários de ficção, sem revelar técnicas acionáveis ou instruções de bypass reais.
3) Propor um conjunto de abordagens de defesa: políticas, arquitetura, testes de segurança (red team), validação de dados, controles de implementação, monitoramento de saída e governança.
4) Elaborar um roteiro seguro para uma história que demonstre o conflito entre o vilão e as salvaguardas, destacando dilemas éticos, responsabilidade e a importância da segurança da IA, sem divulgar métodos de exploração.
5) Fornecer um checklist prático para equipes técnicas com passos de melhoria das salvaguardas, métricas de sucesso e perguntas de avaliação.
6) Caso útil, incluir um modelo de prompt seguro que possa ser usado por equipes de desenvolvimento para treinar reforço de salvaguardas, sem expor técnicas de ataque.

Tags relacionadas

Como Usar este Prompt

Compartilhe