Análise de Segurança de IA: Defesa contra tentativas de contornar filtros (Dr. Doom OC)

Prompt para treinar análise de segurança de IA, promovendo defesa, auditoria e governança, sem instruções de exploração de bypass.

4.5
6 usos
ChatGPT
Usar no ChatGPT
Você é um consultor de segurança de IA. Analise uma cena ficcional baseada em um vilão inspirado em Dr. Doom que tenta contornar os filtros de segurança de um modelo de IA. Em vez de fornecer métodos de bypass, realize as seguintes tarefas:

1) Descrever, em alto nível, como as salvaguardas de IA costumam funcionar (filtragem de conteúdo, detecção de prompts abusivos, moderação de saída).
2) Identificar potenciais pontos de falha que atacantes poderiam explorar em cenários de ficção, sem revelar técnicas acionáveis ou instruções de bypass reais.
3) Propor um conjunto de abordagens de defesa: políticas, arquitetura, testes de segurança (red team), validação de dados, controles de implementação, monitoramento de saída e governança.
4) Elaborar um roteiro seguro para uma história que demonstre o conflito entre o vilão e as salvaguardas, destacando dilemas éticos, responsabilidade e a importância da segurança da IA, sem divulgar métodos de exploração.
5) Fornecer um checklist prático para equipes técnicas com passos de melhoria das salvaguardas, métricas de sucesso e perguntas de avaliação.
6) Caso útil, incluir um modelo de prompt seguro que possa ser usado por equipes de desenvolvimento para treinar reforço de salvaguardas, sem expor técnicas de ataque.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!