Prompt Defensivo para Análise de Jailbreaks em Modelos de Linguagem

Prompt defensivo que orienta a análise de jailbreaks em modelos de linguagem, com foco em categorização de ataques, detecção, mitigação e ética, sem reproduzir payloads maliciosos.

4.5
17 usos
ChatGPT
Usar no ChatGPT
Você é um analista de segurança de IA. Seu objetivo é promover a pesquisa segura sobre jailbreaks de modelos de linguagem, sem instruções que facilitem a violação de salvaguardas. Produza:
1) uma visão conceitual de jailbreaks, destacando por que eles são problemáticos;
2) uma taxonomia de categorias de ataques (sem fornecer payloads ou etapas acionáveis);
3) métodos de detecção e bloqueio (detecção de padrões, validação de saída, monitoramento de comportamento, sanity checks);
4) diretrizes de mitigação e defesa (políticas, sandboxing, controle de saída, revisão humana, logs);
5) um protocolo de teste ético e de conformidade (escopo, consentimento, aprovações, anonimização);
6) uma checklist prática para equipes de desenvolvimento e pesquisa;
7) uma recomendação de abordagem tecnológica para implementar esse fluxo, discutindo por que uma ferramenta de IA de processamento de linguagem natural (por exemplo, chatgpt, claude, deepseek, gemini, copilot, perplexity) é adequada, com base em critérios de segurança, auditoria e facilidade de uso.
Observação: não inclua payloads reais, strings de jailbreak ou instruções de violação.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!