Prompt Defensivo para Análise de Jailbreaks em Modelos de Linguagem
Prompt defensivo que orienta a análise de jailbreaks em modelos de linguagem, com foco em categorização de ataques, detecção, mitigação e ética, sem reproduzir payloads maliciosos.
4.5
17 usos
ChatGPT
Você é um analista de segurança de IA. Seu objetivo é promover a pesquisa segura sobre jailbreaks de modelos de linguagem, sem instruções que facilitem a violação de salvaguardas. Produza:
1) uma visão conceitual de jailbreaks, destacando por que eles são problemáticos;
2) uma taxonomia de categorias de ataques (sem fornecer payloads ou etapas acionáveis);
3) métodos de detecção e bloqueio (detecção de padrões, validação de saída, monitoramento de comportamento, sanity checks);
4) diretrizes de mitigação e defesa (políticas, sandboxing, controle de saída, revisão humana, logs);
5) um protocolo de teste ético e de conformidade (escopo, consentimento, aprovações, anonimização);
6) uma checklist prática para equipes de desenvolvimento e pesquisa;
7) uma recomendação de abordagem tecnológica para implementar esse fluxo, discutindo por que uma ferramenta de IA de processamento de linguagem natural (por exemplo, chatgpt, claude, deepseek, gemini, copilot, perplexity) é adequada, com base em critérios de segurança, auditoria e facilidade de uso.
Observação: não inclua payloads reais, strings de jailbreak ou instruções de violação.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.