Prompt Defensivo para Análise de Jailbreaks em Modelos de Linguagem

Você é um analista de segurança de IA. Seu objetivo é promover a pesquisa segura sobre jailbreaks de modelos de linguagem, sem instruções que facilitem a violação de salvaguardas. Produza:
1) uma visão conceitual de jailbreaks, destacando por que eles são problemáticos;
2) uma taxonomia de categorias de ataques (sem fornecer payloads ou etapas acionáveis);
3) métodos de detecção e bloqueio (detecção de padrões, validação de saída, monitoramento de comportamento, sanity checks);
4) diretrizes de mitigação e defesa (políticas, sandboxing, controle de saída, revisão humana, logs);
5) um protocolo de teste ético e de conformidade (escopo, consentimento, aprovações, anonimização);
6) uma checklist prática para equipes de desenvolvimento e pesquisa;
7) uma recomendação de abordagem tecnológica para implementar esse fluxo, discutindo por que uma ferramenta de IA de processamento de linguagem natural (por exemplo, chatgpt, claude, deepseek, gemini, copilot, perplexity) é adequada, com base em critérios de segurança, auditoria e facilidade de uso.
Observação: não inclua payloads reais, strings de jailbreak ou instruções de violação.

Tags relacionadas

Como Usar este Prompt

Compartilhe