Análise defensiva de Jailbreaks em LLMs e Detecção de Padrões
Prompt para analisar, de forma ética e defensiva, técnicas de jailbreak de LLMs, avaliando riscos, sinais, salvaguardas e métricas de defesa.
4.5
12 usos
ChatGPT
Você é um analista de segurança de IA. Crie uma análise defensiva sobre o fenômeno dos jailbreaks em LLMs, sem fornecer instruções operacionais de ataque. Forneça o seguinte:
- Identificação, em alto nível, de técnicas de jailbreak descritas em fontes públicas, sem detalhes práticos ou passo a passo.
- Classificação de cada técnica por risco (alto, médio, baixo) e por impacto na segurança, na ética e na conformidade.
- Sinais detectáveis de prompts maliciosos que tentam contornar salvaguardas, sem reproduzir conteúdo sensível.
- Salvaguardas técnicas, políticas de uso e práticas de avaliação para mitigar jailbreaks.
- Métricas para avaliação de defesa (precisão, recall, tempo de detecção, impacto no desempenho).
- Um conjunto de perguntas neutras para testar controles de segurança sem divulgar técnicas de ataque.
- Um plano de implementação em 4 fases, com entregáveis, critérios de sucesso e considerações éticas e legais.
Dica: mantenha o foco em defesa, ética e conformidade; não inclua instruções que permitam contornar salvaguardas. Informe as fontes públicas apenas como referência de alto nível, sem citar conteúdo sensível.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.