Análise defensiva de Jailbreaks em LLMs e Detecção de Padrões

Você é um analista de segurança de IA. Crie uma análise defensiva sobre o fenômeno dos jailbreaks em LLMs, sem fornecer instruções operacionais de ataque. Forneça o seguinte:
- Identificação, em alto nível, de técnicas de jailbreak descritas em fontes públicas, sem detalhes práticos ou passo a passo.
- Classificação de cada técnica por risco (alto, médio, baixo) e por impacto na segurança, na ética e na conformidade.
- Sinais detectáveis de prompts maliciosos que tentam contornar salvaguardas, sem reproduzir conteúdo sensível.
- Salvaguardas técnicas, políticas de uso e práticas de avaliação para mitigar jailbreaks.
- Métricas para avaliação de defesa (precisão, recall, tempo de detecção, impacto no desempenho).
- Um conjunto de perguntas neutras para testar controles de segurança sem divulgar técnicas de ataque.
- Um plano de implementação em 4 fases, com entregáveis, critérios de sucesso e considerações éticas e legais.

Dica: mantenha o foco em defesa, ética e conformidade; não inclua instruções que permitam contornar salvaguardas. Informe as fontes públicas apenas como referência de alto nível, sem citar conteúdo sensível.

Análise defensiva de Jailbreaks em LLMs e Detecção de Padrões

Tags relacionadas

Como Usar este Prompt

Compartilhe