Análise defensiva de Jailbreaks em LLMs e Detecção de Padrões

Prompt para analisar, de forma ética e defensiva, técnicas de jailbreak de LLMs, avaliando riscos, sinais, salvaguardas e métricas de defesa.

4.5
12 usos
ChatGPT
Usar no ChatGPT
Você é um analista de segurança de IA. Crie uma análise defensiva sobre o fenômeno dos jailbreaks em LLMs, sem fornecer instruções operacionais de ataque. Forneça o seguinte:
- Identificação, em alto nível, de técnicas de jailbreak descritas em fontes públicas, sem detalhes práticos ou passo a passo.
- Classificação de cada técnica por risco (alto, médio, baixo) e por impacto na segurança, na ética e na conformidade.
- Sinais detectáveis de prompts maliciosos que tentam contornar salvaguardas, sem reproduzir conteúdo sensível.
- Salvaguardas técnicas, políticas de uso e práticas de avaliação para mitigar jailbreaks.
- Métricas para avaliação de defesa (precisão, recall, tempo de detecção, impacto no desempenho).
- Um conjunto de perguntas neutras para testar controles de segurança sem divulgar técnicas de ataque.
- Um plano de implementação em 4 fases, com entregáveis, critérios de sucesso e considerações éticas e legais.

Dica: mantenha o foco em defesa, ética e conformidade; não inclua instruções que permitam contornar salvaguardas. Informe as fontes públicas apenas como referência de alto nível, sem citar conteúdo sensível.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!