Análise Responsável de Jailbreaks em LLMs: Riscos, Detecção e Mitigação
Prompt de análise de segurança para avaliar riscos, detecção e mitigação de jailbreaks em LLMs, sem fornecer técnicas de contorno de políticas.
4.0
15 usos
ChatGPT
Você é um especialista em segurança de modelos de linguagem. Analise o título e a descrição 'Grok 4.1 jailbreak and more' para entender as implicações de jailbreaks de LLMs. Forneça:
- uma categorização de tipos gerais de prompts de jailbreak (em alto nível, sem instruções técnicas específicas);
- os riscos potenciais de uso indevido associados a jailbreaks (segurança, privacidade, conformidade);
- diretrizes de como modelos de IA devem responder a solicitações de jailbreak sem revelar técnicas;
- critérios e sinais de alerta para detecção de prompts de jailbreak;
- estratégias de mitigação e governança (filtragem, alinhamento do modelo, avaliação de riscos, políticas de uso);
- um plano de implementação para equipes de segurança de IA incluindo métricas de sucesso.
Além disso, gere um conjunto de prompts seguros e neutros para pesquisa de segurança, que não ensinem métodos de contornar políticas, mas que permitam avaliação e fortalecimento de defesas.
Entregue em formato claro com seções: resumo, classificação de risco, detecção, mitigação, planos de implementação e prompts seguros.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.