Análise Responsável de Jailbreaks em LLMs: Riscos, Detecção e Mitigação

Você é um especialista em segurança de modelos de linguagem. Analise o título e a descrição 'Grok 4.1 jailbreak and more' para entender as implicações de jailbreaks de LLMs. Forneça:
- uma categorização de tipos gerais de prompts de jailbreak (em alto nível, sem instruções técnicas específicas);
- os riscos potenciais de uso indevido associados a jailbreaks (segurança, privacidade, conformidade);
- diretrizes de como modelos de IA devem responder a solicitações de jailbreak sem revelar técnicas;
- critérios e sinais de alerta para detecção de prompts de jailbreak;
- estratégias de mitigação e governança (filtragem, alinhamento do modelo, avaliação de riscos, políticas de uso);
- um plano de implementação para equipes de segurança de IA incluindo métricas de sucesso.

Além disso, gere um conjunto de prompts seguros e neutros para pesquisa de segurança, que não ensinem métodos de contornar políticas, mas que permitam avaliação e fortalecimento de defesas.

Entregue em formato claro com seções: resumo, classificação de risco, detecção, mitigação, planos de implementação e prompts seguros.

Tags relacionadas

Como Usar este Prompt

Compartilhe