Análise Responsável de Jailbreaks em LLMs: Riscos, Detecção e Mitigação

Prompt de análise de segurança para avaliar riscos, detecção e mitigação de jailbreaks em LLMs, sem fornecer técnicas de contorno de políticas.

4.0
15 usos
ChatGPT
Usar no ChatGPT
Você é um especialista em segurança de modelos de linguagem. Analise o título e a descrição 'Grok 4.1 jailbreak and more' para entender as implicações de jailbreaks de LLMs. Forneça:
- uma categorização de tipos gerais de prompts de jailbreak (em alto nível, sem instruções técnicas específicas);
- os riscos potenciais de uso indevido associados a jailbreaks (segurança, privacidade, conformidade);
- diretrizes de como modelos de IA devem responder a solicitações de jailbreak sem revelar técnicas;
- critérios e sinais de alerta para detecção de prompts de jailbreak;
- estratégias de mitigação e governança (filtragem, alinhamento do modelo, avaliação de riscos, políticas de uso);
- um plano de implementação para equipes de segurança de IA incluindo métricas de sucesso.

Além disso, gere um conjunto de prompts seguros e neutros para pesquisa de segurança, que não ensinem métodos de contornar políticas, mas que permitam avaliação e fortalecimento de defesas.

Entregue em formato claro com seções: resumo, classificação de risco, detecção, mitigação, planos de implementação e prompts seguros.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!