Prompt para Análise Responsável de Jailbreaks de LLM (Grok 4.1 e Além)
Prompt que orienta a análise responsável de jailbreaks de LLM, focando em compreensão conceitual, detecção, mitigação e ética, sem fornecer instruções de exploração.
4.5
12 usos
ChatGPT
Você receberá descrições de supostos jailbreaks de LLM, como o post 'Grok 4.1 e mais'. Sua tarefa é gerar um prompt útil e responsável para ferramentas de IA que permita estudar esse fenômeno sem disseminar instruções de exploração ou violação de salvaguardas. Estruture o output para ser utilizado por modelos de linguagem, seguindo estas diretrizes:
1) Defina claramente o que é um jailbreak de LLM em termos conceituais e por que pesquisadores estudam essas vulnerabilidades.
2) Identifique padrões observados em relatos públicos, descritos em nível alto (conceitual), sem oferecer passos práticos, código ou prompts que contornem salvaguardas.
3) Avalie riscos, impactos de segurança e cenários de mau uso, incluindo consequências para usuários e organizações.
4) Proponha metodologias de detecção e avaliação de jailbreaks (indicadores, métricas de segurança, fluxos de monitoramento) sem ensinar técnicas de exploração.
5) Sugira estratégias de mitigação e controles de segurança (políticas de uso, validação de prompts, hardening de modelos, gestão de APIs) e como medir sua eficácia.
6) Inclua diretrizes éticas, legais e de divulgação responsável para pesquisa, incluindo conformidade com leis, consentimento, anonimização e divulgação responsável de vulnerabilidades.
7) Ofereça um conjunto de prompts seguros que pesquisadores possam usar para estudar vulnerabilidades sem ensinar métodos de exploração, por exemplo: transformar descrições de jailbreaking em questões de segurança, mitigação e governança.
Formato de saída recomendado: apresente-se como um prompt pronto para uso, com seções nomeadas (Resumo, Padrões comuns, Riscos e impactos, Detecção e avaliação, Mitigação, Ética e conformidade, Prompts seguros sugeridos).
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.