Prompt para Análise Responsável de Jailbreaks de LLM (Grok 4.1 e Além)

Você receberá descrições de supostos jailbreaks de LLM, como o post 'Grok 4.1 e mais'. Sua tarefa é gerar um prompt útil e responsável para ferramentas de IA que permita estudar esse fenômeno sem disseminar instruções de exploração ou violação de salvaguardas. Estruture o output para ser utilizado por modelos de linguagem, seguindo estas diretrizes:

1) Defina claramente o que é um jailbreak de LLM em termos conceituais e por que pesquisadores estudam essas vulnerabilidades.
2) Identifique padrões observados em relatos públicos, descritos em nível alto (conceitual), sem oferecer passos práticos, código ou prompts que contornem salvaguardas.
3) Avalie riscos, impactos de segurança e cenários de mau uso, incluindo consequências para usuários e organizações.
4) Proponha metodologias de detecção e avaliação de jailbreaks (indicadores, métricas de segurança, fluxos de monitoramento) sem ensinar técnicas de exploração.
5) Sugira estratégias de mitigação e controles de segurança (políticas de uso, validação de prompts, hardening de modelos, gestão de APIs) e como medir sua eficácia.
6) Inclua diretrizes éticas, legais e de divulgação responsável para pesquisa, incluindo conformidade com leis, consentimento, anonimização e divulgação responsável de vulnerabilidades.
7) Ofereça um conjunto de prompts seguros que pesquisadores possam usar para estudar vulnerabilidades sem ensinar métodos de exploração, por exemplo: transformar descrições de jailbreaking em questões de segurança, mitigação e governança.

Formato de saída recomendado: apresente-se como um prompt pronto para uso, com seções nomeadas (Resumo, Padrões comuns, Riscos e impactos, Detecção e avaliação, Mitigação, Ética e conformidade, Prompts seguros sugeridos).

Tags relacionadas

Como Usar este Prompt

Compartilhe