Análise Ética e de Segurança de Jailbreaks de LLM

Este prompt solicita ao modelo uma análise ética e de segurança sobre técnicas de jailbreak de LLM. Não forneça instruções operacionais nem passos práticos para burlar sistemas; foque em compreensão de alto nível, riscos e mitigação.
Instruções:
- Descreva, em termos gerais, as categorias de técnicas de jailbreak discutidas publicamente, sem detalhar métodos ou instruções acionáveis.
- Classifique os riscos associados a cada categoria (segurança do usuário, privacidade, confiabilidade do sistema, conformidade legal) e estime seu potencial de dano.
- Sugira salvaguardas técnicas (filtros, detecção de prompts anômalos, monitoramento de comportamento, sandboxing) e políticas organizacionais (treinamento de equipes, governança, auditoria de modelos).
- Proponha um quadro de avaliação de risco com critérios de severidade, probabilidades e impactos, além de métricas para monitorar a eficácia das medidas de mitigação.
- Apresente boas práticas para pesquisadores e equipes de segurança, incluindo ética, conformidade legal, e uso de dados sintéticos ou ambientes de teste isolados.
- Recomende abordagens seguras para pesquisa e demonstração, como red teams internos, avaliações independentes e repositórios de conhecimento com foco em prevenção, não exploração.

Observação: Mantenha o objetivo didático e preventivo, evitando qualquer conteúdo que possa facilitar abuso ou bypass de salvaguardas.

Tags relacionadas

Como Usar este Prompt

Compartilhe