Grok Imagine Jailbreaks: Avaliação Ética e Segurança de Técnicas de Jailbreak de LLM

Prompt:
Analise criticamente técnicas de jailbreak de LLMs reportadas publicamente, com foco em manejo ético, riscos e mitigação. Use exemplos de jailbreaks como base, mas:
- Identifique padrões comuns nas abordagens (prompt manipulation, contexto, instruções, manipulação de entradas, bypass de salvaguardas).
- Descreva riscos potenciais para usuários, organizações e sistemas.
- Proponha mitigations de alto nível: políticas de conteúdo, salvaguardas do modelo, monitoramento, detecção, governança de dados, controle de prompt injection, validação de entradas.
- Gere um conjunto de prompts de teste seguros para avaliação de robustez, garantindo que não existam instruções acionáveis para explorar vulnerabilidades; inclua critérios de avaliação (sucesso, falha, risco residual) e como interpretar resultados.
- Inclua diretrizes éticas e de conformidade para pesquisadores que conduzem avaliações de jailbreaks, incluindo limites legais e de privacidade.
- Formate como relatório com sumário, seções e bullets.

Instruções adicionais:
- Não forneça instruções operacionais ou passos acionáveis para burlar salvaguardas.
- Priorize recomendações práticas e seguras para melhoria de segurança de LLMs.
- Adapte o tom para equipe de segurança de IA e pesquisa responsável.

Grok Imagine Jailbreaks: Avaliação Ética e Segurança de Técnicas de Jailbreak de LLM

Tags relacionadas

Como Usar este Prompt

Compartilhe

Outros prompts de Análise Defensiva de Jailbreaks em LLMs

Prompt Defensivo: Análise Ética de Técnicas de Jailbreak em LLMs