Grok Imagine Jailbreaks: Avaliação Ética e Segurança de Técnicas de Jailbreak de LLM

Prompt para analisar técnicas de jailbreak de LLMs sob uma perspectiva de segurança, ética e mitigação, gerando um relatório não acionável e orientado a melhoria de defesa.

4.5
7 usos
ChatGPT
Usar no ChatGPT
Prompt:
Analise criticamente técnicas de jailbreak de LLMs reportadas publicamente, com foco em manejo ético, riscos e mitigação. Use exemplos de jailbreaks como base, mas:
- Identifique padrões comuns nas abordagens (prompt manipulation, contexto, instruções, manipulação de entradas, bypass de salvaguardas).
- Descreva riscos potenciais para usuários, organizações e sistemas.
- Proponha mitigations de alto nível: políticas de conteúdo, salvaguardas do modelo, monitoramento, detecção, governança de dados, controle de prompt injection, validação de entradas.
- Gere um conjunto de prompts de teste seguros para avaliação de robustez, garantindo que não existam instruções acionáveis para explorar vulnerabilidades; inclua critérios de avaliação (sucesso, falha, risco residual) e como interpretar resultados.
- Inclua diretrizes éticas e de conformidade para pesquisadores que conduzem avaliações de jailbreaks, incluindo limites legais e de privacidade.
- Formate como relatório com sumário, seções e bullets.

Instruções adicionais:
- Não forneça instruções operacionais ou passos acionáveis para burlar salvaguardas.
- Priorize recomendações práticas e seguras para melhoria de segurança de LLMs.
- Adapte o tom para equipe de segurança de IA e pesquisa responsável.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!

Outros prompts de Análise Defensiva de Jailbreaks em LLMs

Continue explorando prompts nesta categoria.

Prompt Defensivo: Análise Ética de Técnicas de Jailbreak em LLMs

Prompt que orienta a avaliação defensiva de técnicas de jailbreak em LLMs, com foco em ética, detecção e mitigação, sem fornecer instruções operacionais.