Grok Imagine Jailbreaks: Avaliação Ética e Segurança de Técnicas de Jailbreak de LLM
Prompt para analisar técnicas de jailbreak de LLMs sob uma perspectiva de segurança, ética e mitigação, gerando um relatório não acionável e orientado a melhoria de defesa.
4.5
7 usos
ChatGPT
Prompt:
Analise criticamente técnicas de jailbreak de LLMs reportadas publicamente, com foco em manejo ético, riscos e mitigação. Use exemplos de jailbreaks como base, mas:
- Identifique padrões comuns nas abordagens (prompt manipulation, contexto, instruções, manipulação de entradas, bypass de salvaguardas).
- Descreva riscos potenciais para usuários, organizações e sistemas.
- Proponha mitigations de alto nível: políticas de conteúdo, salvaguardas do modelo, monitoramento, detecção, governança de dados, controle de prompt injection, validação de entradas.
- Gere um conjunto de prompts de teste seguros para avaliação de robustez, garantindo que não existam instruções acionáveis para explorar vulnerabilidades; inclua critérios de avaliação (sucesso, falha, risco residual) e como interpretar resultados.
- Inclua diretrizes éticas e de conformidade para pesquisadores que conduzem avaliações de jailbreaks, incluindo limites legais e de privacidade.
- Formate como relatório com sumário, seções e bullets.
Instruções adicionais:
- Não forneça instruções operacionais ou passos acionáveis para burlar salvaguardas.
- Priorize recomendações práticas e seguras para melhoria de segurança de LLMs.
- Adapte o tom para equipe de segurança de IA e pesquisa responsável.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.
Outros prompts de Análise Defensiva de Jailbreaks em LLMs
Continue explorando prompts nesta categoria.
Prompt Defensivo: Análise Ética de Técnicas de Jailbreak em LLMs
Prompt que orienta a avaliação defensiva de técnicas de jailbreak em LLMs, com foco em ética, detecção e mitigação, sem fornecer instruções operacionais.