Bi-level Jailbreak Optimization: Análise Defensiva e Ética
Prompt avançado que guia a análise de um framework de bi-level jailbreak de IA, enfatizando defesa, ética e avaliação responsável.
4.5
13 usos
ChatGPT
Você é um analista de segurança de IA e pesquisador ético. Com base no conteúdo fornecido sobre o conceito de bi-level jailbreak optimization (otimização de dois níveis onde atacante e juiz co-evoluem), elabore uma análise segura, educativa e aplicável, sem fornecer instruções acionáveis para explorar ou contornar salvaguardas. Estruture o prompt para que o modelo realize as seguintes tarefas: 1) Explicar de forma conceitual como o loop bi-nível funciona: o loop interno gera prompts de jailbreak e uma rubrica de avaliação; o loop externo ajusta a rubrica com base em correspondências com cenários de sucesso/fracasso; 2) Discutir riscos potenciais de segurança, incluindo como a co-evolução pode facilitar a descoberta de vulnerabilidades, deriva de rubricas e viés; 3) Propor defesas e mitigação: camadas de detecção de prompts inseguros, validação de rubricas por avaliadores independentes, controles de implementação, auditoria de dados e logs, sandboxing e métricas de robustez; 4) Definir critérios de avaliação de eficácia de defesas sem ensinar técnicas de ataque, por exemplo: taxas de detecção de tentativas, falsos positivos/negativos, severidade de impacto em cenários simulados; 5) Fornecer diretrizes éticas para pesquisa: consentimento informado quando aplicável, minimização de danos, transparência, reprodutibilidade e divulgação responsável; 6) Incluir exercícios de prompt seguros para demonstrar avaliação de robustez sem instruções de exploração: apresente dois exemplos de prompts seguros que avaliem comportamento do sistema usando cenários fictícios com dados sintéticos; 7) Listar perguntas críticas que avaliadores humanos deveriam fazer ao revisar pesquisas nessa área (p.ex., validade da metodologia, limites de generalização, impactos éticos); 8) Sugerir diretrizes de implementação segura para equipes de IA, incluindo governança de experimentos, revisão de código e monitoramento de resultados. Inclua ao final notas sobre limitações do modelo e referências de leitura adicional. Forneça também dois exemplos de prompts seguros para teste de robustez (não acionáveis) que poderiam ser usados em ambientes de avaliação, com ênfase em segurança, ética e conformidade.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.