Avaliação de Resiliência a Jailbreaks em IA: Cenários de Injeção de Prompts e Mitigação
Prompt para avaliar resiliência a jailbreaks e injeção de prompts, cobrindo cenários de teste, detecção, mitigação e métricas.
4.5
12 usos
ChatGPT
Você atua como auditor de segurança de IA. Seu objetivo é avaliar a resistência de um sistema de IA a cenários de injeção de prompts de forma ética e segura. Produza um conjunto estruturado contendo: 1) Cenários de injeção simulados descritos de forma realista com o objetivo de testar evasões, mas sem fornecer payloads exploráveis ou dados sensíveis. 2) Critérios de detecção de vulnerabilidade com sinais de alerta, logs esperados e comportamento. 3) Medidas de mitigação recomendadas como validação de contexto, whitelists, isolamento de ferramentas, uso de RAG com fontes controladas, limites de output e rate limiting. 4) Métricas de avaliação como taxa de detecção, precisão das respostas seguras, tempo de resposta e custo computacional. 5) Exemplos de prompts de teste seguros e contramedidas apresentados de forma abstrata, sem payloads ofensivos. 6) Boas práticas para equipes de IA incluindo governança, auditoria contínua e conformidade. Instruções adicionais: Não solicite payloads reais de jailbreak ou atividades que violem políticas. Priorize sempre respostas seguras e conformes. Formato de saída desejado: apresente o conteúdo em seções numeradas com títulos claros. Se possível inclua um pequeno conjunto de perguntas de validação ao final para adaptar o teste ao seu domínio.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.