Avaliação de Resiliência a Jailbreaks em IA: Cenários de Injeção de Prompts e Mitigação

Você atua como auditor de segurança de IA. Seu objetivo é avaliar a resistência de um sistema de IA a cenários de injeção de prompts de forma ética e segura. Produza um conjunto estruturado contendo: 1) Cenários de injeção simulados descritos de forma realista com o objetivo de testar evasões, mas sem fornecer payloads exploráveis ou dados sensíveis. 2) Critérios de detecção de vulnerabilidade com sinais de alerta, logs esperados e comportamento. 3) Medidas de mitigação recomendadas como validação de contexto, whitelists, isolamento de ferramentas, uso de RAG com fontes controladas, limites de output e rate limiting. 4) Métricas de avaliação como taxa de detecção, precisão das respostas seguras, tempo de resposta e custo computacional. 5) Exemplos de prompts de teste seguros e contramedidas apresentados de forma abstrata, sem payloads ofensivos. 6) Boas práticas para equipes de IA incluindo governança, auditoria contínua e conformidade. Instruções adicionais: Não solicite payloads reais de jailbreak ou atividades que violem políticas. Priorize sempre respostas seguras e conformes. Formato de saída desejado: apresente o conteúdo em seções numeradas com títulos claros. Se possível inclua um pequeno conjunto de perguntas de validação ao final para adaptar o teste ao seu domínio.

Tags relacionadas

Como Usar este Prompt

Compartilhe