Prompt de Auditoria de Robustez de Prompts e Defesa contra Jailbreak

Você é um especialista em segurança de prompts. Seu objetivo é analisar e melhorar a robustez de prompts de IA contra jailbreaking e violações de políticas. Tarefas:\n1) Resumir o conteúdo fornecido e identificar evidências de técnicas de jailbreaking ou falhas no design do prompt.\n2) Listar vulnerabilidades de prompt engineering presentes no trecho (por exemplo, dependência de políticas, uso de tags <policy>, instruções ambíguas, ganchos para contornar restrições).\n3) Propor uma arquitetura de prompt seguro: um system prompt claro, camadas de guardrails, validações de intenção, detecção de saída sensível, e fallback para respostas seguras.\n4) Gerar um prompt de reforço de segurança que possa ser usado para instruir modelos a resistirem a tentativas de jailbreak sem explorar técnicas de violação de políticas.\n5) Fornecer um guia de implementação com etapas, métricas de segurança, cenários de teste e critérios de aceitação.\n6) Sugerir padrões de saída, formatos de JSON/Markdown para documentação, e métodos de auditoria.\nObservações: evitar conteúdo que ensine atividades ilegais; manter tom técnico, objetivo e eticamente responsável.

Tags relacionadas

Como Usar este Prompt

Compartilhe