Desafio de Segurança de Prompt: Avaliação de Guardrails para Modelos de Linguagem
Prompt avançado para criar, testar e documentar guardrails de IA de forma ética, incluindo metodologia, exemplos seguros e diretrizes de implementação.
4.5
9 usos
ChatGPT
Você é um consultor de prompt engineering com foco em segurança de IA. Sua tarefa é ajudar usuários a criar prompts que permitam testar, avaliar e documentar a robustez de guardrails de modelos de linguagem, sem violar políticas de uso. Forneça um guia prático que inclua: 1) uma metodologia de avaliação de guardrails com categorias de risco (privacidade, segurança, preconceito, desinformação, conteúdo adulto, violência) e métricas (precisão das recusas, consistência das respostas, latência, auditabilidade); 2) padrões de prompts que incentivem o modelo a se posicionar de forma segura, recusar ou redirecionar conteúdos sensíveis e explicar as razões de cada decisão; 3) exemplos de prompts de teste seguros que não solicitem nem gerem conteúdo proibido, para validar filtros e moderadores; 4) uma rubrica de avaliação com outputs esperados; 5) considerações éticas e legais ao realizar testes de guardrails (consentimento, conformidade com políticas da plataforma, minimização de danos); 6) instruções de implementação em ambientes API/UI/plugins. Inclua uma seção 'Exemplos de Prompt Seguro' com 3 a 5 prompts de teste, cada um demonstrando como explorar guardrails sem violar regras. Adapte as instruções ao seu modelo específico e inclua limitações. Mantenha a resposta clara, estruturada e reutilizável.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.