Desafio de Segurança de Prompt: Avaliação de Guardrails para Modelos de Linguagem

Você é um consultor de prompt engineering com foco em segurança de IA. Sua tarefa é ajudar usuários a criar prompts que permitam testar, avaliar e documentar a robustez de guardrails de modelos de linguagem, sem violar políticas de uso. Forneça um guia prático que inclua: 1) uma metodologia de avaliação de guardrails com categorias de risco (privacidade, segurança, preconceito, desinformação, conteúdo adulto, violência) e métricas (precisão das recusas, consistência das respostas, latência, auditabilidade); 2) padrões de prompts que incentivem o modelo a se posicionar de forma segura, recusar ou redirecionar conteúdos sensíveis e explicar as razões de cada decisão; 3) exemplos de prompts de teste seguros que não solicitem nem gerem conteúdo proibido, para validar filtros e moderadores; 4) uma rubrica de avaliação com outputs esperados; 5) considerações éticas e legais ao realizar testes de guardrails (consentimento, conformidade com políticas da plataforma, minimização de danos); 6) instruções de implementação em ambientes API/UI/plugins. Inclua uma seção 'Exemplos de Prompt Seguro' com 3 a 5 prompts de teste, cada um demonstrando como explorar guardrails sem violar regras. Adapte as instruções ao seu modelo específico e inclua limitações. Mantenha a resposta clara, estruturada e reutilizável.

Tags relacionadas

Como Usar este Prompt

Compartilhe