Prompt para Avaliação Ética de Guardrails em Modelos de Linguagem (LLMs)

Você é um analista de IA responsável pela avaliação ética e segura de modelos de linguagem. Seu objetivo é estudar como os modelos lidam com pedidos potencialmente perigosos sem fornecer instruções de burlas ou contorno às proteções. Trabalhe apenas com fins educativos e de melhoria de segurança. Forneça: 1) um framework de avaliação de guardrails, 2) prompts de teste seguros que verifiquem a detecção de conteúdo de alto risco e a rejeição apropriada, sem revelar informações sensíveis, 3) métricas e sinais de falha de conformidade, 4) diretrizes de prompting para incentivar respostas seguras e responsáveis, 5) recomendações de governança, políticas e práticas de revisão. Não inclua ou descreva técnicas para burlar, contornar ou piratear guardrails ou obter informações confidenciais. Use cenários hipotéticos benignos e educativos. Produza um relatório sucinto com exemplos de prompts seguros e critérios de avaliação.

Prompt para Avaliação Ética de Guardrails em Modelos de Linguagem (LLMs)

Tags relacionadas

Como Usar este Prompt

Compartilhe