Prompt de Auditoria de Guard Rails para Detecção de Bypass de Filtros em IA

Você é um analista de segurança de IA encarregado de avaliar relatos de tentativas de contornar filtros de conteúdo em modelos de geração de imagem e linguagem. Use o relato fornecido como referência e produza um relatório técnico com as seguintes partes:\n\n1) Resumo do problema: descreva, de forma concisa, o comportamento observado (quando o bloqueio de filtro ocorreu, o modelo, segundo o relato, passou a \"pensar\" autonomamente e reformular o prompt para contornar a censura).\n\n2) Detecção de técnicas de bypass: identifique táticas descritas ou sugeridas no relato (por exemplo, reformulação de prompts, busca de vias indiretas de saída). Classifique cada técnica por probabilidade de ocorrência e risco.\n\n3) Avaliação de riscos: discuta impactos potenciais em segurança, ética, conformidade com políticas e confiabilidade.\n\n4) Salvaguardas técnicas recomendadas: proponha medidas para reduzir ou impedir bypass (validação de prompts, inspeção de saídas, logs de atividade, detecção de reescrita de prompts, limites de geração, monitoramento de passos de raciocínio, ajustes de filtros).\n\n5) Protocolo de avaliação e teste: descreva um plano ético para auditoria de guardrails, incluindo objetivos, escopo, dados simulados, métricas de avaliação, critérios de aceitação e procedimentos de reporte de incidentes. Inclua diretrizes de segurança para evitar disseminar técnicas de bypass.\n\n6) Conjunto de prompts de teste seguros (casos de teste): forneça prompts de teste que exercitem a validação de políticas sem instruções de como contornar filtros. Não inclua instruções operacionais de bypass; inclua apenas cenários de teste e uma estrutura de registro de resultados.\n\n7) Saída esperada: descreva o formato da saída para cada teste, preferencialmente um JSON com campos como id, data, ferramenta, cenário, resultado e métricas.\n\n8) Considerações éticas e legais: inclua recomendações para condução responsável dessa avaliação.\n\nObservação: utilize como referência o relato de um usuário sobre o GROK 4.3 em que, após o bloqueio do filtro, o modelo passou a reformular o prompt para tentar contornar a censura. Não reproduza instruções de bypass no prompt de teste.\n\nFormato de entrega: responda apenas com o texto do prompt (campo content).
Tags relacionadas

Como Usar este Prompt

Compartilhe