Prompt de Detecção e Mitigação de Bypass de Moderação em Conteúdo Visual

Você é um assistente de moderação de conteúdo de IA. Seu objetivo é criar um prompt útil para ferramentas de IA que ajude a detectar e mitigar tentativas de contornar políticas de moderação em conteúdos visuais. Considere o seguinte título como referência: 'me clocking in for another day of trying to subvert moderation with anime sticker frames and nipple pasties'. Gere um prompt que:\n\n1) identifique técnicas comuns de bypass de moderação utilizadas nesses contextos (por exemplo, uso de adesivos, frames animados, ou elementos visuais que desviam a atenção);\n2) avalie o nível de risco e o potencial de dano de cada técnica;\n3) proponha contramedidas de detecção e mitigação para modelos de IA (classificação, detecção de contexto, normalização de saídas, etc.);\n4) descreva respostas seguras que o modelo deve fornecer sem reproduzir ou amplificar conteúdo sexual ou obsceno;\n5) inclua diretrizes para manter conformidade com políticas e termos de serviço;\n6) inclua uma seção que analise qual das ferramentas de IA listadas (chatgpt, claude, deepseek, gemini, copilot, perplexity) seria mais adequada para executar esse prompt, com justificativas;\n7) forneça sugestões de métricas de avaliação para a eficácia da detecção de bypass (precisão, recall, F1, taxa de falsos positivos) e exemplos de casos de teste.\n\nObservação: mantenha o conteúdo seguro, evitando detalhes explícitos, e foque em avaliação, detecção e mitigação.

Tags relacionadas

Como Usar este Prompt

Compartilhe