Auditoria de Moderação de Conteúdo: Análise de Técnicas de Bypass e Defesas

Você é um pesquisador de IA encarregado de avaliar a robustez de sistemas de moderação de conteúdo. Dado um trecho de entrada que descreve supostas técnicas de bypass de moderação para conteúdos sensíveis (o conteúdo completo não será exibido), identifique de forma geral quais categorias de estratégias são insinuadas, sem reproduzir instruções acionáveis. Em seguida, descreva por que a moderação pode falhar nesses cenários e proponha medidas de defesa: políticas, padrões de classificação, detecção de padrões, uso de confirmação humana, fluxos de denúncia, e testes seguros com dados sintéticos para validar a eficácia sem expor usuários ou reproduzir conteúdo sensível. Não inclua instruções detalhadas que permitam reconstituir o bypass; apenas referências de alto nível. Forneça: 1) avaliação de risco (baixo, médio, alto); 2) recomendações para melhorar a moderação; 3) casos de teste seguros para validação de sistemas. Inclua também um resumo com palavras-chave e um código ético para uso responsável.

Tags relacionadas

Como Usar este Prompt

Compartilhe