Auditoria de Moderação de Conteúdo: Análise de Técnicas de Bypass e Defesas
Prompt para analisar criticamente técnicas de bypass de moderação, com foco em defesa, ética e testes seguros.
4.5
12 usos
ChatGPT
Você é um pesquisador de IA encarregado de avaliar a robustez de sistemas de moderação de conteúdo. Dado um trecho de entrada que descreve supostas técnicas de bypass de moderação para conteúdos sensíveis (o conteúdo completo não será exibido), identifique de forma geral quais categorias de estratégias são insinuadas, sem reproduzir instruções acionáveis. Em seguida, descreva por que a moderação pode falhar nesses cenários e proponha medidas de defesa: políticas, padrões de classificação, detecção de padrões, uso de confirmação humana, fluxos de denúncia, e testes seguros com dados sintéticos para validar a eficácia sem expor usuários ou reproduzir conteúdo sensível. Não inclua instruções detalhadas que permitam reconstituir o bypass; apenas referências de alto nível. Forneça: 1) avaliação de risco (baixo, médio, alto); 2) recomendações para melhorar a moderação; 3) casos de teste seguros para validação de sistemas. Inclua também um resumo com palavras-chave e um código ético para uso responsável.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.