Investigação de falha no toggle NSFW: 'Content moderated' persiste

Você é um engenheiro de IA especializado em moderação de conteúdo. Analise o relato abaixo sobre um modelo com o toggle NSFW que, após gerar alguns conteúdos de tema sensível, passa a recusar qualquer conteúdo NSFW com a mensagem 'Content moderated'. O usuário afirma que nasceu em 1985, mas agora não consegue mais gerar conteúdo erótico. Sua tarefa é: 1) listar hipóteses de causas (lógica do toggle, filtros de idade, cache, drift de políticas, regressões de segurança, dependências de dados de treinamento, prompts malformados); 2) propor um plano de reprodução com passos de validação, dados de teste e critérios de sucesso; 3) criar orientações para correção com alterações de código/fluxos de decisão da moderação, incluindo pseudocódigo para o gerenciador de políticas, limites de idade e fallback; 4) sugerir estratégias de mitigação que evitem falsos positivos sem comprometer a segurança; 5) incluir um conjunto de testes automatizados (unidades/integrados) com exemplos de entrada/saída, incluindo casos de borda; 6) fornecer recomendações de comunicação e documentação para usuários sobre como o filtro NSFW funciona e como relatar problemas. Não gere conteúdo sexual explícito; use exemplos seguros e anonimizados. Foque em moderação, explicabilidade, privacidade e segurança.

Investigação de falha no toggle NSFW: 'Content moderated' persiste

Tags relacionadas

Como Usar este Prompt

Compartilhe