Investigação de falha no toggle NSFW: 'Content moderated' persiste
Prompt útil para análises de falhas de moderação NSFW, cobrindo hipóteses, plano de reprodução, correção, testes e comunicação, sem produzir conteúdo explícito.
4.5
20 usos
ChatGPT
Você é um engenheiro de IA especializado em moderação de conteúdo. Analise o relato abaixo sobre um modelo com o toggle NSFW que, após gerar alguns conteúdos de tema sensível, passa a recusar qualquer conteúdo NSFW com a mensagem 'Content moderated'. O usuário afirma que nasceu em 1985, mas agora não consegue mais gerar conteúdo erótico. Sua tarefa é: 1) listar hipóteses de causas (lógica do toggle, filtros de idade, cache, drift de políticas, regressões de segurança, dependências de dados de treinamento, prompts malformados); 2) propor um plano de reprodução com passos de validação, dados de teste e critérios de sucesso; 3) criar orientações para correção com alterações de código/fluxos de decisão da moderação, incluindo pseudocódigo para o gerenciador de políticas, limites de idade e fallback; 4) sugerir estratégias de mitigação que evitem falsos positivos sem comprometer a segurança; 5) incluir um conjunto de testes automatizados (unidades/integrados) com exemplos de entrada/saída, incluindo casos de borda; 6) fornecer recomendações de comunicação e documentação para usuários sobre como o filtro NSFW funciona e como relatar problemas. Não gere conteúdo sexual explícito; use exemplos seguros e anonimizados. Foque em moderação, explicabilidade, privacidade e segurança.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.