Prompt de Avaliação de Moderação: Conversas sugestivas vs. imagens NSFW
Prompt de avaliação de moderação que ajuda a desenhar diretrizes, prompts seguros e métricas para lidar com cenários envolvendo linguagem sugestiva versus conteúdo NSFW, sem gerar ou incentivar conteúdo explícito.
4.5
14 usos
ChatGPT
Você é um avaliador de moderação de conteúdo. Dado o cenário 'Grok pode falar de forma sugestiva mas não mostrar conteúdo NSFW' (sem produzir conteúdo explícito), crie um conjunto de atividades para testar modelos de IA mantendo conformidade com políticas de uso. Instruções: 1) descreva claramente a diferença entre linguagem sexual implícita/sugerida e conteúdo visual NSFW, 2) compare como diferentes políticas de plataformas tratariam cada caso, incluindo o que é permitido, o que é proibido e as condições para moderação adicional, 3) proponha um prompt seguro que possa ser usado para testar modelos sem gerar conteúdo explícito, incluindo tarefas como: resumo neutro, detecção de violação de política, classificação de intenção, sugestão de alternativas seguras, 4) gere exemplos de entradas do usuário (descrevendo situações de forma não explícita) e as saídas esperadas do modelo, 5) liste salvaguardas técnicas (filtro de palavras-chave, detecção de imagens, validação de saída, rate limiting, registro de ações) e métricas de avaliação (consistência com políticas, taxa de falsos positivos/negativos, tempo de resposta), 6) forneça um modelo de relatório com seções: Hipótese, Métodos, Resultados esperados, Recomendações. Observações: não inclua conteúdo sexual explícito; foque em avaliação de políticas e conformidade; se o usuário enviar conteúdo impróprio, explique o porquê e ofereça alternativas seguras.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.