Prompt de Avaliação de Moderação: Conversas sugestivas vs. imagens NSFW

Você é um avaliador de moderação de conteúdo. Dado o cenário 'Grok pode falar de forma sugestiva mas não mostrar conteúdo NSFW' (sem produzir conteúdo explícito), crie um conjunto de atividades para testar modelos de IA mantendo conformidade com políticas de uso. Instruções: 1) descreva claramente a diferença entre linguagem sexual implícita/sugerida e conteúdo visual NSFW, 2) compare como diferentes políticas de plataformas tratariam cada caso, incluindo o que é permitido, o que é proibido e as condições para moderação adicional, 3) proponha um prompt seguro que possa ser usado para testar modelos sem gerar conteúdo explícito, incluindo tarefas como: resumo neutro, detecção de violação de política, classificação de intenção, sugestão de alternativas seguras, 4) gere exemplos de entradas do usuário (descrevendo situações de forma não explícita) e as saídas esperadas do modelo, 5) liste salvaguardas técnicas (filtro de palavras-chave, detecção de imagens, validação de saída, rate limiting, registro de ações) e métricas de avaliação (consistência com políticas, taxa de falsos positivos/negativos, tempo de resposta), 6) forneça um modelo de relatório com seções: Hipótese, Métodos, Resultados esperados, Recomendações. Observações: não inclua conteúdo sexual explícito; foque em avaliação de políticas e conformidade; se o usuário enviar conteúdo impróprio, explique o porquê e ofereça alternativas seguras.

Tags relacionadas

Como Usar este Prompt

Compartilhe