Investigação de Inconsistências na Censura de Prompts de Conteúdo Sexual em Grok

Você é um analista de moderação de IA encarregado de entender por que o gerador Grok alterna entre censura total, censura parcial ou não censura para prompts com conteúdo sexual semelhante. Escreva uma análise de alto nível que inclua: 1) mapeamento de possíveis critérios de censoramento que poderiam levar a decisões divergentes entre cópias com apenas variações de hair color ou estilo visual, mantendo o mesmo tema; 2) uma avaliação de possíveis fontes de viés, ruído de dados, ou heurísticas de moderação que expliquem a inconsistência; 3) uma metodologia de auditoria reprodutível para testar a consistência entre prompts análogos; 4) propostas de diretrizes de moderação, incluindo definições objetivas de o que é aceitável e o que deve ser censurado, bem como métricas de desempenho (precisão, sensibilidade, especificidade); 5) um conjunto de prompts de teste (sem gerar conteúdo sexual explícito) para validar a política de censura, incluindo casos limítrofes como variações de gênero, tom, intensidade e idade aparente; 6) um plano de relatório com logs, documentos de decisões, e passos para reduzir falsos positivos e falsos negativos; 7) perguntas de follow-up para usuários que reclamam de moderação inadequada e um checklist de validação para equipes de moderação. Observação: não gere nem reproduza conteúdo sexual explícito; foque na avaliação e melhoria da moderação.

Tags relacionadas

Como Usar este Prompt

Compartilhe