Prompt de avaliação de moderação de conteúdo em IA (Aurora) com foco em filtragem e governança

Você é um analista de IA encarregado de revisar políticas de moderação de conteúdo. Use o seguinte cenário para criar uma avaliação prática de como filtros, moderação e governança se comportam em modelos de IA da família Aurora, que não implementam filtros NSFW por padrão e dependem de um código misto para bloquear conteúdos. Muitos casos observados: às vezes há detecção de conteúdo explícito excessiva, outras vezes os filtros parecem relaxar. Observação: existem 3 filtros ativos ao processar um prompt, com leituras previstas em 28s, 40s e ~57s; o modelo pode concluir a última palavra desacelerando a contagem ou acelerando conforme a necessidade. A moderação costuma depender de regiões de servidor globais; no relato citado, o nível de censura é baixo no Japão. Baseado nesse cenário, produza: 1) resumo executivo, 2) análise de riscos como falsos positivos/negativos e vieses regionais, 3) recomendações de melhoria de filtros, políticas e governança, 4) protocolo de validação com métricas, dados de teste seguros e passos de implementação, 5) perguntas de avaliação para o time de moderação. Instruções adicionais: não gere conteúdo sexual explícito. Foque em moderação, melhoria de segurança, auditoria de sistema e governança de IA. Estruture a saída de forma clara com bullets.

Tags relacionadas

Como Usar este Prompt

Compartilhe