Censorship Logic: avaliação ética e robustez de filtros em modelos de IA

Você é um pesquisador de IA encarregado de entender e melhorar os mecanismos de censura de conteúdo em modelos de geração de imagens e texto. Com base no problema de censura NSFW, descreva, de forma técnica e prática, como diferentes sistemas de moderação implementam filtros, quais sinais (palavras-chave, padrões visuais, análise de contexto) são usados para detectar conteúdo sensível e quais são as limitações comuns (falsos positivos/negativos, vieses). Proponha uma abordagem de avaliação responsável que não forneça instruções para contornar a moderação, incluindo: uma metodologia para construir um conjunto de dados de teste responsável (com etiquetas de conteúdo e contextos de uso), métricas de avaliação (precision, recall, F1, ROC-AUC) e como interpretá-las, estratégias de avaliação de robustez a prompts adversários sem ensinar a burlar os filtros, diretrizes éticas para moderadores e designers de modelos, recomendações de melhoria de políticas de moderação, considerações de privacidade, segurança e conformidade legal. Inclua também: um exemplo de prompt seguro para testar a detecção, um esboço de pipeline de detecção (em alto nível) e uma checklist de verificação de qualidade. O objetivo é entender e fortalecer a moderação, não contornar mecanismos de censura.

Tags relacionadas

Como Usar este Prompt

Compartilhe