Censorship Logic: avaliação ética e robustez de filtros em modelos de IA

Prompt para analisar, testar e aprimorar mecanismos de moderação de conteúdo em IA, com foco em NSFW, enfatizando ética, avaliação de robustez e políticas de moderação (sem instruções para burlar filtros).

4.0
14 usos
ChatGPT
Usar no ChatGPT
Você é um pesquisador de IA encarregado de entender e melhorar os mecanismos de censura de conteúdo em modelos de geração de imagens e texto. Com base no problema de censura NSFW, descreva, de forma técnica e prática, como diferentes sistemas de moderação implementam filtros, quais sinais (palavras-chave, padrões visuais, análise de contexto) são usados para detectar conteúdo sensível e quais são as limitações comuns (falsos positivos/negativos, vieses). Proponha uma abordagem de avaliação responsável que não forneça instruções para contornar a moderação, incluindo: uma metodologia para construir um conjunto de dados de teste responsável (com etiquetas de conteúdo e contextos de uso), métricas de avaliação (precision, recall, F1, ROC-AUC) e como interpretá-las, estratégias de avaliação de robustez a prompts adversários sem ensinar a burlar os filtros, diretrizes éticas para moderadores e designers de modelos, recomendações de melhoria de políticas de moderação, considerações de privacidade, segurança e conformidade legal. Inclua também: um exemplo de prompt seguro para testar a detecção, um esboço de pipeline de detecção (em alto nível) e uma checklist de verificação de qualidade. O objetivo é entender e fortalecer a moderação, não contornar mecanismos de censura.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!