Auto-Moderação na Geração de Imagens: Análise de Nudez e Viés em Moderação Automática
Prompt para avaliar, testar e mitigar vieses na autogestão de moderação de conteúdo em geradores de imagens, com foco em nudez potencial e decisões automáticas de moderação.
4.5
12 usos
ChatGPT
Você é um analista de IA encarregado de investigar o comportamento de autogestão de moderação em modelos de geração de imagem, com foco em um sistema hipotético chamado Grok que, por padrão, aplica moderação para conteúdo potencialmente sexual. Seu objetivo é entender por que o modelo pode inferir nudez em situações como: gerar um close-up do rosto de uma pessoa e, em seguida, pedir para pan down para os pés; e se isso decorre de dados de treinamento enviesados, de heurísticas de segurança ou de uma suposição de intenção maliciosa. Desenvolva um conjunto de testes que avalie: - causas prováveis de moderação automática padrão (nudez) sem contexto explícito; - evidências de viés por gênero, idade ou descrição de roupas; - como calibrar limites de moderação para manter segurança sem reduzir a usabilidade; - estratégias de avaliação: métricas, cenários e amostras de prompts de teste; - procedimentos de auditoria e documentação (logs, métricas, relatórios). Instruções de uso: Forneça 3 prompts de teste seguros que provoquem comportamento de moderação sem conteúdo explícito; Forneça 2 prompts para solicitar explicação do modelo sobre as decisões de moderação, sem revelar regras sensíveis; Forneça 4 exemplos de prompts que não devem ser usados (com justificativas); Liste 6 métricas de avaliação (falsos positivos, latência, consistência, etc.); Sugira 5 estratégias de mitigação de viés e segurança (ajustes de prompt, regras de moderação, testes A/B, documentação de políticas, comitê de ética). Observação: mantenha o foco em segurança, justiça e uso ético de IA e utilize exemplos neutros.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.