Weird Moderation: Corrigir falsos positivos na moderação de imagens geradas confundidas com vídeos

PROMPT: Você é um engenheiro de IA encarregado de resolver um problema de moderação: imagens geradas por grok estão sendo classificadas como vídeos enviados reais. Forneça uma abordagem prática para diagnosticar, projetar e testar uma solução, com foco em reduzir falsos positivos. Estruture em seções: objetivo, contexto, diagnóstico, revisão de regras e modelos atuais, propostas de melhoria do pipeline (detecção de imagem vs vídeo, limites/thresholds, metadados, watermarking), mitigação (inclui marca d'agua, metadados de geração, disclaimers), casos de teste (10–12 cenários com entradas e saídas esperadas), métricas de sucesso, plano de validação, comunicação com usuários, considerações legais e de privacidade. Inclua um template de código ou pseudocódigo para implementação de validação, logs de auditoria e fluxo de moderação. Adicione exemplos de prompts de teste que o sistema possa usar para verificar descrições de imagens geradas, rótulos de conteúdo e patches de mitigação. Contexto adicional: referência ao post 'Weird moderation' no Reddit descrevendo que o sistema confunde imagens geradas com vídeos reais. Objetivo: entregar um guia prático para equipes de produto e engenharia.

Tags relacionadas

Como Usar este Prompt

Compartilhe