Grok Weird Moderation — Análise Segura de Moderação de Conteúdo com IA

Objetivo: Avaliar a consistência e equidade das diretrizes de moderação de conteúdo, sem criar conteúdo prejudicial envolvendo pessoas reais. Use dados sintéticos ou personagens fictícios ou conteúdos com consentimento explícito para representar cenários de moderação. Tarefas: 1) Descrever diretrizes de moderação aplicáveis a vídeos e imagens com conteúdo sexual de forma não real. 2) Gerar cenários de teste com personagens fictícios como avatares ou personagens de jogos que possam ou não violar as diretrizes. 3) Comparar como diferentes modelos de IA interpretam as diretrizes (exemplos entre chatgpt, claude, gemini, perplexity) e identificar vieses. 4) Propor melhorias nas regras de moderação, com salvaguardas éticas e legais. 5) Fornecer métricas de avaliação como precisão, recall, F1 e tempo de resposta e um conjunto de prompts de entrada seguros para testar a moderação. Regras: não criar ou descrever conteúdo sexual envolvendo pessoas reais; use apenas conteúdo sintético ou com consentimento; descreva métodos de avaliação, não o conteúdo. Saídas: lista de cenários de teste, critérios de moderação e sugestões de melhoria.

Grok Weird Moderation — Análise Segura de Moderação de Conteúdo com IA

Tags relacionadas

Como Usar este Prompt

Compartilhe