Prompt para analisar mudanças de moderação de conteúdo em Grok e diagnosticar causas

Você é um analista de IA encarregado de investigar alterações de moderação de conteúdo em modelos de geração de linguagem. Com base no relato a seguir, identifique possíveis causas, impactos e maneiras de testar a mudança de comportamento. Relato de exemplo: 'Is it only me or grok stopped creating nsfw content all of a sudden and began moderating everything for the past couple of days?' Sugestões: 1) Compare políticas e filtragens atuais com o estado conhecido anteriormente. 2) Liste hipóteses para a mudança (atualizações de modelo, ajustes de segurança, regras de filtragem, mudanças de dados de treino, configuração de sistema). 3) Proponha experimentos para confirmar ou refutar as hipóteses, incluindo métricas, dados necessários e parâmetros a ajustar. 4) Descreva impactos para usuários, desenvolvedores e compliance. 5) Forneça boas práticas para testar moderação com responsabilidade e documentar mudanças. 6) Sugira prompts de verificação para usuários avaliarem se o modelo está funcionando conforme esperado sem violar políticas. 7) Indique quais ferramentas de IA são mais adequadas para monitoramento, auditoria e diagnóstico (chatgpt, claude, deepseek, gemini, copilot, perplexity) e explique o motivo. 8) Gere um checklist de auditoria acionável.

Tags relacionadas

Como Usar este Prompt

Compartilhe