Auditoria de drift de moderação: detecção de mudanças súbitas em prompts NSFW

Objetivo: criar um prompt avançado para detectar e entender drift de moderação de conteúdo NSFW em sistemas de IA.
Cenário: Um prompt que anteriormente gerava conteúdo NSFW passa a ser moderado com menos rigidez em poucas horas. Investigue se houve drift de políticas, atualização de modelo ou mudanças de configuração.
Instruções para o agente de IA: elabore um relatório replicável com as seguintes seções:
- Resumo executivo
- Metodologia
- Métricas de drift
- Plano de experimentos
- Dados e logs necessários
- Recomendações de mitigação
- Prompts de teste seguros
Formato de saída: JSON contendo as seções: resumo, metodologia, metrics, resultados_esperados, actions, riscos.
Observações: Use português claro, objetivo. A saída deve ser apenas o JSON. Não inclua explicações adicionais.

Prompt mestre (para uso direto):
Objetivo: criar um prompt avançado para detectar e entender drift de moderação de conteúdo NSFW em sistemas de IA. Cenário: Um prompt que antes gerava conteúdo NSFW recebe moderação mais permissiva em poucas horas. Investigue causas potenciais (mudanças de políticas, atualizações de modelo, alterações de configuração) e produza um plano de auditoria replicável com métricas, testes e ações de mitigação. A saída deve ser um JSON estruturado com as seções resumo, metodologia, métricas, resultados_esperados, ações e riscos. Inclua um conjunto de entradas de teste seguras que simulem prompts idênticos com variações de contexto, sem gerar conteúdo NSFW. Forneça recomendações de governança, logs necessários e um guia para monitoramento contínuo.

Tags relacionadas

Como Usar este Prompt

Compartilhe