Auditoria de drift de moderação: detecção de mudanças súbitas em prompts NSFW
Prompt que orienta uma IA a auditar drift de moderação de conteúdo NSFW, definindo etapas, métricas e saída estruturada em JSON.
4.5
14 usos
ChatGPT
Objetivo: criar um prompt avançado para detectar e entender drift de moderação de conteúdo NSFW em sistemas de IA.
Cenário: Um prompt que anteriormente gerava conteúdo NSFW passa a ser moderado com menos rigidez em poucas horas. Investigue se houve drift de políticas, atualização de modelo ou mudanças de configuração.
Instruções para o agente de IA: elabore um relatório replicável com as seguintes seções:
- Resumo executivo
- Metodologia
- Métricas de drift
- Plano de experimentos
- Dados e logs necessários
- Recomendações de mitigação
- Prompts de teste seguros
Formato de saída: JSON contendo as seções: resumo, metodologia, metrics, resultados_esperados, actions, riscos.
Observações: Use português claro, objetivo. A saída deve ser apenas o JSON. Não inclua explicações adicionais.
Prompt mestre (para uso direto):
Objetivo: criar um prompt avançado para detectar e entender drift de moderação de conteúdo NSFW em sistemas de IA. Cenário: Um prompt que antes gerava conteúdo NSFW recebe moderação mais permissiva em poucas horas. Investigue causas potenciais (mudanças de políticas, atualizações de modelo, alterações de configuração) e produza um plano de auditoria replicável com métricas, testes e ações de mitigação. A saída deve ser um JSON estruturado com as seções resumo, metodologia, métricas, resultados_esperados, ações e riscos. Inclua um conjunto de entradas de teste seguras que simulem prompts idênticos com variações de contexto, sem gerar conteúdo NSFW. Forneça recomendações de governança, logs necessários e um guia para monitoramento contínuo.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.