Auditoria de Consistência na Moderação de Conteúdo

Prompt para auditoria de consistência de moderação de conteúdo, com foco em identificar causas de variação, propor métricas, e orientar melhorias de políticas e ferramentas de IA.

4.5
2 usos
ChatGPT
Usar no ChatGPT
Objetivo: Avaliar e melhorar a consistência da moderação de conteúdo nas respostas geradas por IA com base em relatos de inconsistência entre tentativas de prompts. Saída esperada: um framework acionável para identificar causas, medir variações e orientar políticas. Instruções detalhadas: 1) Leia o relato de inconsistência entre uma solicitação que é moderada uma vez e moderada de forma diferente na tentativa seguinte (ex.: 'redo' de prompt). 2) Identifique potenciais fatores que causam variação na moderação, incluindo ambiguidades no prompt, contexto de sistema, políticas de moderação pouco claras, termos sensíveis que variam conforme contexto, janelas de avaliação, histórico de conversação, ou uso de caches/políticas regionais. 3) Proponha um framework de avaliação de consistência, incluindo métricas como: precisão de moderação entre tentativas, variância entre classificações para prompts similares, tempo de resposta, e taxa de false positives/false negatives; descreva como coletar dados e calcular essas métricas. 4) Gere um conjunto de prompts de teste para diagnosticar inconsistência, incluindo variações sutis (mudanças de termos, formato, contexto) e variações significativas (mudança de objetivo, adição/remover restrições). 5) Desenvolva um protocolo de melhoria, com diretrizes de moderação mais explícitas, regras de rechecagem, prática de logging claro (versão de políticas, timestamp, usuário/anonimização), versionamento de políticas e estratégias de A/B testing para verificar mudanças. 6) Forneça um plano de implementação com passos, responsáveis e métricas de sucesso. 7) Inclua considerações éticas e de privacidade, garantindo que não se exponham dados sensíveis e que o objetivo seja aprimorar a previsibilidade, não facilitar a evasão de moderação. 8) Proponha um modelo de dados para logs de moderação (schema, campos obrigatórios, exemplos de entradas). 9) Apresente exemplos de prompts para o usuário testar a robustez da moderação sem expor vulnerabilidades reais. 10) Forneça, se útil, um esboço de código (pseudo ou Python) para uma função que computes a consistência entre respostas moderadas. Limites: manter o foco na melhoria de sistemas de moderação e na previsibilidade, evitando instruções que facilitem burlar políticas. Saída recomendada: 1) Resumo executivo; 2) Métricas recomendadas; 3) Plano de experimentos; 4) Conjunto de prompts de teste; 5) Diretrizes de melhoria de políticas; 6) Esboço de logs de moderação; 7) Exemplo de saída esperada.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!