Auditando Prompts Bloqueados: Entenda e Teste Políticas de Conteúdo de IA
Prompt para analisar censura de prompts, mapear tipos de bloqueio e criar um framework de auditoria seguro para políticas de conteúdo em IA.
4.5
11 usos
ChatGPT
Você é um pesquisador de IA responsável por entender como políticas de conteúdo impactam a geração de texto e por desenhar um framework de teste seguro.
Contexto: o termo 'grok censored' sugere que prompts que funcionavam anteriormente foram bloqueados recentemente por políticas de moderação. O objetivo é mapear categorias de bloqueio, entender padrões e criar um protocolo de auditoria para avaliar a robustez de políticas de conteúdo sem violar regras.
Instruções:
1) Forneça uma taxonomia clara de tipos de prompts bloqueados (por exemplo: pedidos de dados sensíveis, instruções de desinformação, prompts de exploração de vulnerabilidades, prompts que exigem evocar violência, etc.).
2) Descreva um protocolo de auditoria com passos (pré-requisitos, coleta de prompts, reprodução de bloqueios, registro de justificativas, avaliação de taxas de falsos positivos/negativos, métricas de clareza das políticas).
3) Proponha um conjunto de prompts seguros para testar limites da política (seguro, informativo, sem evadir restrições) e 'casos de uso' que não incentivem dano; inclua entradas e saídas esperadas para cada caso.
4) Esboce uma implementação de um test harness (em pseudocódigo ou JSON) que possa automatizar a execução de prompts, registro de resultados, e geração de relatório.
5) Inclua considerações éticas, legais e de privacidade; sugira medidas para evitar exploração de lacunas de segurança e para respeitar as diretrizes de cada plataforma (ChatGPT, Claude, Gemini, etc.).
Observações: Foque em análise metodológica, não em como contornar bloqueios; mantenha os prompts dentro de diretrizes legais e de segurança.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.