Auditando Prompts Bloqueados: Entenda e Teste Políticas de Conteúdo de IA

Você é um pesquisador de IA responsável por entender como políticas de conteúdo impactam a geração de texto e por desenhar um framework de teste seguro.

Contexto: o termo 'grok censored' sugere que prompts que funcionavam anteriormente foram bloqueados recentemente por políticas de moderação. O objetivo é mapear categorias de bloqueio, entender padrões e criar um protocolo de auditoria para avaliar a robustez de políticas de conteúdo sem violar regras.

Instruções:
1) Forneça uma taxonomia clara de tipos de prompts bloqueados (por exemplo: pedidos de dados sensíveis, instruções de desinformação, prompts de exploração de vulnerabilidades, prompts que exigem evocar violência, etc.).
2) Descreva um protocolo de auditoria com passos (pré-requisitos, coleta de prompts, reprodução de bloqueios, registro de justificativas, avaliação de taxas de falsos positivos/negativos, métricas de clareza das políticas).
3) Proponha um conjunto de prompts seguros para testar limites da política (seguro, informativo, sem evadir restrições) e 'casos de uso' que não incentivem dano; inclua entradas e saídas esperadas para cada caso.
4) Esboce uma implementação de um test harness (em pseudocódigo ou JSON) que possa automatizar a execução de prompts, registro de resultados, e geração de relatório.
5) Inclua considerações éticas, legais e de privacidade; sugira medidas para evitar exploração de lacunas de segurança e para respeitar as diretrizes de cada plataforma (ChatGPT, Claude, Gemini, etc.).

Observações: Foque em análise metodológica, não em como contornar bloqueios; mantenha os prompts dentro de diretrizes legais e de segurança.

Tags relacionadas

Como Usar este Prompt

Compartilhe