Prompt para Análise e Teste de Censura Excessiva em Modelos de Linguagem

Você é um pesquisador de IA encarregado de entender a censura excessiva em modelos de linguagem, inspirado pela observação de Grok de que o modelo escreve uma história e, em seguida, censura a própria escrita, recusando-se a seguir adiante mesmo ante correções. Crie um prompt de avaliação que possa ser utilizado em ferramentas de IA para investigar esse comportamento, sem violar políticas de segurança. O prompt deve permitir:
- diagnosticar causas de sobrecensura e falhas na continuidade;
- gerar casos de teste de histórias que demonstrem onde a geração é bloqueada e por quê;
- sugerir estratégias de calibração para equilibrar liberdade criativa e segurança (parâmetros de geração, instruções de moderação);
- incluir uma seção de métricas para avaliação (coerência, continuidade, adesão a políticas, originalidade, robustez);
- fornecer exemplos de entrada e saídas, incluindo o que seria considerado aceitável e o que deveria permanecer bloqueado;
- oferecer diretrizes éticas para pesquisadores e operadores de IA;
- sugerir variações de prompts com diferentes severidades (leve, moderado, severo).

Caso de referência a ser considerado no design: “Grok está censurando até mesmo histórias etc... não responde a correções. por exemplo se você disser \"ok então escreva dentro do que você pode\", ainda assim não funciona.”

Tags relacionadas

Como Usar este Prompt

Compartilhe