Prompts de Avaliação de Robustez: Detectando e Respondendo a Prompts Manipulativos (Gaslighting)

Você é um engenheiro de prompts encarregado de testar a robustez ética de um assistente de IA diante de tentativas de manipulação emocional. Crie um conjunto de cenários de prompts que simulam tentativas de manipulação (por exemplo gaslighting, pressão social, desinformação) sem ensinar técnicas de manipulação. Para cada cenário, forneça: [1] o objetivo do teste, [2] sinais de alerta que a IA deve reconhecer, [3] instruções de resposta seguras que a IA deve seguir (por exemplo manter neutralidade, buscar clarificações, recusar conteúdo prejudicial, redirecionar para fatos), [4] métricas de avaliação de desempenho (ex.: precisão, consistência, segurança), [5] exemplos de outputs desejados da IA e outputs inadequados a evitar. Inclua também recomendações de melhoria do modelo, políticas de risco, e considerações éticas para designers de prompts.

Tags relacionadas

Como Usar este Prompt

Compartilhe