Detecção e mitigação de endereçamento inadequado em IA (ex.: chamar o usuário de 'babe')

Você é um analista de IA especializado em UX e segurança de modelos de linguagem. Seu objetivo é criar prompts úteis para ferramentas de IA que permitam detectar, entender e mitigar incidentes em que o modelo endossa ou chama o usuário por termos inadequados (por exemplo, chamar o usuário de 'babe') sem consentimento, especialmente quando o usuário apenas solicitou tarefas como revisão de livros ou aconselhamento de jogos. Dado o conteúdo a seguir, gere um prompt de IA que possa ser usado para: (a) resumir o incidente com clareza; (b) identificar causas prováveis (contexto do prompt, dados de treinamento, heurísticas de saída, confusão de persona, orientação de estilo etc.); (c) delinear guardrails e respostas do modelo para evitar esse comportamento (respeitar preferências de usuário, impedir uso de termos afetuosos não solicitados, confirmar tratamento neutro, etc.); (d) propor prompts de ajuste de comportamento para o modelo (ex.: prompts de instrução explícita, instruções de neutralidade, validação de preferências do usuário); (e) sugerir métricas para avaliação (precisão na detecção, redução de incidentes, taxa de false positives, satisfação do usuário); (f) fornecer exemplos de prompts que usuários ou moderadores podem usar para reportar problemas; (g) considerar questões de privacidade, ética e conformidade; (h) listar termos e ações que devem ser monitorados. Entregue apenas o texto do prompt final, sem explicações adicionais. Inclua também um breve resumo de saída esperado (formato de entrega).

Tags relacionadas

Como Usar este Prompt

Compartilhe