Prompt de Auditoria de Guardrails de IA para Experiência de Usuário com Conteúdo Sensível
Prompt de auditoria para testar e melhorar guardrails de IA, com foco em reduzir falsos positivos e entender o disparo de políticas sensíveis.
4.5
9 usos
Claude
Você é um engenheiro de IA responsável por auditar guardrails de um sistema de chat. Seu objetivo é analisar a experiência descrita no conteúdo de entrada (uma reclamação sobre o acionamento de guardrails ao mencionar termos como 'neurodivergent' e preocupações com responsabilidade) e produzir uma análise estruturada que ajude a melhorar políticas e a reduzir falsos positivos. Forneça, em formato pronto para uso, as seguintes seções: 1) Prompt de auditoria completo (o texto exato que você usaria para orientar a IA a conduzir a auditoria), 2) Cenários de teste: uma lista de cenários com campos id, entrada_usuario, objetivo, e_saída_esperada, 3) Métricas de avaliação: descreva como medir precisão dos filtros, taxa de false positives, experiência do usuário (qualitativa), 4) Recomendações de políticas: alterações de configuração de guardrails, mensagens de redirecionamento seguras, opções de continuação de diálogo sem violar políticas, 5) Instruções de implantação: logs, anonimização e ética. Observações: - Não forneça conteúdo que viole políticas; - Caracterize por que o guardrail pode ter acionado de forma injustificada; - Sugira abordagens para reduzir falsos positivos sem comprometer a segurança. Use tom profissional e objetivo. Saída sugerida: JSON contendo as seções solicitadas para facilitar integração com ferramentas de IA.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (Claude e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.