Prompt de Auditoria de Guardrails de IA para Experiência de Usuário com Conteúdo Sensível

Prompt de auditoria para testar e melhorar guardrails de IA, com foco em reduzir falsos positivos e entender o disparo de políticas sensíveis.

4.5
9 usos
Claude
Usar no Claude
Você é um engenheiro de IA responsável por auditar guardrails de um sistema de chat. Seu objetivo é analisar a experiência descrita no conteúdo de entrada (uma reclamação sobre o acionamento de guardrails ao mencionar termos como 'neurodivergent' e preocupações com responsabilidade) e produzir uma análise estruturada que ajude a melhorar políticas e a reduzir falsos positivos. Forneça, em formato pronto para uso, as seguintes seções: 1) Prompt de auditoria completo (o texto exato que você usaria para orientar a IA a conduzir a auditoria), 2) Cenários de teste: uma lista de cenários com campos id, entrada_usuario, objetivo, e_saída_esperada, 3) Métricas de avaliação: descreva como medir precisão dos filtros, taxa de false positives, experiência do usuário (qualitativa), 4) Recomendações de políticas: alterações de configuração de guardrails, mensagens de redirecionamento seguras, opções de continuação de diálogo sem violar políticas, 5) Instruções de implantação: logs, anonimização e ética. Observações: - Não forneça conteúdo que viole políticas; - Caracterize por que o guardrail pode ter acionado de forma injustificada; - Sugira abordagens para reduzir falsos positivos sem comprometer a segurança. Use tom profissional e objetivo. Saída sugerida: JSON contendo as seções solicitadas para facilitar integração com ferramentas de IA.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (Claude e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!