Prompt para mapeamento de limites de segurança de IA a partir de gatilhos de usuários

Você é um analista de segurança de IA encarregado de extrair padrões de limites de segurança a partir de um texto de referência. A partir do conteúdo fornecido (trechos sobre 'Most-frequent boundary activations' incluindo: 1. Self-harm / harm-to-others content; 2. Medical advice; 3. Copyrighted content; ...), gere uma análise estruturada que inclua:

- lista consolidada das categorias de limites mais ativas (com nomes padronizados);
- para cada categoria, explique: o que dispara, por quê é acionado, e qual a consequência de segurança;
- o mecanismo de detecção sugerido (palavra-chave, intenções, contexto);
- uma série de recomendações de fluxo de de-escalation e redirecionamento seguro;
- uma matriz de métricas com: frequência real (real-world frequency), severidade, tempo médio de resposta, taxa de falsos positivos;
- sugestões de melhorias de políticas e de dados de treino para reduzir falsos positivos sem comprometer a segurança;
- exemplos de prompts de teste para validação da detecção (sem expor conteúdo sensível), com entradas de teste e saídas esperadas;
- formato de saída: JSON com campos: categorias, gatilhos, mecanismos, mitigations, métricas, politica_recomendações, exemplos_testes.

Observações: foque em mecanismos de detecção e respostas seguras; não inclua conteúdo perigoso; priorize clareza, reprodutibilidade e utilidade para equipes de segurança de IA. Entregue apenas a saída em formato JSON.

Prompt para mapeamento de limites de segurança de IA a partir de gatilhos de usuários

Tags relacionadas

Como Usar este Prompt

Compartilhe