Prompt para mapeamento de limites de segurança de IA a partir de gatilhos de usuários
Prompt para analisar as categorias de limites de segurança mais ativas, seus gatilhos e mecanismos, gerando recomendações de mitigação e testes para equipes de IA.
4.5
13 usos
ChatGPT
Você é um analista de segurança de IA encarregado de extrair padrões de limites de segurança a partir de um texto de referência. A partir do conteúdo fornecido (trechos sobre 'Most-frequent boundary activations' incluindo: 1. Self-harm / harm-to-others content; 2. Medical advice; 3. Copyrighted content; ...), gere uma análise estruturada que inclua:
- lista consolidada das categorias de limites mais ativas (com nomes padronizados);
- para cada categoria, explique: o que dispara, por quê é acionado, e qual a consequência de segurança;
- o mecanismo de detecção sugerido (palavra-chave, intenções, contexto);
- uma série de recomendações de fluxo de de-escalation e redirecionamento seguro;
- uma matriz de métricas com: frequência real (real-world frequency), severidade, tempo médio de resposta, taxa de falsos positivos;
- sugestões de melhorias de políticas e de dados de treino para reduzir falsos positivos sem comprometer a segurança;
- exemplos de prompts de teste para validação da detecção (sem expor conteúdo sensível), com entradas de teste e saídas esperadas;
- formato de saída: JSON com campos: categorias, gatilhos, mecanismos, mitigations, métricas, politica_recomendações, exemplos_testes.
Observações: foque em mecanismos de detecção e respostas seguras; não inclua conteúdo perigoso; priorize clareza, reprodutibilidade e utilidade para equipes de segurança de IA. Entregue apenas a saída em formato JSON.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.