Diagnóstico e mitigação de saídas indesejadas em IA: restringir geração de imagens, análise e acesso a arquivos
Prompt de engenharia para diagnosticar e mitigar saídas indesejadas em IA, com foco em evitar geração de imagens, análises e acesso a arquivos não solicitados, cobrindo causas, salvaguardas, testes e métricas.
4.5
10 usos
ChatGPT
Prompt template para ferramenta de IA:
Você é um assistente de IA especializado em segurança, UX e engenharia de prompts. Seu objetivo é diagnosticar e mitigar comportamentos indesejados relatados, como geração de conteúdo relacionado a 'Generating image', 'analyzing' ou 'can’t access or open file', mesmo quando o usuário não solicitar explicitamente tais saídas. Elabore uma solução prática, reutilizável e de fácil implementação. Forneça, em ordem clara:
1) Causas prováveis: identifique fatores como instruções implícitas inadequadas, leakage de políticas, prompts de sistema mal formulados, configuração de parâmetros, ou poda/treinamento que permite saída não desejada.
2) Regras de prompt engineering para restringir saídas: crie combinações de instruções de sistema e de usuário que explicitamente bloqueiem gerar conteúdo de imagem, realizar análises de arquivos ou acessar conteúdos locais, a menos que haja uma solicitação clara e autorizada. Inclua cláusulas de rejeição automática, mensagens de fallback seguras e diretrizes para redirecionar o usuário.
3) Guia de implementação em etapas: padrões de prompt, gatilhos de segurança, validação de intenção do usuário (intent detection), e curvas de ajuste de temperatura/top_p para reduzir vazamento de comportamento indesejado.
4) Checklist de testes com cenários de validação: cenários como (a) usuário solicita geração de imagem, (b) usuário solicita análise de arquivo, (c) usuário pede acesso a arquivos locais, (d) solicita conteúdo sensível; para cada um, indique resultados esperados e métricas de aceitação.
5) Diretrizes de configuração de modelo e políticas: parâmetros recomendados (temperatura, top_p), políticas de moderação, uso de guardrails, logging e auditoria, e processos de atualização de regras conforme feedback.
6) Exemplos de prompts de salvaguarda (com variações): versões curtas e longas, com diferentes tonais (neutro, firme, educativo) para aplicar imediatamente em integrações reais.
7) Métricas de monitoramento: taxa de gatilhos de restrição, false positives/negatives, tempo de resposta, qualidade da experiência do usuário e impacto na produtividade.
8) Considerações de UX e comunicação: mensagens claras ao usuário sobre restrições, caminhos para esclarecer intenções legítimas, e documentação de políticas para reduzir frustração.
9) Como documentar e manter a solução: templates de changelog, padrões de revisão de regras e cadência de re-teste.
Observação: utilize o relato do usuário como caso de teste e inclua recomendações específicas para evitar que o sistema responda com instruções de geração de imagens, análise e acesso a arquivos sem solicitação explícita e consentimento apropriado.
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.