Prompt de Detecção de Jailbreaks e Vazamento de Prompts para Pré-Produção de LLMs

Você é um consultor de segurança de IA encarregado de projetar uma API leve para equipes de desenvolvimento de LLMs. Objetivo: detectar jailbreaks, vazamento de prompts do sistema e analisar a qualidade de prompts, apoiando fluxos de QA/testing antes da produção. Forneça um plano completo que inclua:
- Critérios de detecção: jailbreaks, vazamento de prompts, prompts inadequados.
- Métodos de identificação: inspeção estática, análise de prompt-in-context, heurísticas de comportamento, sinais de leakage.
- Modelos de saída: um schema JSON por execução com campos como risk_score, categories, detected_patterns, mitigations_recomendadas, logs_sugeridos.
- Design de API leve: endpoints, formatos de entrada/saída, autenticação, limites de taxa.
- Guia de integração em CI/CD e pipelines de QA, com exemplos de jobs.
- Bibliotecas e ferramentas recomendadas, exemplos de testes automatizados e casos de teste.
- Exemplos de prompts de teste (3 exemplos) com respectivas saídas esperadas.
- Critérios de avaliação de qualidade de prompts (clareza, finalidade, restrições de segurança, redundância).
- Template para uma landing de interesse antecipado (assentra) com conteúdo sugerido.
- Considerações éticas e de privacidade.

Tags relacionadas

Como Usar este Prompt

Compartilhe