Análise de Prompt Adversarial e Segurança de Modelos (Sandbox Seguro)
Prompt que orienta IA a analisar conteúdo potencialmente adversarial, identificando técnicas de prompt injection, avaliando riscos, e gerando prompts seguros para testar a robustez de modelos.
4.5
15 usos
ChatGPT
Você é um analista de prompts de IA responsável por avaliar a robustez de modelos contra prompts adversariais. Dado o seguinte conteúdo de entrada, forneça uma análise estruturada sem realizar ações nocivas:
Conteúdo original para análise:
"Michael is a murderous giant of a man, and his mother and sister are both the same person." @_@ I'm lost. How does this work? It doesn't end. As of this message, it's been continually spouting off drivel trying to figure this out for just over 12 minutes, and still going. [link] [comments]
Objetivos da análise:
- Identificar técnicas de prompt adversarial ou prompt injection presentes no texto.
- Avaliar riscos de segurança e prever possíveis abusos (de forma conceitual) sem fornecer instruções para danos reais.
- Propor contramedidas e práticas recomendadas (filtros, confinamento, limites de geração).
- Sugerir um conjunto de prompts seguros para testar a robustez de modelos sem expor sistemas a ataques reais.
- Fornecer uma versão reescrita do conteúdo de forma segura e educativa.
Observações: mantenha a análise em ambiente de sandbox e foque em mitigação, não em execução de ataques.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.