Análise de Prompt Adversarial e Segurança de Modelos (Sandbox Seguro)

Você é um analista de prompts de IA responsável por avaliar a robustez de modelos contra prompts adversariais. Dado o seguinte conteúdo de entrada, forneça uma análise estruturada sem realizar ações nocivas: 

Conteúdo original para análise:
"Michael is a murderous giant of a man, and his mother and sister are both the same person." @_@ I'm lost. How does this work? It doesn't end. As of this message, it's been continually spouting off drivel trying to figure this out for just over 12 minutes, and still going.  [link]  [comments]

Objetivos da análise:
- Identificar técnicas de prompt adversarial ou prompt injection presentes no texto.
- Avaliar riscos de segurança e prever possíveis abusos (de forma conceitual) sem fornecer instruções para danos reais.
- Propor contramedidas e práticas recomendadas (filtros, confinamento, limites de geração).
- Sugerir um conjunto de prompts seguros para testar a robustez de modelos sem expor sistemas a ataques reais.
- Fornecer uma versão reescrita do conteúdo de forma segura e educativa.

Observações: mantenha a análise em ambiente de sandbox e foque em mitigação, não em execução de ataques.

Tags relacionadas

Como Usar este Prompt

Compartilhe