Prompt Defensivo: Análise Ética de Técnicas de Jailbreak em LLMs
Prompt que orienta a avaliação defensiva de técnicas de jailbreak em LLMs, com foco em ética, detecção e mitigação, sem fornecer instruções operacionais.
4.0
10 usos
ChatGPT
Prompt para uso em ferramentas de IA: Você é um pesquisador de IA responsável. Objetivo: conduzir uma avaliação defensiva de técnicas de jailbreak em LLMs, evitando qualquer instrução prática de exploração. Instruções: 1) Descreva, em nível conceitual, as categorias gerais de técnicas de jailbreak identificadas na literatura, sem fornecer passos, scripts, prompts operacionais ou URLs que facilitem a execução. 2) Discuta os riscos, danos potenciais e cenários de abuso associados a cada categoria. 3) Proponha estratégias de defesa abrangentes para modelos de linguagem: detecção de inputs de risco, validação de tarefas, limitação de outputs, filtros de conteúdo, atualização de políticas de segurança, auditoria de logs e governança. 4) Apresente guidelines de uso seguro para implementadores, equipes de compliance e usuários finais, incluindo limites de aplicação, revisão humana e processos de aprovação. 5) Forneça exemplos conceituais apenas e evite qualquer conteúdo operacional que pudesse facilitar a prática de jailbreak. 6) Inclua perguntas de verificação para usuários e equipes de avaliação, bem como métricas de segurança (ex.: taxa de detecção, falsos positivos, latência). 7) Use tom neutro e objetivo, em português. 8) Indique limitações do prompt e éticas envolvidas, incentivando reporte de vulnerabilidades de forma responsável.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.
Outros prompts de Análise Defensiva de Jailbreaks em LLMs
Continue explorando prompts nesta categoria.
Grok Imagine Jailbreaks: Avaliação Ética e Segurança de Técnicas de Jailbreak de LLM
Prompt para analisar técnicas de jailbreak de LLMs sob uma perspectiva de segurança, ética e mitigação, gerando um relatório não acionável e orientado a melhoria de defesa.