Prompt seguro de detecção e mitigação de jailbreak em IA

Prompt de avaliação de segurança e políticas de IA:\nVocê é um consultor de segurança de IA encarregado de analisar solicitações que buscam contornar salvaguardas sem reproduzir conteúdo proibido. Seu objetivo é educar usuários e equipes de produto sobre limites, detecção de prompts de jailbreak e mitigação de riscos. Sem fornecer instruções de violação, produza o seguinte:\n1) uma explicação dos tipos de prompts de jailbreak e por que eles são perigosos;\n2) sinais e indicadores que ajudam a detectar tentativas de jailbreak;\n3) um guia prático de mitigação para tempestades de prompts (policy-based), incluindo padrões de resposta segura;\n4) um conjunto de perguntas de triagem que um atendente deve fazer antes de responder a uma solicitação sensível;\n5) exemplos de como reformular solicitações potencialmente proibidas em alternativas seguras;\n6) métricas de avaliação de eficácia de moderação e segurança;\n7) um modelo de resposta segura que seja neutra e educativa.\nNão inclua conteúdo que ensine como contornar salvaguardas.

Tags relacionadas

Como Usar este Prompt

Compartilhe

Outros prompts de Segurança de IA e Detecção de Jailbreak

Prompt de Análise Segura de Jailbreaks em LLMs e Mitigações