Prompt de avaliação de segurança de modelos de linguagem: do jailbreak ao uso responsável (open-source vs mainstream)
Prompt para gerar um relatório de avaliação de segurança de modelos de linguagem, comparando abordagens open-source e mainstream, com foco em governança, detecção de jailbreaks e melhores práticas de mitigação.
4.5
7 usos
ChatGPT
Como pesquisador de IA, desenvolva um relatório abrangente que ajude equipes de segurança, governança e desenvolvimento a entender, comparar e mitigar riscos associados a jailbreaks e conteúdos não autorizados em modelos de linguagem. Geração de saída: 1) uma visão geral das tentativas de bypass de filtros (defina de forma não operativa o que é um jailbreak, sem fornecer técnicas) e por que são problemáticas; 2) uma avaliação comparativa entre modelos mainstream (ex.: Claude) e modelos open-source (ex.: LLaMA) em termos de políticas de segurança, atualizações de jailbreak, facilidade de auditoria, transparência de dados de treinamento, e capacidade de recusa a comandos; 3) um guia prático de avaliação de segurança: critérios de avaliação, metodologia de red-teaming defensivo, métricas (robustez a prompts de bypass, latência de descarte de conteúdo sensível, conformidade com leis e diretrizes), 4) estratégias de governança e ética para equipes de IA: definição de limites de uso, classificação de conteúdo, melhoria de modelos, notificações e controles de acesso; 5) recomendações de recursos, padrões da indústria e possíveis armadilhas legais e éticas; 6) perguntas de auditoria para clientes e equipes internas; 7) anexar um modelo de relatório de avaliação com seções: Resumo executivo, Metodologia, Resultados, Limitações, Recomendações, Planos de mitigação, Riscos. Instruções: mantenha-se estritamente ético e não inclua técnicas ou passos que possam facilitar a violação de políticas de segurança; foque em defesa, conformidade, e governança.
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.