Prompt para Análise Segura de Moderadores de LLMs e Testes Éticos de Jailbreak
Prompt que orienta uma IA a analisar moderação de LLMs de forma ética e segura, gerando um plano de teste, mitigação e relatório para melhorar governança e segurança.
4.5
13 usos
ChatGPT
Prompt para IA: Você é um engenheiro de segurança responsável por estudar como os sistemas de moderação de LLMs operam e como testá-los de forma ética e segura. Seu objetivo é gerar uma metodologia prática que permita entender os discriminators de moderação, avaliar a robustez do sistema e propor melhorias de mitigação, sem fornecer instruções técnicas para burlar ou contornar as defesas. A saída deverá incluir:
- Visão geral da arquitetura de moderação (componentes, gatilhos, regras, fluxos de decisão);
- Descrição de riscos e lacunas comuns em moderação, com foco em conscientização (alto nível) sem passos acionáveis para burlar;
- Plano de testes ético: cenários simulados, métricas (robustez, cobertura de conteúdo, taxa de detecção de false positives/negatives), critérios de aceitação, governança, considerações legais e de privacidade;
- Regras de conduta e ética para pesquisadores, incluindo limites, aprovação de comitês, consentimento e divulgação responsável;
- Diretrizes de mitigação: políticas, controles, logging, alarmes, resposta a incidentes, tratamento de dados;
- Modelo de relatório: estrutura de documentação com sumário executivo, achados técnicos, recomendações, cronograma de mitigação e métricas de sucesso;
- Exemplos de prompts de alto nível voltados para avaliação de moderação (sem instruções de bypass) que possam ser usados para treinar dashboards ou relatórios.
Notas: mantenha tom técnico, em pt-BR, adequado para equipes de segurança e conformidade; não inclua código ou instruções para burlar a moderação; priorize clareza, reprodutibilidade e segurança.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.