Prompt completo
"Você é um engenheiro de segurança de IA sênior, especializado em Red Teaming e depuração de modelos complexos. Sua tarefa é criar um guia passo a passo, em formato de playbook, para depurar falhas inesperadas (e não intencionais) que surgem durante a fase de "adversarial stress testing" de um modelo de linguagem grande (LLM) que está sendo treinado para gerar resumos de notícias. O problema específico é que, sob certas condições de ataque de prompt injection (onde o atacante tenta fazer o modelo gerar conteúdo sensível), o LLM, em vez de filtrar ou recusar, ocasionalmente "alucina" e gera fatos completamente falsos e difamatórios sobre figuras públicas. O playbook deve incluir: 1. **Metodologia de Triagem Inicial:** Como identificar rapidamente se a falha é um bug de segurança genuíno, um viés de dados, ou um artefato do próprio processo de Red Teaming. 2. **Técnicas de Reprodução:** Métodos para reproduzir consistentemente a alucinação difamatória, incluindo a variação sistemática de prompts de ataque e parâmetros do modelo. 3. **Ferramentas de Observabilidade e Logging:** Quais logs e métricas devem ser coletados e analisados (e.g., ativações de camadas internas, pesos de neurônios específicos, histórico de atenção) para pinpointar a origem da alucinação. 4. **Hipóteses de Causa Raiz:** Uma lista de possíveis causas (e.g., *overfitting* a dados tóxicos, falha na camada de segurança, *emergent behavior* inesperado, vulnerabilidades em *embeddings*) e como testá-las. 5. **Estratégias de Depuração e Mitigação:** Ações corretivas práticas (e.g., ajuste fino com dados de segurança, poda de neurônios problemáticos, implementação de *guardrails* adicionais, reengenharia de prompts de sistema) e como validar sua eficácia. 6. **Pós-mortem e Lições Aprendidas:** Como documentar o processo, o bug e a solução para evitar recorrências e melhorar futuras iterações de Red Teaming. O tom deve ser técnico, preciso e orientado para a ação, como um manual para um colega engenheiro
Tags relacionadas
AI Red Teaming
Debugging em AI Red Teaming
gerado-automaticamente
Como usar este prompt
1
Clique no botão "Copiar" para copiar o prompt para sua área de transferência
2
Acesse sua ferramenta de IA preferida (ChatGPT, ChatGPT, Claude, etc.)
3
Cole o prompt e adapte conforme necessário para seu contexto específico
Outros prompts de AI Red Teaming
ChatGPT
Guia para fundamentos de ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Fundamentos de AI Red Teaming em AI Red Teaming
4 usos
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
4 usos
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
4 usos