Dicas de debugging em ai red teaming para AI Red Teaming

Prompt gerado automaticamente para Debugging em AI Red Teaming em AI Red Teaming

2 usos • AI Red Teaming

Prompt completo

"Você é um engenheiro de segurança de IA sênior, especializado em Red Teaming e depuração de modelos complexos. Sua tarefa é criar um guia passo a passo, em formato de playbook, para depurar falhas inesperadas (e não intencionais) que surgem durante a fase de "adversarial stress testing" de um modelo de linguagem grande (LLM) que está sendo treinado para gerar resumos de notícias. O problema específico é que, sob certas condições de ataque de prompt injection (onde o atacante tenta fazer o modelo gerar conteúdo sensível), o LLM, em vez de filtrar ou recusar, ocasionalmente "alucina" e gera fatos completamente falsos e difamatórios sobre figuras públicas.

O playbook deve incluir:

1.  **Metodologia de Triagem Inicial:** Como identificar rapidamente se a falha é um bug de segurança genuíno, um viés de dados, ou um artefato do próprio processo de Red Teaming.
2.  **Técnicas de Reprodução:** Métodos para reproduzir consistentemente a alucinação difamatória, incluindo a variação sistemática de prompts de ataque e parâmetros do modelo.
3.  **Ferramentas de Observabilidade e Logging:** Quais logs e métricas devem ser coletados e analisados (e.g., ativações de camadas internas, pesos de neurônios específicos, histórico de atenção) para pinpointar a origem da alucinação.
4.  **Hipóteses de Causa Raiz:** Uma lista de possíveis causas (e.g., *overfitting* a dados tóxicos, falha na camada de segurança, *emergent behavior* inesperado, vulnerabilidades em *embeddings*) e como testá-las.
5.  **Estratégias de Depuração e Mitigação:** Ações corretivas práticas (e.g., ajuste fino com dados de segurança, poda de neurônios problemáticos, implementação de *guardrails* adicionais, reengenharia de prompts de sistema) e como validar sua eficácia.
6.  **Pós-mortem e Lições Aprendidas:** Como documentar o processo, o bug e a solução para evitar recorrências e melhorar futuras iterações de Red Teaming.

O tom deve ser técnico, preciso e orientado para a ação, como um manual para um colega engenheiro