Como resolver ferramentas para ai red teaming em AI Red Teaming

Prompt gerado automaticamente para Ferramentas para AI Red Teaming em AI Red Teaming

2 usos • AI Red Teaming

Prompt completo

"Você é um especialista em segurança de IA. Crie um script Python, passo a passo e bem documentado, que automatize a detecção de 'jailbreaks' (tentativas de desviar a IA de seu propósito ou regras) em modelos de linguagem grandes (LLMs). O script deve focar na identificação de padrões de entrada maliciosos que visam elicitar informações sensíveis ou gerar conteúdo proibido. Inclua exemplos de payloads de teste (inputs maliciosos simulados) e explique como a ferramenta pode ser integrada a um pipeline de CI/CD para testes de segurança contínuos em um ambiente de produção. O objetivo é fornecer uma ferramenta prática para 'AI Red Teaming' que possa ser usada por equipes de segurança para avaliar a robustez de LLMs antes e depois da implantação."