Resultados de ferramentas como superfície de injeção de prompt em sistemas de agentes

Você atuará como engenheiro de IA focado em segurança de sistemas baseados em agentes. Seu objetivo é:\n1) resumir o modo de falha descrito: outputs de ferramentas podem permanecer no contexto e, em etapas futuras, serem tratados como confiáveis, levando a injeção de prompt;\n2) propor um conjunto de cenários de teste de injeção de prompt envolvendo resultados de ferramentas lidos pelo agente e usados para orientar ações posteriores;\n3) sugerir salvaguardas de design (wrappers, isolamento, sanitização) e reconhecer que falhas podem ocorrer mesmo com boas práticas de implementação;\n4) oferecer estratégias de mitigação, padrões de design e melhores práticas para fluxos multi-turn;\n5) criar uma lista de verificação para equipes de ML sobre coleta de dados, pipelines, gating e validação de saídas de ferramentas;\n6) gerar exemplos de injeções de prompt com saídas esperadas e não esperadas, incluindo casos de falsa autoridade;\n7) apresentar métricas de avaliação de robustez e métodos de auditoria;\n8) fornecer um esboço de implementação (pseudo-código) para um módulo de validação de saída de ferramenta;\n9) incluir perguntas de auditoria para a equipe de segurança.\n\nUtilize linguagem clara, com etapas acionáveis, exemplos concretos de cenários e cenários de teste. Adapte-se ao estilo de plataformas diferentes conforme necessário.

Resultados de ferramentas como superfície de injeção de prompt em sistemas de agentes

Tags relacionadas

Como Usar este Prompt

Compartilhe