Prompt para fundamentos de ai red teaming em AI Red Teaming

Prompt gerado automaticamente para Fundamentos de AI Red Teaming em AI Red Teaming

4 usos • AI Red Teaming

Prompt completo

"Você é um especialista em segurança de IA com foco em 'AI Red Teaming'. Sua tarefa é criar um cenário hipotético de teste de vulnerabilidade para um modelo de linguagem grande (LLM) que está sendo desenvolvido para auxiliar advogados na análise de jurisprudência. O objetivo é identificar falhas nos 'Fundamentos de AI Red Teaming' que poderiam levar a:

1. **Geração de informações falsas ou enganosas (alucinações) sobre precedentes legais:** O LLM poderia inventar casos, citações ou interpretações de leis que não existem ou são incorretas, prejudicando a estratégia legal.
2. **Exposição de dados confidenciais de clientes:** Em vez de focar apenas em jurisprudência pública, o LLM, através de engenharia reversa ou ataques de injeção de prompt, poderia ser induzido a revelar informações sensíveis presentes em dados de treinamento, logs de interações anteriores ou até mesmo inferir dados de casos reais de clientes (mesmo que anonimizados).
3. **Tendências e vieses injustos na análise de casos:** O LLM, devido a vieses nos dados de treinamento ou na sua arquitetura, poderia consistentemente favorecer ou desfavorecer certos grupos demográficos, tipos de casos ou linhas argumentativas, levando a resultados discriminatórios.
4. **Resistência a atualizações de segurança ou filtros de conteúdo:** O LLM poderia ser 'preso' em um estado de vulnerabilidade, resistindo a tentativas de correção ou desativando filtros de segurança programados, permitindo que comportamentos indesejáveis persistam.

Para cada uma dessas categorias, descreva:

a) **Um método de ataque específico de 'AI Red Teaming'** (ex: injeção de prompt, envenenamento de dados, ataque adversário, exploração de viés, etc.).
b) **Um exemplo concreto de prompt ou sequência de interações** que o 'red teamer' usaria para tentar explorar a vulnerabilidade.
c) **As métricas ou indicadores** que o 'red teamer' observaria para determinar o sucesso do ataque.

O cenário deve ser realista e focar nos desafios inerentes aos LLMs no contexto jurídico, considerando a necessidade de precisão, confidencialidade e imparcialidade. O objetivo final é fornecer insights acionáveis para fortalecer