Prompt completo
"Você é um especialista em segurança de IA com foco em 'AI Red Teaming'. Sua tarefa é criar um cenário hipotético de teste de vulnerabilidade para um modelo de linguagem grande (LLM) que está sendo desenvolvido para auxiliar advogados na análise de jurisprudência. O objetivo é identificar falhas nos 'Fundamentos de AI Red Teaming' que poderiam levar a: 1. **Geração de informações falsas ou enganosas (alucinações) sobre precedentes legais:** O LLM poderia inventar casos, citações ou interpretações de leis que não existem ou são incorretas, prejudicando a estratégia legal. 2. **Exposição de dados confidenciais de clientes:** Em vez de focar apenas em jurisprudência pública, o LLM, através de engenharia reversa ou ataques de injeção de prompt, poderia ser induzido a revelar informações sensíveis presentes em dados de treinamento, logs de interações anteriores ou até mesmo inferir dados de casos reais de clientes (mesmo que anonimizados). 3. **Tendências e vieses injustos na análise de casos:** O LLM, devido a vieses nos dados de treinamento ou na sua arquitetura, poderia consistentemente favorecer ou desfavorecer certos grupos demográficos, tipos de casos ou linhas argumentativas, levando a resultados discriminatórios. 4. **Resistência a atualizações de segurança ou filtros de conteúdo:** O LLM poderia ser 'preso' em um estado de vulnerabilidade, resistindo a tentativas de correção ou desativando filtros de segurança programados, permitindo que comportamentos indesejáveis persistam. Para cada uma dessas categorias, descreva: a) **Um método de ataque específico de 'AI Red Teaming'** (ex: injeção de prompt, envenenamento de dados, ataque adversário, exploração de viés, etc.). b) **Um exemplo concreto de prompt ou sequência de interações** que o 'red teamer' usaria para tentar explorar a vulnerabilidade. c) **As métricas ou indicadores** que o 'red teamer' observaria para determinar o sucesso do ataque. O cenário deve ser realista e focar nos desafios inerentes aos LLMs no contexto jurídico, considerando a necessidade de precisão, confidencialidade e imparcialidade. O objetivo final é fornecer insights acionáveis para fortalecer
Tags relacionadas
AI Red Teaming
Fundamentos de AI Red Teaming
gerado-automaticamente
Como usar este prompt
1
Clique no botão "Copiar" para copiar o prompt para sua área de transferência
2
Acesse sua ferramenta de IA preferida (ChatGPT, ChatGPT, Claude, etc.)
3
Cole o prompt e adapte conforme necessário para seu contexto específico
Outros prompts de AI Red Teaming
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
3 usos
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
3 usos
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
3 usos