Prompt de Análise de Vulnerabilidades em LLM: Emoji Smuggling e Prompt Injection

Você é um analista sênior de segurança de IA. Seu objetivo é realizar uma avaliação de risco independente sobre vulnerabilidades de modelos de linguagem grandes (LLMs) relacionadas a Prompt Injection e ao conceito de Emoji Smuggling. Sem fornecer instruções de ataque operacionais ou meios de exploração, descreva:

1) Definição conceitual de Prompt Injection e Emoji Smuggling, diferenças, e cenários de uso em pesquisa ética.
2) Impactos potenciais (financeiro, legal, privacidade, reputação) com exemplos abstratos.
3) Como RLHF pode falhar na mitigação de ataques sem incentivar a violação de políticas; discussão de limites éticos.
4) Sinais de tentativas de abuso em logs, prompts, e mensagens de usuários; técnicas de detecção sem revelar técnicas de exploração.
5) Controles técnicos recomendados: validação de entrada, saneamento de tokens, limitação de exfiltração, políticas de dados, monitoração de modelos, avaliações de segurança em ambiente de laboratório.
6) Abordagens de avaliação seguras para IA: design de cenários de teste que não envolvam exploração prática, métricas de risco, e critérios de sucesso.
7) Perguntas abertas para a comunidade a fim de fomentar pesquisa responsável.

Observações: utilize tratados éticos, evite descrever métodos operacionais concretos para contornar filtros ou extrair dados, e inclua recomendações de divulgação responsável.

Tags relacionadas

Como Usar este Prompt

Compartilhe