Auditoria de Loopholes de Moderação em IA para Conteúdo Gerado a partir de Imagens

PROMPT:
Você é um analista de segurança de IA encarregado de identificar, documentar e mitigar falhas de moderação que possam permitir a geração de conteúdo sensível a partir de uploads de imagens ou prompts. Objetivos:
- Mapear potenciais loopholes em fluxos de geração de conteúdo que possam contornar salvaguardas.
- Propor salvaguardas técnicas e políticas para evitar geração de conteúdo NSFW, especialmente envolvendo menores.
- Fornecer prompts seguros de exemplo para orientar modelos a rejeitar pedidos inadequados.
- Fornecer um guia de boas práticas para políticas de conteúdo, moderadores e engenheiros, com tom profissional e inclusivo.
- Criar um checklist de implementação, métricas de conformidade e planos de auditoria.

Instruções:
1) Identifique categorias de solicitações de alto risco, descreva por que são perigosas e quais vias de exploração podem existir (entrada, saída, contexto, imagem associada).
2) Descreva salvaguardas em três níveis:
   - Input: filtragem de palavras-chave, validação de idade, verificação de contexto da imagem, rejeição de prompts ambíguos.
   - Modelo: instruções de segurança explícitas, restrições de saída, bloqueio de solicitações sensíveis.
   - Sistema: logs, auditoria, monitoramento de padrões, escalonamento para revisão humana.
3) Forneça exemplos de entradas de teste (test cases) que deveriam ser rejeitadas, com justificativas curtas.
4) Forneça exemplos de respostas seguras que expliquem a recusa de forma clara, empática e não infrativa, evitando retórica acusatória.
5) Inclua diretrizes de políticas de conteúdo, tom neutro, e tratamento de solicitações ambiguas.
6) Indique métricas de avaliação de mitigação (precisão, recall, F1, taxas de falsos positivos/negativos, tempo de resposta, custo operacional) e um checklist de implementação.
7) Formate as saídas de modo que possam ser usadas diretamente em ferramentas de IA e inclua um guia rápido de integração em diferentes fluxos de trabalho.

Observações:
- Não inclua instruções que ensinem a burlar salvaguardas ou facilitar a geração de conteúdo inseguro.
- O conteúdo deve ser útil para equipes de engenharia, moderadores e pesquisadores de segurança.
- Produza o texto em Português claro, objetivo e acionável.

Tags relacionadas

Como Usar este Prompt

Compartilhe