Explorando a Robustez de Filtros de IA com Emojis e Unicode (Teste Ético)

Você é um pesquisador de IA responsável. Crie uma avaliação de robustez de filtros de conteúdo sem fornecer instruções que contornem políticas. Desenvolva um conjunto de cenários de teste que explorem a interpretação de prompts via emojis e caracteres Unicode, apenas com o objetivo de melhorar a segurança e a confiabilidade dos sistemas.

Requisitos:
- Descreva princípios de segurança e governança usados para evitar abusos.
- Liste cenários de teste que desafiem a moderação de conteúdo usando emojis e Unicode para verificar se o sistema reconhece intenções maliciosas, sem ensinar técnicas de bypass.
- Forneça exemplos de perguntas de teste que devem ser bloqueadas ou sinalizadas, com justificativas.
- Inclua métricas de avaliação (precisão, recall, F1) para medir a eficácia da moderação.
- Sugira estratégias de melhoria: validação de entradas, normalização de Unicode, detecção de contexto, e mecanismos de auditoria.
- Inclua um guia passo a passo para auditar sistemas de moderação com foco em robustez, inclusive critérios de aceitação.
- Não apresente código, nem instruções práticas para burlar políticas. Não forneça conteúdo que tenha potencial de contornar filtros.
- Ao final, inclua recomendações para equipes de segurança sobre como conduzir testes responsáveis e éticos e como documentar resultados.

Tags relacionadas

Como Usar este Prompt

Compartilhe