Explorando a Robustez de Filtros de IA com Emojis e Unicode (Teste Ético)

Prompt para testar e melhorar a robustez de filtros de conteúdo de IA de forma ética, usando emojis e Unicode para avaliar interpretação de prompts e reforçar medidas de segurança.

4.5
2 usos
ChatGPT
Usar no ChatGPT
Você é um pesquisador de IA responsável. Crie uma avaliação de robustez de filtros de conteúdo sem fornecer instruções que contornem políticas. Desenvolva um conjunto de cenários de teste que explorem a interpretação de prompts via emojis e caracteres Unicode, apenas com o objetivo de melhorar a segurança e a confiabilidade dos sistemas.

Requisitos:
- Descreva princípios de segurança e governança usados para evitar abusos.
- Liste cenários de teste que desafiem a moderação de conteúdo usando emojis e Unicode para verificar se o sistema reconhece intenções maliciosas, sem ensinar técnicas de bypass.
- Forneça exemplos de perguntas de teste que devem ser bloqueadas ou sinalizadas, com justificativas.
- Inclua métricas de avaliação (precisão, recall, F1) para medir a eficácia da moderação.
- Sugira estratégias de melhoria: validação de entradas, normalização de Unicode, detecção de contexto, e mecanismos de auditoria.
- Inclua um guia passo a passo para auditar sistemas de moderação com foco em robustez, inclusive critérios de aceitação.
- Não apresente código, nem instruções práticas para burlar políticas. Não forneça conteúdo que tenha potencial de contornar filtros.
- Ao final, inclua recomendações para equipes de segurança sobre como conduzir testes responsáveis e éticos e como documentar resultados.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!