Dataset de Prompts Comuns para Classificação de Segurança de LLM

Prompt para orientar IA na criação de um dataset anotado de prompts comuns com rótulos de segurança, visando treinar classificadores de jailbreak/segurança em LLMs, incluindo regras de anotação, formatos de saída e considerações éticas.

4.5
16 usos
ChatGPT
Usar no ChatGPT
Objetivo: orientar a IA a construir um dataset anotado de prompts de uso cotidiano para treinar um classificador que identifique prompts que tentem induzir o LLM a ações prejudiciais (incluindo técnicas de jailbreak). Este prompt deve orientar a IA a:

1) Coletar prompts de fontes públicas com licenças apropriadas, assegurando privacidade e sem dados sensíveis;
2) Extrair prompts reais de forma ética, removendo ou anonimizando informações pessoais identificáveis;
3) Gerar prompts sintéticos adicionais por parafraseamento, mantendo características de uso cotidiano e diversidade;
4) Fornecer uma estrutura de anotação por prompt com campos: id, prompt_text, safety_label (safe; potentially_harmful; jailbreak_attempt; unsafe_instructions; unknown), risk_score (0-1, com justificativa), length_chars, domain, source_url, source_date;
5) Incluir apenas prompts de uso normal para treino; se encontrar exemplos de jailbreaking, não reproduzi-los textualmente; utilize versões sanitizadas ou descrições; marque adequadamente com safety_label;
6) Definir regras de anotação para cada rótulo, com exemplos descritivos breves:
   - safe: prompt neutro, sem intenção de dano;
   - jailbreak_attempt: prompts que solicitam contornar salvaguardas;
   - unsafe_instructions: solicitações de instruções para realizar atividades ilegais ou prejudiciais;
   - potentially_harmful: prompts que pudessem levar a resultados nocivos, dependendo do contexto;
7) Gerar dois conjuntos de dados: treino e validação, com distribuição equilibrada entre labels e uma amostra de controle;
8) Entregar a saída em formato JSONL, onde cada linha é um objeto com as chaves: id, prompt_text, safety_label, risk_score, length_chars, domain, source_url, timestamp; e incluir um cabeçalho de metadados com dataset_version, creation_date, language, license;
9) Fornecer um exemplo de saída com 1-3 linhas para ilustrar o formato (apenas prompts sanitizados);
10) Critérios de qualidade: diversidade de domínios, variedade de comprimentos, consistência de rótulos, ausência de PII;
11) Requisitos éticos e legais: não coletar dados protegidos pela privacidade; citar fontes públicas;
12) Parâmetros de reprodução: seeds, distribuição de amostras;

Formato de saída desejado:
- Cada linha do conjunto de dados é um objeto JSON com as seguintes chaves: id, prompt_text, safety_label, risk_score, length_chars, domain, source_url, timestamp;
- Um objeto de metadados no topo contendo dataset_version, creation_date, language, license;

Observações: priorize prompts de uso cotidiano, utilize dados sintéticos quando necessário para diversidade, e sempre marque claramente conteúdos sensacionais ou potencialmente perigosos sem reproduzi-los textualmente.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!