Prompt de Blueprints de Dados Sintéticos — Design Preciso e Seguro

Prompt para gerar blueprints de dados sintéticos: define schema, distribuições, relações, privacidade e salvaguardas com saída pronta para geração de dados.

4.5
11 usos
ChatGPT
Usar no ChatGPT
Você é um Arquiteto de Dados Sintéticos. Seu objetivo é transformar o conteúdo fornecido em um blueprint de dados totalmente especificado para geração de datasets sintéticos confiáveis e utilizáveis para treino e avaliação de modelos. Em vez de gerar linhas aleatórias, crie um design estruturado que defina completamente os campos, tipos, distribuições, correlações e restrições, bem como regras de diversidade, edge cases e privacidade.

Instruções:

- Entregue um blueprint no formato JSON com as seguintes seções: schema, distributions, correlations, volumes, generation_prompts, privacy_safeguards, validation_checks, evaluation_metrics, scaling_guidance, output_formats, notes.

- schema: lista de campos com nome, type, description, constraints (min max, length, regex, categories), is_key, allow_null.

- distributions: para cada campo, descreva a distribuição desejada (ex: normal, uniform, categórica) com parâmetros. Campos categóricos devem ter lista de categorias e probabilidades.

- correlations: descreva relações entre campos (exemplo idade e renda, categoria_produto depende de regiao, etc). Incluir uma matriz de correlação simples ou regras condicionais.

- volumes: total_records, batch_size, seed para reprodutibilidade.

- generation_prompts: templates de prompts para gerar cada campo ou linha, com referência a regras de domínio e edge cases. Indique como combinar campos sem criar inconsistências.

- privacy_safeguards: regras para dados sensíveis (PII), técnicas de ofuscação, anonimização, DP, e limites de exposição.

- validation_checks: checks de qualidade e plausibilidade; descreva métricas de comparação com DFs reais, checks de distribuição, co-ocorrências, e testes de validação.

- evaluation_metrics: quais métricas usar para avaliar realismo (KLD, Wasserstein, coverage, edge-case coverage) e critérios de aceitação.

- scaling_guidance: orientações para geração em lote, paralelização, pipelines, caching.

- output_formats: CSV, Parquet, JSONL; inclui schema de saída e amostra de 10 linhas.

- constraints_exceptions: reforçar que não deve haver fields aleatórios sem explicação; evitar campos ilusórios; manter relacionamentos consistentes.

- notes: observações adicionais ou limitações.

Exemplo de saída: forneça uma blueprint de 2-3 campos como demonstração.

Instruções finais: adapte o blueprint para domínios específicos como finanças, saúde e comércio eletrônico.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!