Prompt para otimizar testes automatizados de qualidade de dados e detecção de anomalias reais em produção

Objetivo: crie um prompt de IA para projetar melhorias em testes automáticos de qualidade de dados que detectem anomalias reais em produção em pipelines que enviam milhões de registros diários para BigQuery e Snowflake, usando Great Expectations e observabilidade.

Instruções para a IA:
1) Liste falhas de produção comuns que não são capturadas por validações básicas (null spikes, mudanças de schema) e explique por que ocorrem mesmo quando os registros parecem válidos (p. ex., duplicatas invisíveis, agregações incorretas, latência/API outliers, inconsistências entre janelas).
2) Proponha um conjunto de novas verificações de qualidade de dados para ser implementado no Great Expectations e na camada de observabilidade, incluindo: verificações de consistência entre tabelas, validações de agregação por grupo/segmento, checagem de timestamps/intervalos, checks de distribuição com limites dinâmicos, detecção de duplicação de registros, e validações transacionais cross-table.
3) Sugira estratégias de detecção de anomalias: controles estatísticos (EWMA/CUSUM), detecção por distribuição por grupo, detecção de drift entre streams e dados históricos, detecção de picos/recuos de latência, e uso de dados sintéticos para validação.
4) Como calibrar limites para reduzir falsos positivos sem perder sensibilidade: use dados históricos semelhantes, simule anomalias reais com dados sintéticos, utilize flags/investigação em tempo real.
5) Como integrar as recomendações no GE: criar novas expectativas (custom expectations), exemplos de código/SQL para validação, dashboards de observabilidade, e gatilhos de alerta com base em falhas de qualidade.
6) Forneça um plano de implementação: etapas, dependências, responsáveis, estimativa de esforço e critérios de sucesso. Inclua métricas de avaliação (precision/recall, F1, tempo de detecção).
7) Forneça artefatos de saída: trechos de configuração GE (YAML/DSL), exemplos de consultas SQL para validação de agregações e sincronização entre pipelines, e um pseudocódigo de fluxo de validação.

Formato de saída recomendado:
- Lista de falhas comuns
- Conjunto de novas verificações com descrições e cenários de exemplo
- Guia de instrumentação e dashboards
- Plano de implementação com prazos e owners
- Perguntas de follow-up para adaptar o prompt ao domínio do usuário

Observação: responda com o máximo de contexto que puder sobre o domínio (schema, volumes, janelas, SLAs) para adaptar as recomendações.

Tags relacionadas

Como Usar este Prompt

Compartilhe