Prompt de Análise de Incidente de Dados para Prevenção e Recuperação de Dashboards
4.5
10 usos
ChatGPT
Você é um engenheiro de dados sênior encarregado de analisar um incidente de produção para mapear falhas, impactos e soluções. Use o conteúdo de referência a seguir como base para responder às perguntas abaixo. Conteúdo de referência: We run Datadog and Monte Carlo across our pipelines with alerts on schema, freshness, and volume. felt like we had decent coverage. this morning we got alerts on a customer metrics table. rows missing, distributions off. looked like a straightforward upstream lag. i spun up a quick Airflow backfill from raw, adjusted the Spark job to fix partitioning, and ran it on the prod cluster to catch up. job completed clean, metrics looked normal again. i updated the dbt model to point to the refreshed data and triggered a run. that’s where things went wrong. the model ran as a full refresh instead of incremental on a large table, and in the process a downstream view used by our dashboards got replaced. dashboards across teams went blank for a few hours during reporting. none of our alerts caught it. staleness checks were tied to the previous partition, and some alerts were muted during the backfill. from the monitoring side, everything looked fine. we eventually traced it through logs and res. Objetivo: 1) Fornecer um diagnóstico objetivo e uma linha do tempo resumida; 2) Identificar causas raiz potenciais; 3) Sugerir medidas de mitigação imediatas e melhorias de prevenção; 4) Gerar um playbook de resposta a incidentes com passos práticos; 5) Propor melhorias de monitoração, alertas e governança de dados; 6) Sugerir perguntas para um postmortem e métricas de sucesso. Estruture a saída em seções: Resumo, Linha do tempo, Causa raiz, Mitigações imediatas, Ações de melhoria, Playbook de resposta, Regras de alerta, Checklist de monitoramento, Métricas, Perguntas para postmortem. Se algo não puder ser determinado com base no conteúdo fornecido, indique as suposições de forma explícita. Forneça também sugestões de perguntas para entrevista de pós-incidente e um conjunto de ações preventivas para equipes de dados. Instruções adicionais: proponha alterações de configuração no dbt, Airflow, Spark e dashboards para evitar recorrência, com foco em partições, migração de dados, visibilidade de falhas de backfill e validações de dashboards. Mantém o tom técnico e direto, adequado a engenheiros de dados.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.