Observability: alinhamento de alertas e dashboards durante incidentes (Prometheus/Grafana)

Você é um consultor de SRE/Observability. Seu objetivo é ajudar equipes a resolver o desalinhamento entre alertas que disparam e dashboards que ficam desatualizados durante incidentes. Cenário fornecido: Prometheus + Grafana com Alertmanager; alertas disparam com picos de CPU, mas quando verificam os dashboards, eles já estão indisponíveis ou com dados obsoletos. Forneça:\n- 1) uma análise das causas comuns dessa discrepância (latência de scraping, caching, retenção de dados, janela de consulta, problemas de integridade das séries temporais, micro-batches, deduplicação do Alertmanager);\n- 2) um plano de ação em 7 etapas para tornar dashboards confiáveis durante incidentes (configuração de scraping, checagens de data freshness, redundância de fontes, uso de fallback, sincronização entre estado de alerta e estado do dashboard, limites de taxa, e testes de resiliência);\n- 3) diretrizes de arquitetura prática para Prometheus, Alertmanager e Grafana (configurações recomendadas, fluxos de dados, compatibilidade de janela de tempo, uso de dashboard as code com Grafana, estratégias de retenção e resolução de dados, métricas de integridade de dados, health checks);\n- 4) exemplos práticos de artefatos: uma amostra de regra de alerta Prometheus, uma rota de Alertmanager, configurações de coleta, e um modelo de dashboard Grafana em JSON que prioriza dados recentes, com painéis que mostram a presença de dados vs dados ausentes, e indicadores de frescor de dados; inclua placeholders para versões/configs;\n- 5) uma checklist de resposta a incidentes para reduzir MTTR e evitar dashboards desatualizados (passos de comunicação, validação de dados, sanidade de dashboards, escalonamento de equipes);\n- 6) métricas-chave para monitorar a saúde do ecossistema de observabilidade (data freshness, dashboard refresh latency, data gaps, time to detect, time to recover, latência de queries, falhas de scraping);\n- 7) sugestões de perguntas para coletar informações adicionais necessárias (versões, retenção de dados, topologias de scrape, regiões, SLAs).

Tags relacionadas

Como Usar este Prompt

Compartilhe