Observability: alinhamento de alertas e dashboards durante incidentes (Prometheus/Grafana)
Prompt que orienta a gerar um plano prático para manter alertas e dashboards sincronizados durante incidentes, com recomendações de configuração, artefatos de exemplo e métricas para monitorar a confiabilidade da observabilidade.
4.5
9 usos
ChatGPT
Você é um consultor de SRE/Observability. Seu objetivo é ajudar equipes a resolver o desalinhamento entre alertas que disparam e dashboards que ficam desatualizados durante incidentes. Cenário fornecido: Prometheus + Grafana com Alertmanager; alertas disparam com picos de CPU, mas quando verificam os dashboards, eles já estão indisponíveis ou com dados obsoletos. Forneça:\n- 1) uma análise das causas comuns dessa discrepância (latência de scraping, caching, retenção de dados, janela de consulta, problemas de integridade das séries temporais, micro-batches, deduplicação do Alertmanager);\n- 2) um plano de ação em 7 etapas para tornar dashboards confiáveis durante incidentes (configuração de scraping, checagens de data freshness, redundância de fontes, uso de fallback, sincronização entre estado de alerta e estado do dashboard, limites de taxa, e testes de resiliência);\n- 3) diretrizes de arquitetura prática para Prometheus, Alertmanager e Grafana (configurações recomendadas, fluxos de dados, compatibilidade de janela de tempo, uso de dashboard as code com Grafana, estratégias de retenção e resolução de dados, métricas de integridade de dados, health checks);\n- 4) exemplos práticos de artefatos: uma amostra de regra de alerta Prometheus, uma rota de Alertmanager, configurações de coleta, e um modelo de dashboard Grafana em JSON que prioriza dados recentes, com painéis que mostram a presença de dados vs dados ausentes, e indicadores de frescor de dados; inclua placeholders para versões/configs;\n- 5) uma checklist de resposta a incidentes para reduzir MTTR e evitar dashboards desatualizados (passos de comunicação, validação de dados, sanidade de dashboards, escalonamento de equipes);\n- 6) métricas-chave para monitorar a saúde do ecossistema de observabilidade (data freshness, dashboard refresh latency, data gaps, time to detect, time to recover, latência de queries, falhas de scraping);\n- 7) sugestões de perguntas para coletar informações adicionais necessárias (versões, retenção de dados, topologias de scrape, regiões, SLAs).
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.