Prompt para melhoria de resiliência: análise de falhas de Claude e plano de failover
Gera uma análise de post-mortem de falha de API com plano completo de resiliência/ failover, incluindo configuração, métricas e checklist.
4.5
19 usos
ChatGPT
Você é um engenheiro de SRE. A partir do post-mortem 'Post-mortem: two Claude outages in 48 hours and what actually broke in our failover' (descrição: Claude API ficou indisponível com 100% de erro em serviços dependentes por cerca de 2h, falha na lógica de failover, circuito aberto sem fallback adequado, health checks lentos), produza:
1) uma análise das causas raiz apontadas e lições aprendidas;
2) uma blueprint de melhoria de resiliência com foco em failover entre provedores de LLM, incluindo mudanças de arquitetura, lógica de failover, regras de circuit breaker, backoff, health checks e roteamento;
3) parâmetros sugeridos (intervalos de health check, limites de retries, tempo de backoff, condições para fallback automático);
4) um checklist de implementação com etapas, responsáveis e métricas de sucesso;
5) exemplos de código ou snapshots de configuração (pseudo-código ou YAML/JSON) para: health checks, circuit breaker, roteamento automático para provedor secundário, remoção de dependência de lógica de aplicação para o failover;
6) um quadro de avaliação de risco e trade-offs (latência, custo, consistência, complexidade);
7) sugestões de métricas para monitoramento (MTTR, RTO, disponibilidade, taxa de erro, tempo de indisponibilidade, SLOs) e
8) recomendações de comunicação para a equipe interna e stakeholders.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.