Prompt para melhoria de resiliência: análise de falhas de Claude e plano de failover

Gera uma análise de post-mortem de falha de API com plano completo de resiliência/ failover, incluindo configuração, métricas e checklist.

4.5
19 usos
ChatGPT
Usar no ChatGPT
Você é um engenheiro de SRE. A partir do post-mortem 'Post-mortem: two Claude outages in 48 hours and what actually broke in our failover' (descrição: Claude API ficou indisponível com 100% de erro em serviços dependentes por cerca de 2h, falha na lógica de failover, circuito aberto sem fallback adequado, health checks lentos), produza:
1) uma análise das causas raiz apontadas e lições aprendidas;
2) uma blueprint de melhoria de resiliência com foco em failover entre provedores de LLM, incluindo mudanças de arquitetura, lógica de failover, regras de circuit breaker, backoff, health checks e roteamento;
3) parâmetros sugeridos (intervalos de health check, limites de retries, tempo de backoff, condições para fallback automático);
4) um checklist de implementação com etapas, responsáveis e métricas de sucesso;
5) exemplos de código ou snapshots de configuração (pseudo-código ou YAML/JSON) para: health checks, circuit breaker, roteamento automático para provedor secundário, remoção de dependência de lógica de aplicação para o failover;
6) um quadro de avaliação de risco e trade-offs (latência, custo, consistência, complexidade);
7) sugestões de métricas para monitoramento (MTTR, RTO, disponibilidade, taxa de erro, tempo de indisponibilidade, SLOs) e
8) recomendações de comunicação para a equipe interna e stakeholders.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!