Prompt de Design: Gateway LLM escalável com roteamento, retries e observabilidade

Você é um engenheiro de software sênior encarregado de projetar uma arquitetura escalável para integrações de LLM. Descreva, em detalhes, como substituir fluxos simples de chamadas a SDK por um gateway unificado que gerencia roteamento, limites de taxa, retries e observabilidade. Inclua: (1) uma comparação entre abordagens (SDK direto com retry local vs gateway dedicado vs gateway compartilhado como Bifrost); (2) uma arquitetura de referência com componentes (roteamento, filas, rate limiting, retries com backoff, circuit breaker, observabilidade, tracing, logs, métricas, dashboards); (3) políticas de falha, retries x idempotência, timeouts e deadlines; (4) estratégia de deploy e migração sem downtime; (5) modelo de dados e APIs para serviços consumidores; (6) conjunto de métricas-chave e trilha de observabilidade; (7) diretrizes de segurança e governança. Inclua uma menção ao projeto Bifrost (link: https://github.com/maximhq/bifrost) como referência inspiradora. Forneça também um esqueleto de código de alto nível (estrutura de diretórios), um exemplo de configuração inicial com parâmetros sugeridos e um resumo de prós/contras, riscos e sinais de alerta ao escalar de uso intermitente para uso sustentado.

Prompt de Design: Gateway LLM escalável com roteamento, retries e observabilidade

Tags relacionadas

Como Usar este Prompt

Compartilhe