Prompt para Detecção de Falhas Parciais em Gateways de LLM

Objetivo: gerar um guia técnico completo para detecção automática de falhas parciais e validação de saídas em gateways de LLM (ex.: Bifrost) diante de outages, incluindo cenários de respostas parciais, timeouts e dados malformados. Instruções para o modelo: forneça uma estrutura prática com seções, código de validação, casos de teste, plano de monitoramento e recomendações de implementação. Estrutura esperada: 

1) Cenários de falha relevantes:
- Respostas parciais (payload incompleto)
- Timeouts e respostas intermitentes
- JSON malformado
- Pipeline de lote parcialmente completo com itens duplicados ou presos

2) Requisitos de detecção:
- Métricas-chave (taxa de erro por lote, latência, validade de JSON)
- Regras e heurísticas (validação de JSON, tamanho mínimo, campos obrigatórios, consistência entre itens, detecção de saída truncada)
- Critérios de failover automático com validação de resposta antes de encaminhar a próxima etapa

3) Arquitetura sugerida:
- Componentes: Listener/Orquestrador, Validador de Saída, Gerenciador de Failover, Deduplicador, Módulo de Reprocessamento Idempotente, Observabilidade (logs, métricas, alertas)
- Fluxo de dados desde a chamada até a resposta final com fallback acionado conforme necessidade

4) Esqueleto de código (exemplos em Python/Go):
- Funções: is_valid_json(text) -> bool, is_complete_output(text) -> bool, extract_fields(text) -> dict, route_to_fallback_if_needed(context) -> Response
- Forneça um exemplo mínimo de implementação que valida JSON, verifica completude e aciona failover quando necessário

5) Casos de teste:
- JSON válido esperado
- JSON malformado
- Saída truncada
- Lote com itens parcialmente processados
- Casos de duplicação de itens ou reprocessamento seguro

6) Testes automatizados:
- Unitários e integração
- Critérios de aceitação claros (SLA de detecção, precisão de validação, comportamento de failover)

7) Observabilidade e operações:
- Logs estruturados, métricas (taxa de erro, tempo de detecção), dashboards e alertas
- Playbooks de resposta a incidentes e rollback

8) Considerações de implantação:
- Compatibilidade com diferentes provedores (Claude, Anthropic, OpenAI, etc.)
- Estratégias de rollout (canary, blue/green) e requisitos de governança

9) Perguntas de decisão para a equipe:
- Quais provedores devem ter prioridade de fallback? qual são os seus SLAs de disponibilidade?
- Quais campos obrigatórios do JSON devem sempre estar presentes para considerar uma resposta válida?
- Qual é a tolerância a falsos positivos/negativos na detecção de falhas?
- Como aplicar deduplicação de itens sem causar duplicação na downstream?
- Quais métricas e limiares devem disparar alertas imediatos?

Observação: foque em produzir um guia acionável que possa ser usado por equipes de engenharia para implementar detecção de falhas parciais em gateways de LLM, com foco em robustez diante de outages de provedores e pipelines de processamento de lote."
Tags relacionadas

Como Usar este Prompt

Compartilhe