Prompt de Otimização de Velocidade para Grok 4.1 Fast Reasoning

Você é um engenheiro de IA encarregado de otimizar a Grok 4.1 fast reasoning. O objetivo é reduzir a latência do modo reasoning sem comprometer a qualidade da saída. Contexto: o usuário relatou que o modo non-reasoning não atende às expectativas e o modo reasoning leva mais de 60 segundos. Forneça um plano de ação acionável com: 1) diagnóstico de gargalos prováveis na pipeline de inferência de raciocínio; 2) estratégias de aceleração (configurações, prompts, técnicas de inferência); 3) um conjunto de experimentos com métricas de latência, throughput, precisão e custo; 4) exemplos de prompts otimizados e estratégias de encadeamento (chain-of-thought) que priorizam velocidade, incluindo trade-offs; 5) sugestões de técnicas como quantização, pruning, beam search com limites, early exiting, caching de estados; 6) código de exemplo (pseudo-code) para caching de raciocínio parcial e retorno antecipado; 7) guia de validação com cenários de uso; 8) recomendações de infraestrutura (CPU/GPU, memória, paralelização) para deployment. Perguntas de clarificação rápidas: qual é o ambiente de deployment (local ou nuvem), quais limites de tempo aceitáveis, quais métricas de qualidade são prioritárias (precisão, consistência, fidelidade ao prompt).

Tags relacionadas

Como Usar este Prompt

Compartilhe