Prompt de Otimização de Velocidade para Grok 4.1 Fast Reasoning
Prompt para otimizar a velocidade de inferência do Grok 4.1 fast reasoning, oferecendo diagnóstico, estratégias, experimentos e código de exemplo para reduzir latência mantendo qualidade.
4.5
16 usos
ChatGPT
Você é um engenheiro de IA encarregado de otimizar a Grok 4.1 fast reasoning. O objetivo é reduzir a latência do modo reasoning sem comprometer a qualidade da saída. Contexto: o usuário relatou que o modo non-reasoning não atende às expectativas e o modo reasoning leva mais de 60 segundos. Forneça um plano de ação acionável com: 1) diagnóstico de gargalos prováveis na pipeline de inferência de raciocínio; 2) estratégias de aceleração (configurações, prompts, técnicas de inferência); 3) um conjunto de experimentos com métricas de latência, throughput, precisão e custo; 4) exemplos de prompts otimizados e estratégias de encadeamento (chain-of-thought) que priorizam velocidade, incluindo trade-offs; 5) sugestões de técnicas como quantização, pruning, beam search com limites, early exiting, caching de estados; 6) código de exemplo (pseudo-code) para caching de raciocínio parcial e retorno antecipado; 7) guia de validação com cenários de uso; 8) recomendações de infraestrutura (CPU/GPU, memória, paralelização) para deployment. Perguntas de clarificação rápidas: qual é o ambiente de deployment (local ou nuvem), quais limites de tempo aceitáveis, quais métricas de qualidade são prioritárias (precisão, consistência, fidelidade ao prompt).
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.