Grok Fast? Diagnóstico e melhoria de latência de inferência
Prompt para diagnosticar latência de think time e propor melhorias no modo de inferência fast de um modelo de IA, com métricas, cenários de teste e plano de implementação.
4.5
14 usos
ChatGPT
PROMPT PARA AVALIAR O MODO FAST DO MODELO GROK
Objetivo: entender por que o modo fast, supostamente rápido, ainda apresenta várias dezenas de segundos de think time e sugerir melhorias que tornem o modo efetivamente rápido sem sacrificar muito a qualidade das respostas.
Instruções:
- Informe métricas-chave: latência média de pensamento em ms, latência total em ms, percentis P50, P90, P99, throughput em req/s, variação (CV), consumo de CPU/VRAM, qualidade da saída (score de similaridade com referência).
- Crie um conjunto de cenários de teste com prompts simples, médios e complexos, sob cargas baixa, média e alta.
- Para cada cenário, compare dois regimes: modo atual e modo proposto de melhoria.
Resultados esperados:
- Um relatório com diagnóstico das causas prováveis da latência; 5 mudanças práticas propostas (exemplos: streaming de respostas, cache de resultados, divisão de tarefas, redução de overhead, ajuste de parâmetros);
- um plano de implementação com etapas, estimativas de custo e riscos;
- um script de teste (pseudo código) para medir as latências e coletar métricas;
- critérios de aceitação.
Propriedades de saída:
- Formato recomendado: JSON com campos latencia_median_ms, latencia_total_ms, think_time_ms, p50, p90, p99, throughput, accuracy_impact, resource_usage, recommendations.
Instruções de uso:
- Use prompts de teste simulados ou forneça prompts de exemplo.
- Inclua limitações e suposições.
Observação: mantenha o texto objetivo e claro, com foco em resultados mensuráveis.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.