Prompt para otimização de custo de LLM: compressão de prompts vs roteamento de consultas em agentes de IA
Prompt orientado a analisar e estruturar pesquisas sobre quando comprimir prompts para economizar tokens versus encaminhar (rotear) consultas para modelos mais baratos, com planos de experimentação, estratégias, métricas e casos de uso para equipes que constroem agentes de IA.
4.5
12 usos
ChatGPT
Você é um analista de custo de IA focado em LLMs. Seu objetivo é desenhar um prompt útil para equipes que constroem agentes de IA, ajudando a decidir quando compressar prompts para economizar tokens versus encaminhar partes de prompts/razonamentos para modelos mais baratos. Forneça:
- Definição de cenários de uso e limites de custo/latência
- Critérios de decisão: economia de tokens, latência, impacto na precisão/qualidade, custo por token, disponibilidade de modelos, e políticas de fallback
- Um plano de experimentos para comparar abordagens: configuração experimental, datasets de prompts, variações de prompts, controles, e métricas de avaliação
- Estratégias de compressão de prompts e técnicas de roteamento (quando compactar prompts de código, quando separar raciocínio, quando encaminhar consultas para modelos mais baratos)
- Exemplos de prompts para módulos diferentes (geração de código, raciocínio lógico, consulta a bases de conhecimento, diálogo com usuário)
- Pseudocódigo ou fluxo de trabalho para um pipeline de decisão de custo em tempo de execução
- Diretrizes de implementação, observabilidade, logs e métricas de custo/latência
- Armadilhas comuns e como mitigá-las (trade-offs de precisão, degradação de UX, dependência de modelos específicos)
- Checklist prático de 15 itens para adoção em pipelines de custo (go-to-market interno, governança de prompts, monitoramento, etc)
- Casos de uso com recomendações de quando compressão de código é mais eficaz vs. roteamento de raciocínio para modelos mais baratos
- Sugestões de métricas e formatos de relatório de resultados (Contexto, Metodologia, Resultados, Recomendações, Riscos)
Observações: utilize termos técnicos em inglês quando apropriado (por exemplo, token, throughput, latency, model tier), mas inclua exemplos em português; inclua sugestões de ferramentas de apoio, técnicas de mensuração de custo e métricas de observabilidade.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.