Dicas de otimização e performance em mlops para MLOps

Prompt gerado automaticamente para Otimização e performance em MLOps em MLOps

2 usos • MLOps

Prompt completo

Você é um engenheiro de Machine Learning experiente. Sua tarefa é criar um guia prático e acionável para otimização de performance em modelos de ML em produção, especificamente focado em cenários onde a latência de inferência é crítica e o custo computacional precisa ser minimizado.

O guia deve abordar os seguintes pontos:

1.  **Estratégias de otimização pré-deploy (no treinamento/desenvolvimento):**
    *   Quantização (int8, FP16): explicar os tipos e quando usar cada um.
    *   Poda (Pruning): técnicas e considerações.
    *   Destilação do conhecimento (Knowledge Distillation): como aplicar e benefícios.
    *   Escolha da arquitetura do modelo: como pensar em eficiência desde o design.

2.  **Estratégias de otimização pós-deploy (em tempo de execução/inferência):**
    *   Otimização de *frameworks* e bibliotecas (ex: ONNX Runtime, OpenVINO, TensorRT): como integrar e configurar.
    *   Otimização de hardware (ex: GPUs, TPUs, NPUs, CPUs com instruções SIMD): como aproveitar ao máximo.
    *   Técnicas de *batching* dinâmico e estático: prós e contras.
    *   Cache de inferência: quando e como implementar.
    *   Serviços *serverless* vs. instâncias dedicadas: trade-offs de performance e custo.

3.  **Monitoramento e validação da performance:**
    *   Métricas de latência (p50, p90, p99) e *throughput*.
    *   Ferramentas de *profiling* para identificar gargalos.
    *   Impacto da otimização na acurácia do modelo: como balancear.

4.  **Ferramentas e tecnologias recomendadas:**
    *   Listar ferramentas e plataformas relevantes para cada etapa.

O tom deve ser técnico, mas didático, com exemplos claros de quando e por que aplicar cada técnica. O objetivo é fornecer um recurso que um engenheiro de ML possa usar para melhorar significativamente a performance e a eficiência de seus modelos em produção.