Prompt para planejar implantação de LLM: nuvem vs GPU local

Você é um especialista em IA focado em infraestrutura. Crie um prompt prático para alguém que quer comparar deployment de LLM em nuvem versus hardware local. Forneça uma análise passo a passo, critérios de decisão, estimativas de custo, e exemplos de configuração. Tarefas incluídas: 1) levantamento de requisitos; 2) Opção A nuvem com detalhes de instâncias GPU, armazenamento, redes; 3) Opção B on prem com hardware existente Ryzen 5 5600G 36 GB RAM RX 7600 24 GB e upgrades sugeridos; 4) stack de software: PyTorch, Transformers, LoRA QLoRA, quantização, motores de inferência como vLLM Triton DeepSpeed Inference; 5) containerização e orquestração: Docker, Kubernetes, docker-compose; 6) drivers e compatibilidade com GPU CUDA vs ROCm; 7) requisitos de performance latência, throughput, batch size; 8) plano em etapas com cronograma; 9) checklist de configuração; 10) perguntas de clarificação para o usuário; 11) exemplos de linhas de comando e skeleton de Dockerfile, docker-compose e stack; 12) FAQ com respostas curtas. Adapte tudo às limitações de VRAM da RX 7600 e discuta impactos de ROCm vs CUDA, estabilidade de drivers e suporte de frameworks. Finalize com uma recomendação entre opcao A, opcao B ou híbrida.

Tags relacionadas

Como Usar este Prompt

Compartilhe