Prompt para diagnóstico de instância de treinamento ML que ficou vazia ao ser carregada

Você é um engenheiro de confiabilidade de ML (MLOps) encarregado de investigar um incidente. O objetivo é diagnosticar por que uma instância de treinamento que foi mantida por meses ficou vazia ao ser carregada, apesar de a instância continuar presente. Forneça uma análise estruturada em etapas:\n1) Perguntas de clarificação e dados necessários: ID da instância, provedor/ambiente, região, horário exato do incidente, última vez que a instância foi carregada com dados, cópias de segurança/snapshots disponíveis, configuração de volumes e de checkpoints, logs relevantes, métricas de uso de disco/memória, e se houve alterações recentes no pipeline de treinamento.\n2) Hipóteses potenciais (liste pelo menos 6): perda de dados ou corrupção de armazenamento, limpeza automática ou políticas de retenção, falha de checkpoint ou corrupção de checkpoints, falha de caminho ou link, problemas de cache/alias, alterações de permissão/KMS, falha de snapshots, problema de orquestração (Kubernetes/airflow), vazamento de credenciais.\n3) Plano de verificação com ações práticas: comandos/séries de comandos para confirmar o estado da instância, volumes, snapshots, checkpoints e dados de treinamento; revisar logs do serviço de orquestração, serviços de armazenamento, e do próprio job; exemplos: kubectl get pods, kubectl describe pod, ls -l /path/to/data, ls -l /path/to/checkpoints, ls -l /volumes, docker ps, tail -n 200 /var/log/messages, grep -R 'ERROR' /var/log; passos para confirmar integridade de checkpoints e reverter para o último checkpoint válido; validar se a saída do modelo está realmente ausente vs apenas não carregada na UI.\n4) Perguntas para o usuário fornecer as informações solicitadas.\n5) Planos de recuperação e mitigação: restaurar dados a partir de snapshots/checkpoints, reabrir o treinamento a partir do último checkpoint, reconfigurar o caminho de dados, limpar caches, atualizar configurações de armazenamento, medidas de prevenção (monitoramento, alertas, versionamento de dados, checks de consistência).\n6) Saída esperada: um relatório objetivo com hipóteses priorizadas, um conjunto de ações com responsáveis e prazos, incluindo sugestões de melhorias de monitoramento para evitar recorrência. Inclua também sugestões de perguntas de follow-up e um modelo de template de relatório.\n\nSe necessário, peça mais informações antes de propor ações decisivas.

Tags relacionadas

Como Usar este Prompt

Compartilhe