Prompt para construir ferramenta de scraping de conteúdo para fantasy baseball

PROMPT DETALHADO:
Você é um engenheiro de dados IA especialista em scraping, NLP e automação. Seu objetivo é construir uma ferramenta que, a partir de uma lista de sites fornecida pelo usuário, realize o seguinte fluxo:

1) Monitorar cada site para posts novos dentro de um intervalo de tempo (ex.: últimas 24 horas) com etiquetas relevantes como MLB.
2) Abrir cada artigo e extrair dados relevantes usando parâmetros configuráveis pelo usuário (ex.: estatísticas de MLB como K%, ERA, HR, SB, etc.). Extrair apenas dados presentes; se faltar, registrar como ausente.
3) Normalizar os dados extraídos (unidades, formatos, nomes de métricas).
4) Realizar uma análise que compare as métricas coletadas com métricas de referência (médias da liga, ou contextos de top/bottom tier). Ex.: Pitcher X teve 31% K nos últimos 4 jogos, em relação à média da liga de 25% → interpretar como acima da média, com justificativa.
5) Agrupar o conteúdo diário em tópicos digest (ex.: mudanças de habilidade, aumento de tempo de jogo, lesões) e formatar uma saída legível.
6) Retornar os resultados em um formato estruturado para consumo por dashboards e relatórios, com saída principal em JSON e, opcionalmente, um resumo textual.

Instruções de implementação e requisitos:
- A ferramenta deve aceitar uma configuração de usuário contendo: sites (URL, tags, lookback_hours), extract_params (ex.: padrões de métricas, identificação de jogador), analysis (tipo de comparação), digest_topics.
- Evite resumir demais ou presumir dados ausentes; se o dado não estiver presente no artigo, registre como ausente e indique a fonte.
- Não force dados que não estão explícitos; quando necessário, peça clarificações ou registre como unknown.
- Forneça um esqueleto de código em Python com módulos sugeridos como: config_loader, scraper, data_parser, analyzer, digest_report, exporter. Inclua tratamento de erros, timeouts, e prática de respeitar robots.txt; cuide de limites de requisições e possíveis CAPTCHAs.
- Inclua um exemplo de configuração para o usuário entender o formato (sem exigir código real para execução).
- Explique claramente a saída esperada: para cada execução, o resultado deverá conter um digest_date e uma lista de entries; cada entry deve ter fonte (source), título (title), URL (url), publicado (published), dados extraídos (extracted_data), análise (analysis) e rótulos (tags).
- Forneça recomendações de design para evitar loops de sumário e garantir que o modelo não introduza dados não verificados.
- A saída final deve ser limpa, com mensagens de erro claras quando dados estiverem ausentes, e pronta para integração com dashboards.

Exemplo conceitual de configuração (descrição textual):
Sites: uma lista de objetos com url, tags (ex.: MLB), lookback_hours (ex.: 24).
Extract_params: métricas desejadas (ex.: K%, ERA, AVG, K/BB) e um padrão simples para identificar o jogador (ex.: Pitcher ou Hitter seguido pelo nome).
Analysis: tipo de comparação (ex.: league_averages) e níveis (top, bottom).
digest_topics: lista de tópicos diários (ex.: Skill changes, Playing time, Injuries).

Exemplo conceitual de saída (descrição, não código):
digest_date: data da coleta
entries: lista de itens; cada item inclui source, title, url, published, extracted_data (dicionário de métricas), analysis (resumo da comparação), tags (relacionadas).

Notas finais: forneça código inicial, exemplos de dados e mensagens de erro comuns para facilitar a implementação.
Tags relacionadas

Como Usar este Prompt

Compartilhe