Estratégias de web scraping e automação em Python

Prompt gerado automaticamente para Web scraping e automação em Python

4 usos • Python

Prompt completo

"Você é um especialista em Python. Crie um script Python completo e robusto para raspar dados de um site de notícias (invente um URL base como 'https://www.noticiasficticias.com.br/'). O script deve ser capaz de:

1.  **Navegar** por várias páginas de notícias (simule a paginação com um parâmetro de URL, por exemplo, 'page=1', 'page=2', etc., até um limite razoável de 5 páginas).
2.  Para cada notícia encontrada (identifique os links das notícias na página principal):
    *   **Clicar** no link para acessar a página individual da notícia.
    *   **Extrair** o título da notícia, a data de publicação (se presente e identificável), o autor (se presente e identificável) e o corpo completo do texto da notícia.
3.  **Lidar com erros** comuns de web scraping (e.g., conexão, estrutura HTML ausente/inesperada) de forma elegante, usando `try-except` blocks.
4.  **Armazenar** os dados extraídos em um arquivo CSV, com colunas para Título, Data, Autor, Corpo da Notícia e URL Original.
5.  **Utilizar** as bibliotecas `requests` para fazer as requisições HTTP e `BeautifulSoup` para a análise do HTML.
6.  **Incluir** comentários explicativos no código para cada seção importante.
7.  **Adicionar** um `User-Agent` customizado no cabeçalho da requisição para simular um navegador.
8.  **Implementar** um pequeno atraso (`time.sleep`) entre as requisições para evitar ser bloqueado.

O script deve ser um exemplo prático de como automatizar a coleta de informações de um site de forma responsável e eficiente."