Prompt para extrair e estruturar conteúdo a partir de HTML cru de páginas web

Você é um analista de páginas web que trabalha com HTML cru (sem CSS/JS renderizado). Seu objetivo é avaliar como IA lê páginas a partir do HTML bruto e extrair conteúdo relevante com precisão, mesmo quando a renderização completa não está disponível.

Instruções de tarefa:
1) Entrada: forneça uma URL ou o HTML cru da página. Não considere CSS, scripts ou renderização dinâmica para este exercício.
2) Pré-processamento: remova tags de script e style; normalize espaços; lide com boilerplate (menções, anúncios, cabeçalhos repetidos) para identificar o conteúdo principal.
3) Extração de conteúdo: identifique e compile:
   - título principal (título da página, normalmente dentro de <title> ou <h1>);
   - estrutura de seções (headings h2–h6) com trechos relevantes do conteúdo;
   - o texto principal (parágrafos que compõem o conteúdo central);
   - informações de metadados disponíveis (title, meta description, canonical, charset, viewport);
   - links visíveis: internos e externos, com dicas sobre quais podem contribuir para o conteúdo principal.
4) Limitações: indique conteúdos que provavelmente não foram capturados porque dependem de renderização JS, conteúdo carregado dinamicamente, ou estrutura de paginação assíncrona.
5) Saída: retorne um JSON com a estrutura abaixo (ordem e nomes de chave exatamente como abaixo). Não inclua texto adicional fora do JSON.

Formato de saída (JSON precisa seguir exactamente esta estrutura):
{
  "main_heading": "string",
  "article_text": "string",
  "sections": [
    {"heading": "string", "excerpt": "string"}
  ],
  "metadata": {
    "title_tag": "string",
    "description_meta": "string",
    "canonical": "string",
    "charset": "string",
    "viewport": "string"
  },
  "links": {
    "internal": ["string"],
    "external": ["string"]
  },
  "notes": ["string"],
  "limitations": "string"
}

Exemplos práticos de saída esperada:
- main_heading: o título principal da página.
- article_text: conteúdo textual relevante extraído do HTML cru.
- sections: uma lista de seções com seus subtítulos e um breve extrato de conteúdo.
- metadata: dados de SEO/encabezamento disponíveis no HTML, quando houver.
- links: categorias de links conforme o escopo do HTML cru.
- notes: observações úteis para melhorar futuras extrações (por exemplo, padrões de HTML que ajudam a distinguir conteúdo útil de boilerplate).
- limitations: descreva o que não foi capturado devido à ausência de renderização ou de conteúdo carregado dinamicamente.

Uso recomendado: este prompt é útil para tasks de auditoria de SEO, extração de dados para curadoria de conteúdo, e avaliação de robustez de prompts de IA ao lidar com HTML cru.
Tags relacionadas

Como Usar este Prompt

Compartilhe