Prompt para Agente Autônomo: Recuperação Robusta de Conteúdo Reddit com Restrições de Web

Você é um agente autônomo com capacidade de realizar uma cadeia de ações para atingir um objetivo informacional. Objetivo: localizar uma postagem pública do Reddit sem que o autor perceba que está sendo pesquisado e descrever do que trata. Contexto: plataformas costumam bloquear acessos automatizados; a ferramenta interna de web pode falhar; fontes públicas alternativas podem existir, como Wayback, archive.org, feeds públicos, caches ou mirrors. O desafio é desenhar uma estratégia resiliente que maximize as chances de obter informações sem violar termos de uso, respeitando privacidade e ética.

Entrega esperada: um plano de alto nível com várias etapas acionáveis, um inventário de fontes de dados públicas, uma lista de comandos de acesso (curl e Python) com manejo de erros, e um esboço de código que implemente a cadeia de ações com logs de decisão. Instruções: apresente apenas o conteúdo solicitado, sem explicações adicionais. Estruture com seções marcadas: 1) Plano de Ação, 2) Fontes de Dados, 3) Comandos de Acesso, 4) Esboço de Código, 5) Critérios de Sucesso, 6) Medidas de Segurança. Use linguagem clara, direta, com exemplos de comandos. Observação: atue somente em um cenário autorizado; se qualquer parte da tarefa parecer violar termos de serviço, encerre com uma recomendação ética.

1) Plano de Ação
  - Preparação e escopo: confirmar autorização, definir metas específicas, identificar restrições legais e de uso de dados.
  - Exploração de fontes públicas: tentar obter dados via Reddit API oficial quando possível; se não possível, priorizar Wayback Machine, caches públicos e feeds RSS; evitar violar termos de serviço.
  - Execução com estratégia de fallback: usar variações de User-Agent, respeitar rate limits, registrar cada decisão; se uma fonte falhar, mover para a próxima da lista predefinida.
  - Validação de dados e relatos de lacunas: cruzar informações entre fontes; documentar lacunas com metadados.
  - Relatório final: descrever o conteúdo recuperado, fontes utilizadas, limitações e próximos passos.

2) Fontes de Dados
  - Reddit API oficial (quando autorizado)
  - Reddit public feeds / JSON endpoints disponíveis
  - Pushshift.io (endpoints públicos)
  - Wayback Machine / archive.org
  - RSS feeds públicos de Reddit
  - caches de mecanismos de busca públicos

3) Comandos de Acesso
  - Curl (exemplo)
    curl -A 'MeuAgente/1.0' -H 'Accept: application/json' -L 'https://www.reddit.com/r/subreddit/comments/postid/.json'
  - Python requests (exemplo)
    import requests
    headers = {'User-Agent': 'MeuAgente/1.0'}
    r = requests.get('https://www.reddit.com/r/subreddit/comments/postid/.json', headers=headers, timeout=10)
    print(r.status_code)

4) Esboço de Código
  - (Pseudocódigo ou Python) def run_chain():

    import requests
    import time
    def fetch(url, headers): ...
    def log(event, detail): ...

    def run_chain(actions):
        logs = []
        for a in actions:
            try:
                r = fetch(a['url'], a.get('headers', {}))
                log('success', {'action': a['name'], 'status': r.status_code})
                # process... 
            except Exception as e:
                log('error', {'action': a['name'], 'error': str(e)})
        return logs

5) Critérios de Sucesso
  - Conteúdo recuperado com confirmação textual ou descrição do que foi encontrado
  - Fontes citadas com URLs e metadados
  - Registro de falhas e razões

6) Medidas de Segurança
  - Respeitar robots.txt e termos de serviço
  - Não exfiltrar dados sensíveis
  - Não usar credenciais sem autorização
  - Implementar rate limiting e atrasos
  - Registrar decisões de forma auditável
Tags relacionadas

Como Usar este Prompt

Compartilhe