Qual è il modo migliore per crawlare/scrappare i forum che hanno più threads che sono profondi 100+ pagine?
Avendo recentemente ottenuto questo risultato al terzo tentativo, lasciatemi offrire qualche input.
Hai bisogno di due tabelle di database. Una per gli URL:s e una per i messaggi effettivi.
Raccogliete tutti gli URL:s dalla pagina web raschiata che portano a discussioni, forum e sottoforum. Memorizzali nella tabella degli URL con un timestamp.
Il tuo scraper dovrebbe selezionare le righe da questa tabella, ordinate per il timestamp in ordine crescente. Da questi URL, raccogli e memorizza tutti i nuovi link che trovi e che portano a discussioni, forum o sottoforum. Memorizza i post nell'altra tabella.
La maggior parte dei forum ha un elenco di nuove pagine o nuove discussioni. Devi raschiare questa pagina ogni minuto e raccogliere gli URL da essa. Se l'URL è già presente nella tua tabella degli url, basta reimpostare il timestamp. In questo modo terrai sotto controllo tutti i nuovi post.
Ti ritroverai con migliaia di url da controllare, quindi potresti voler eseguire diversi scraper contemporaneamente. Seleziona 10000 nuovi url:s e mescola l'array in modo che i tuoi scrapers non facciano lo stesso lavoro sullo stesso url. Seleziona altri 10000 url:s quando ne hai processati 100, altrimenti prima o poi faranno lo stesso url comunque.
Ricordati anche di aggiornare il timestamp dell'url quando hai processato l'url :)
Articoli simili
- Qual è la differenza tra il passaporto di 36 pagine e quello di 60 pagine in India?
- Qual è il modo migliore per commercializzare i vostri libri e pagine da colorare per adulti?
- Come fare in modo che Google Assistant trasformi le pagine web in audiolibri in oltre 40 lingue
- Perché la versione Kindle di Harry Potter e i Doni della Morte ha solo 316 pagine ma le altre versioni sono più di 700?