QNA > Q > Qual È Il Modo Migliore Per Crawlare/Scrappare I Forum Che Hanno Più Threads Che Sono Profondi 100+ Pagine?

Qual è il modo migliore per crawlare/scrappare i forum che hanno più threads che sono profondi 100+ pagine?

Avendo recentemente ottenuto questo risultato al terzo tentativo, lasciatemi offrire qualche input.

Hai bisogno di due tabelle di database. Una per gli URL:s e una per i messaggi effettivi.

Raccogliete tutti gli URL:s dalla pagina web raschiata che portano a discussioni, forum e sottoforum. Memorizzali nella tabella degli URL con un timestamp.

Il tuo scraper dovrebbe selezionare le righe da questa tabella, ordinate per il timestamp in ordine crescente. Da questi URL, raccogli e memorizza tutti i nuovi link che trovi e che portano a discussioni, forum o sottoforum. Memorizza i post nell'altra tabella.

La maggior parte dei forum ha un elenco di nuove pagine o nuove discussioni. Devi raschiare questa pagina ogni minuto e raccogliere gli URL da essa. Se l'URL è già presente nella tua tabella degli url, basta reimpostare il timestamp. In questo modo terrai sotto controllo tutti i nuovi post.

Ti ritroverai con migliaia di url da controllare, quindi potresti voler eseguire diversi scraper contemporaneamente. Seleziona 10000 nuovi url:s e mescola l'array in modo che i tuoi scrapers non facciano lo stesso lavoro sullo stesso url. Seleziona altri 10000 url:s quando ne hai processati 100, altrimenti prima o poi faranno lo stesso url comunque.

Ricordati anche di aggiornare il timestamp dell'url quando hai processato l'url :)

Di Trembly

Articoli simili

Dovrei aggiornare il mio PC o prendere una PS5 con 700 dollari? :: Pensi che dovrei comprare una ps5 o semplicemente usare i soldi per costruire il mio PC?