QNA > W > What Are Some Good Free Web Scrapers / Scraping Techniques?

What are some good free web scrapers / scraping techniques?

My 2 cents:

Some more open Source solutions:

1. WebHarvest

  • Written in Java
  • Leverages XSLT, Xquery and Regex to performs its scraping voodoo
  • Check it out at: http://web-harvest.sourceforge.net/overview.php


2. Beautiful Soup

  • Written in Python
  • Leverages libraries like lxml and html5lib.
  • I must mention that their client list includes notables like MovableType and Reddit, so I guess they have their game sorted out.
  • Check it out at: http://www.crummy.com/software/BeautifulSoup/

3. Solvent + Piggy Bank

  • These are firefox extensions written in Javascript, authored at MIT.
  • Piggy Bank is actually a mashup module to aggregate and integrate info from various sites. Solvent è un altro add-on che lavora con Piggy Bank per sviluppare screen scrapers.
  • Hanno alcuni bei screencasts per mostrarvi come il loro strumento può raschiare siti come Craigslist e i coffee shop di Starbucks.
  • È necessaria una conoscenza di base di Javascript
  • Controlla su: http://simile.mit.edu/wiki/Solvent

Software visuale

Se sei sul mercato e cerchi qualcosa di meno impegnativo dal punto di vista tecnico, ecco alcune offerte:

1. IRobotSoft

  • Questa è un'applicazione desktop che vi permetterà di configurare i flussi di scraper e i campi di dati che volete catturare.
  • Sfrutta qualcosa chiamato HTQL (Hyper-TExt Query Language) per estrarre i suoi dati web.
  • Prezzo: Free
  • Check out at: www.irobotsoft.com


2. NeedleBase

  • A visual tool allowing you to easily create scrapers + gives you cool features like duplicate culling/merging data sets and all.
  • Its pretty easy to use but I'm not sure how it performs when things get a wee bit complicated (e.g. with AJAX and all)
  • Price: Free for low volume scrapes (login with your Google account)
    (I think for higher volumes you need to pay up)
  • Check out at: www.needlebase.com


Paid Services

In case you change your mind and are willing to toss in some dough, you might want to check out:

1. ScraperWiki (già menzionato nelle risposte precedenti: costa almeno $1000 per il lavoro di scraper e ti dà opzioni di privacy dei dati)

2. Mozenda (SaaS ad alto premio: $99 per 5000 pagine - strumento sofisticato che ti permette di evocare scenari di scraping complessi.

3. ScrapeHero (DaaS molto conveniente: $50 per 10.000 pagine con supporto clienti dal vivo)

Di Cibis

Come creare in massa account LinkedIn senza verifica telefonica :: Come fanno le persone a fare soldi pubblicando applicazioni gratuite senza pubblicità su Google Play?
Link utili