What are some good free web scrapers / scraping techniques?
My 2 cents:
Some more open Source solutions:
1. WebHarvest
- Written in Java
- Leverages XSLT, Xquery and Regex to performs its scraping voodoo
- Check it out at: http://web-harvest.sourceforge.net/overview.php
2. Beautiful Soup
- Written in Python
- Leverages libraries like lxml and html5lib.
- I must mention that their client list includes notables like MovableType and Reddit, so I guess they have their game sorted out.
- Check it out at: http://www.crummy.com/software/BeautifulSoup/
3. Solvent + Piggy Bank
- These are firefox extensions written in Javascript, authored at MIT.
- Piggy Bank is actually a mashup module to aggregate and integrate info from various sites. Solvent è un altro add-on che lavora con Piggy Bank per sviluppare screen scrapers.
- Hanno alcuni bei screencasts per mostrarvi come il loro strumento può raschiare siti come Craigslist e i coffee shop di Starbucks.
- È necessaria una conoscenza di base di Javascript
- Controlla su: http://simile.mit.edu/wiki/Solvent
Software visuale
Se sei sul mercato e cerchi qualcosa di meno impegnativo dal punto di vista tecnico, ecco alcune offerte:
1. IRobotSoft
- Questa è un'applicazione desktop che vi permetterà di configurare i flussi di scraper e i campi di dati che volete catturare.
- Sfrutta qualcosa chiamato HTQL (Hyper-TExt Query Language) per estrarre i suoi dati web.
- Prezzo: Free
- Check out at: www.irobotsoft.com
2. NeedleBase
- A visual tool allowing you to easily create scrapers + gives you cool features like duplicate culling/merging data sets and all.
- Its pretty easy to use but I'm not sure how it performs when things get a wee bit complicated (e.g. with AJAX and all)
- Price: Free for low volume scrapes (login with your Google account)
(I think for higher volumes you need to pay up) - Check out at: www.needlebase.com
Paid Services
In case you change your mind and are willing to toss in some dough, you might want to check out:
1. ScraperWiki (già menzionato nelle risposte precedenti: costa almeno $1000 per il lavoro di scraper e ti dà opzioni di privacy dei dati)
2. Mozenda (SaaS ad alto premio: $99 per 5000 pagine - strumento sofisticato che ti permette di evocare scenari di scraping complessi.
3. ScrapeHero (DaaS molto conveniente: $50 per 10.000 pagine con supporto clienti dal vivo)
Articoli simili
- Qual è la legalità del web scraping?
- Cos'è il "Derek Zoolander Center for Kids Who Can't Read Good and Who Wanna Learn to Do Other Stuff Good Too"?
- What are some good topics for drawing competition?
- Can someone list some sci-fi shows I've seen a lot? It doesn't have to be sci-Fi, just action is good enough.