Vorrei raschiare i dati dei prezzi correnti delle azioni in un foglio di Google su un Mac. Qual è il modo più semplice per farlo?
Dipende dall'html della pagina che vuoi raschiare.
Alcuni sono marcati, quindi è facile ottenere ciò di cui hai bisogno con facili istruzioni di localizzazione, sottostringa o 'explode' per ottenere i token che vuoi dall'html. Se i dati sono presentati in una tabella, per esempio, è facile ottenere ogni riga tagliando fuori tutto ciò che precede e segue la tabella, poi esplodendo su '
' per ottenere i dati.Non l'ho mai fatto in un ambiente desktop, l'ho sempre fatto su un server dove le pagine da raschiare possono essere ottenute facilmente con un'istruzione come 'fopen' usata su una pagina web. Se la roba da raschiare è dietro una password, a volte è facile scrivere una finestra di dialogo che farà accedere e navigare alla pagina.
Altre volte, la pagina è stata prodotta per sembrare buona all'occhio, ma sfidare il parsing. Oppure, ci sarà del JavaScript per rendere più difficile il log in.
Ho avuto studenti che hanno fatto lo scraping da siti con log in entrando nel sito sul loro computer, arrivando alla pagina da scrapare, usando Ctrl-u o altrimenti View Source o usando il debugger per vedere le cose tirate dentro con AJAX, poi manualmente copiare/incollare il sorgente in un file ed analizzarlo con Python o Visual Studio.
C'è sempre un modo per automatizzare queste cose, ma può essere molto impegnativo capirlo se il sito è stato scritto per sfidare lo scraping...
Articoli simili
- Come collegare un modulo Google a un dato foglio Google in modo che ogni risposta al modulo entri direttamente nelle celle corrispondenti del foglio
- Dove posso ottenere gratuitamente opzioni intraday e dati sui prezzi delle azioni?
- Qual è il modo migliore per raschiare i dati di Facebook?
- Qual è il modo migliore per raschiare i dati da un sito web?