QNA > V > Vorrei Raschiare I Dati Dei Prezzi Correnti Delle Azioni In Un Foglio Di Google Su Un Mac. Qual È Il Modo Più Semplice Per Farlo?

Vorrei raschiare i dati dei prezzi correnti delle azioni in un foglio di Google su un Mac. Qual è il modo più semplice per farlo?

Dipende dall'html della pagina che vuoi raschiare.

Alcuni sono marcati, quindi è facile ottenere ciò di cui hai bisogno con facili istruzioni di localizzazione, sottostringa o 'explode' per ottenere i token che vuoi dall'html. Se i dati sono presentati in una tabella, per esempio, è facile ottenere ogni riga tagliando fuori tutto ciò che precede e segue la tabella, poi esplodendo su '

' per ottenere i dati.

Non l'ho mai fatto in un ambiente desktop, l'ho sempre fatto su un server dove le pagine da raschiare possono essere ottenute facilmente con un'istruzione come 'fopen' usata su una pagina web. Se la roba da raschiare è dietro una password, a volte è facile scrivere una finestra di dialogo che farà accedere e navigare alla pagina.

Altre volte, la pagina è stata prodotta per sembrare buona all'occhio, ma sfidare il parsing. Oppure, ci sarà del JavaScript per rendere più difficile il log in.

Ho avuto studenti che hanno fatto lo scraping da siti con log in entrando nel sito sul loro computer, arrivando alla pagina da scrapare, usando Ctrl-u o altrimenti View Source o usando il debugger per vedere le cose tirate dentro con AJAX, poi manualmente copiare/incollare il sorgente in un file ed analizzarlo con Python o Visual Studio.

C'è sempre un modo per automatizzare queste cose, ma può essere molto impegnativo capirlo se il sito è stato scritto per sfidare lo scraping...

Di Marabel Behunin

Perché il Google Play Store occupa così tanto spazio? È sicuro cancellare i suoi dati? :: Cosa significa cutoff price in una domanda IPO?
Link utili