Come imparare i big data
Da un punto di vista in cui i "big data" differiscono dai dati "normali" solo negli aspetti di Volume, Velocità e Varietà (le famose 3 V), si possono collocare i big data nel contesto più ampio della scienza dei dati, una disciplina che mira ad estrarre conoscenza o intuizioni dai dati (non) strutturati. Potreste considerare i big data come intrinsecamente connessi o addirittura parte della scienza dei dati, poiché i dati che lavorerete come data scientist o parte di un team di scienza dei dati possono essere big data.
Penso che dovreste quindi vedere anche l'apprendimento dei big data nel contesto più ampio dell'apprendimento della scienza dei dati. Guardate gli otto passi che sono menzionati in questa infografica: Imparare la scienza dei dati - Infografica. Quello che dovresti imparare è quanto segue:
- Devi capire come i big data differiscono dai dati normali,
- Afferra l'approccio distribuito all'immagazzinamento e all'elaborazione dei dati, e
- Comprendi il vantaggio del framework in-memory cluster computing.
La mia spiegazione potrebbe sembrare astratta fino ad ora, ma era necessaria per spiegare i passi che ho fatto quando sono entrato nella data science:
- Step 1. Assicurati di saper programmare in Python o Scala
Per Python, potresti considerare i seguenti corsi: Learn Python for Data Science - Online Course e Introduction to Python for Data Science, dove imparerete il Python necessario per iniziare con la scienza dei dati. Ci sono naturalmente un sacco di altri materiali, ma alla fine, ho menzionato queste risorse perché si dovrebbe mirare ad ottenere l'introduzione più pratica, imparando da fare, a Python che si può ottenere.
Per Scala, ho fatto uso di "Programming in Scala" di Odersky. Questo libro dà un'introduzione completa, con molti esempi per iniziare. Non ho trovato nessun corso di Scala che desse un approccio molto pratico, quindi menzionerò solo il libro qui. Inoltre, se considerate il seguente paragrafo, capirete anche perché un approccio pratico all'apprendimento di Scala è meno rilevante all'inizio.
Cosa scegliere? Pensa a quali linguaggi di programmazione conosci già. Se hai esperienza di programmazione con Java, scegli Scala. Questo dovrebbe essere un gioco da ragazzi perché Spark funziona meglio con Scala e non è troppo difficile da gestire se si è già a quel livello. Se siete agli inizi, scegliete Python, ma considerate di passare a Scala nel lungo periodo.
- Step 2. Fatti introdurre a Spark
Considera di seguire Introduction to Apache Spark e i corsi successivi. Date anche un'occhiata ai tutorial di Apache Spark, alla documentazione, ai corsi e alle risorse tutte in un unico posto | SparkHub e Learn Spark. Quando si sta andando attraverso questi esempi, cercare di ottenere il più hands-on possibile. Questo vi aiuterà nel lungo periodo!
- Step 3. Controlla il framework Hadoop
Avere una panoramica completa del framework Hadoop non è un lusso eccessivo. Usa Hadoop: The Definitive Guide per un'introduzione molto dettagliata. Per imparare davvero come lavorare, per esempio, con lo stack Cloudera, puoi scaricare Cloudera Enterprise Downloads.
- Step 4. Introdurre/Rivedere la gestione dei dati
Un componente che molte persone dimenticano quando lavorano con i Big Data è il fatto che i dati stessi portano problemi specifici di cui di solito non ci si deve preoccupare quando si lavora con semplici file di testo.
Pensate seriamente di leggere cosa significa implementare la qualità dei dati e la gestione dei dati master, e se non avete una base di conoscenze in data warehousing e BI, mettetela ancora prima della qualità dei dati e della gestione dei dati master per iniziare. In seguito, dovreste anche considerare l'architettura dei dati e la sicurezza dei dati.
- Step 5. Fai pratica!
All'inizio, controlla alcuni esempi, come snowplow/spark-example-project e databricks/learning-spark.
In seguito, trova un problema di big data e inizia a lavorarci. Passate attraverso tutti i passi che fareste con il flusso di lavoro della scienza dei dati: importate i dati, esplorate, analizzate, modellate, validate e visualizzate. Puoi usare i passi che hai già fatto sopra per passare attraverso la maggior parte delle fasi, ma non dimenticare di iniziare anche con un software di visualizzazione come Tableau o usare la libreria di visualizzazione Bokeh.
- Step 6. Considera di seguire un training (opzionale)
Se proprio vuoi, puoi anche seguire un training aziendale o privato di Cloudera o Databricks Training.