Quanto tempo ci vuole per fare il backup dell'intero database di Facebook, in modo incrementale e non? Quanto frequentemente fanno il backup?
Per rispondere a questa domanda, devo dirvi cosa significa "big data". I grandi dati sono così grandi che non possono stare su un solo computer. A volte hai bisogno di centinaia o addirittura migliaia di computer per memorizzarli o elaborarli.
Immagina di fare il backup dei tuoi dati a casa. Tutte quelle foto, video, MP3, la prima bozza del tuo romanzo, un mucchio di ebook... diciamo che hai 1 TB di dati. Quanto tempo ci vuole, con un disco rigido veloce? Potrebbero essere minuti o ore.
Quanti dati ha Facebook? Secondo Techcrunch nel 2012, Facebook stava elaborando oltre 500 TB al giorno. Quindi non c'è tempo per "fare il backup" di nulla. Non è così che funzionano i grandi dati. Quindi, cosa fare?
La maggior parte dei big data è memorizzata su una piattaforma chiamata Hadoop®, che è progettata per memorizzare ed elaborare grandi quantità di dati. Hadoop gira su un gruppo di computer (dieci, cento, mille, diecimila o più!) e fondamentalmente fa agire quel gruppo di computer come un unico gigantesco supercomputer.
Invece di "fare il backup" dei big data, Hadoop li memorizza in un modo che tollera il fallimento. Perché? Perché se hai 1.000 server con 10 hard disk ciascuno (sì, davvero) e un hard disk si guasta in media ogni tre anni, allora avrai 10 hard disk che si guastano al giorno! Non puoi aspettare ore e ore per un backup e sperare di prendere i dati giusti. Non hai affatto tempo per un backup. E con 500TB al giorno, non puoi nemmeno fare un backup alla stessa velocità con cui arrivano i dati!
Hadoop risolve il problema memorizzando diverse (di solito 3) copie di ogni pezzo di dati. Gestisce le loro posizioni e le tiene su diversi server in diversi rack in modo che se un intero rack va giù si ha ancora una copia dei dati. Quando si verifica inevitabilmente un guasto e i dischi rigidi o i server vengono sostituiti, re-replica i dati in modo che ci siano sempre 3 copie.
Ora, alla tua domanda originale: Cosa fa Facebook? Beh, non ci lavoro più da qualche anno, quindi non so dirti cosa fanno oggi. Ma hanno inventato una piattaforma di immagazzinamento dati chiamata Hive che gira sopra Hadoop, quindi la mia scommessa è che la stanno ancora usando. Hive funziona nel modo che ho descritto sopra, con dati replicati memorizzati in Hadoop.
Articoli simili
- Quanto tempo (e quanto/per quanto tempo) ci vuole perché i prezzi degli smartphone scendano?
- Qual è la differenza tra un database tradizionale e un database moderno?
- Qual è la differenza tra uno sviluppatore di database e un amministratore di database?
- Qual è la differenza tra innovazione incrementale e innovazione radicale?