Cos'è la gestione dei cluster? E perché?
In termini semplici, quando si allestisce un sistema (o sistemi) mission critical, è necessario progettare l'infrastruttura in modo da ridurre al minimo o eliminare i singoli punti di errore che potrebbero arrestare o influenzare notevolmente le operazioni aziendali (se qualcosa va storto e il sistema online fallisce). La soluzione è nota come progettazione per "alta disponibilità/disaster recovery".
Quindi quello che le aziende farebbero è impostare i loro sistemi Production / Live in una configurazione cluster. Il clustering riguarda l'impostazione di hardware e software ridondanti nel caso in cui l'istanza primaria fallisca, in modo che le operazioni possano essere rapidamente passate a un'istanza secondaria. Ci sono diversi modi in cui questa configurazione può essere realizzata sia dal punto di vista dell'hardware che del software, ma indipendentemente dalle opzioni, alla fine è necessario avere le seguenti cose in atto per minimizzare/eliminare le interruzioni del business:
- L'architettura cluster è stata messa in piedi
- Il software di gestione del cluster (software specializzato che monitora le prestazioni dell'istanza primaria e gestisce il passaggio all'infrastruttura cluster secondaria quando la primaria fallisce)
- Un insieme di processi (alcuni automatizzati e alcuni manuali) che completano il passaggio del cluster in modo da poter riprendere le operazioni e gestire qualsiasi transazione che non è stata completata come risultato dell'interruzione del servizio, nonché qualsiasi altro problema tecnico/funzionale che può sorgere come conseguenza naturale del funzionamento in un'istanza secondaria.
- Devi anche avere un processo in atto con il quale puoi fare un'analisi delle cause alla radice di ciò che ha causato il problema, poi risolverlo, quindi pianificare il ritorno del tuo cluster all'istanza primaria.
- Come l'infrastruttura e le operazioni cambiano nel tempo, le tue procedure di gestione HA/DR/cluster devono essere aggiornate altrimenti non funzioneranno. Questo implica non solo la documentazione, ma anche test effettivi di scenari disastrosi.
Tutto ciò vi dà un'idea del perché è necessario avere persone, tecnologia e processi in atto associati alla gestione del cluster.