Che cos’è la tolleranza agli errori?

Le applicazioni informatiche più importanti richiedono un design che includa diversi componenti ridondanti. Questo design a tolleranza di errore include in genere hardware, software, backup dell’alimentazione e misure di sicurezza della rete. La tolleranza ai guasti è un design che garantisce che un’applicazione informatica rimanga funzionante in caso di guasto catastrofico. La maggior parte delle banche, dei governi e delle società di servizi pubblici utilizza questo tipo di design per le proprie applicazioni critiche.

La tolleranza ai guasti di alimentazione è un progetto ingegneristico che fornisce più ingressi di alimentazione alle apparecchiature del computer. Alcuni esempi di ridondanza dell’alimentazione includono più circuiti di alimentazione, fornitori di prese di alimentazione o sistemi di backup della batteria. Questo sistema riattiverà automaticamente l’alimentazione in caso di interruzione del servizio elettrico.

I piani di alimentazione di backup progettati per preservare i sistemi informatici in genere includono generatori alimentati a carburante e grandi unità batteria. Quando un data center perde energia elettrica, il sistema del generatore si attiva automaticamente. Questi edifici in genere possono mantenere l’alimentazione per diverse settimane senza influire sulle prestazioni complessive.

La tolleranza agli errori hardware è un design che distribuisce i processi aziendali su più componenti del computer. Ciò consente a un’applicazione di rimanere funzionante quando un’apparecchiatura si guasta a causa di problemi meccanici. Un database in cluster è un esempio di utilizzo di hardware a tolleranza d’errore. In questo progetto, un database fisico viene distribuito e replicato su più dispositivi hardware. Se un’apparecchiatura si guasta all’interno del cluster, il database rimane attivo perché è distribuito su più unità hardware.

La tolleranza agli errori di rete è un altro esempio di ridondanza in un sistema informatico. La maggior parte delle operazioni del data center include configurazioni a tolleranza di errore di rete. Ciò richiede l’uso di più fornitori di telecomunicazioni e linee telefoniche in un edificio. In caso di guasto completo di un fornitore, gli altri fornitori di rete lo sostituirebbero automaticamente. Questo tipo di configurazione richiede tipicamente due linee di telecomunicazione attive all’interno di un edificio fisico.

Molte grandi organizzazioni e agenzie governative richiedono la tolleranza agli errori per supportare la propria infrastruttura fisica. Ciò garantisce che eventi catastrofici, inclusi danni all’alimentazione e distruzione della rete, non influiscano sulle operazioni aziendali di queste organizzazioni. Sebbene la tolleranza agli errori non garantisca l’integrità delle applicazioni, riduce la probabilità di un guasto completo del sistema dovuto a problemi del computer.
Le istituzioni governative più critiche includono la tolleranza ai guasti per intere unità aziendali. Ciò include in genere il trasferimento di personale, attrezzature e risorse che possono sostenere disastri naturali per lunghi periodi di tempo. Questo tipo di soluzione tollerante ai guasti si trova in genere in profondità nel sottosuolo, dove i disastri naturali hanno un impatto minimo sulle operazioni fisiche.