Vordergründig hast Du nicht unrecht, aber Du willst ja den Originalzustand möglichst schnell wiederhaben und nicht die Notlösung (also die Übernahme des Dienstes durch einen Vertreter) über einen längeren Zeitraum betreiben.
Im professionellen Umfeld habe ich zB nach 4 Stunden ein Taxi mit baugleichen Ersatzteil(en) vor der Tür, die auf Anhieb laufen, die Hardware und sogar Konfiguration (RAID, etc) vollumfänglich unterstützen und bin dann nach einer definierten Zeit nach Einbau und Inbetriebnahme wieder im Originalzustand.
Wenn Du die Ausfallrate aller verbauten Teile kennst und über die entsprechend geplante Laufzeit des Gesamtkonstuktes die notwendige Zahl an Ersatzteilen (oder Rechnern) auf Halde legst, kommst Du langsam an echte Hochverfügbarkeit. Nur ein Cluster reicht da nicht, das verschiebt nur den Single-Point-of-Failure.
Grüsse
Gulp