Update: [HPC] Notabschaltung wegen Stromausfall der Kühlanlage/Emergency Shutdown Due to Cooling System Power Outage

Stöerungsmeldung

———— English translation below ————

Aufgrund eines Stromausfalls in der Kühlanlage des Rechenzentrums hat sich unser
OMNI-Cluster notabgeschaltet. Wir arbeiten derzeit daran, den Cluster wieder
hochzufahren. Bitte überprüfen Sie Ihre Jobs und starten Sie diese bei Bedarf
erneut.

Update:

Der OMNI-Cluster steht größtenteils wieder zur Verfügung. Leider gibt es noch immer ein Problem mit den GPU-Knoten, die derzeit aus einem noch unbekannten Grund nicht booten. Unser Team arbeitet bereits intensiv an einer Lösung.

————Begin of English translation ————

Due to a power outage in the data center’s cooling system, tho OMNI cluster has
automatically shut down. We are currently working on bringing the cluster back
online. Please check your jobs and resubmit them if necessary.

URL: https://status.zimt.uni-siegen.de/hpc-notabschaltung-wegen-stromausfall-
der-kuehlanlage-emergency-shutdown-due-to-cooling-system-power-outage/
?
pk_campaign=feed&pk_kwd=hpc-notabschaltung-wegen-stromausfall-der-kuehlanlage-
emergency-shutdown-due-to-cooling-system-power-outage

Update:

The OMNI-Cluster is largely back online. However, there is still an issue with the GPU nodes, which are currently not booting for reasons yet unknown. Our team is working diligently to resolve the problem.