Guten Morgen alle zusammen,
im RZ soll das CheckMK weiter ausgebaut werden.
Die Agents sind soweit auf den Servern installiert allerdings ist es noch nicht wirklich praxisfähig. Es gibt viele undefinierte Checks und keine Host-Gruppen mit hinterlegten Checks.
Da ich nach vielen Stunden Recherche nichts produktives in die Richtung "Möglichkeiten innerhalb der RAW-Version" finde (abgesehen von der CheckMK Website, wo es recht undefiniert ist IMHO), wollte ich mich nach Erfahrungsberichten umhören.
Soll-Zustand:
- Host-Gruppen, wo definierte Checks auf den jeweiligen in der Gruppe sich befindenen Server auszuführen ist
- Terminalserver -> (Dienstüberwachung des tssdis, Prozessüberwachung der Clients, welcher über eine wirklich längere Zeitspanne den RAM/CPU frisst)
- allgemeine Überwachung verschiedener Dienste,
- CPU -> CPU Temperature >90° & >80° (betrifft nur die Hosts)
- CPU -> CPU Peaks >90% & >30 Min(?)
- Storage -> Aktivierung einer Hot-Spare-Platte , SMART Fehler, i/o > 1000ms
- VM Plattenspeicher -> >70% & >80%
- VM's -> Systemalerts "critical" (Neustarts etc.)
- RAM -> korrigierte ECC Fehler in RAM-Modulen,
- Zertifikate -> ablaufende Certs
- Monitoring von bestehenden VPN-Tunnel,
- generelle Servererreichbarkeit (Standard),
Das wären die Punkte die ich mit Gruppen und dahinterliegenden Checks abbilden würde. Gibt es hier den einen oder anderen, der seine Erfahrungen zu dem Thema teilen kann?
Ich möchte keine sachliche Diskussion, wie "Warum habt ihr überhaupt S2S's, das kann man anders machen" etc. ins Leben rufen, hier soll es wirklich nur ums Monitoring und eventuelle Fehler meinerseits gehen.