- Datum des Vorfalls: 18.06.2026
- Protokollant / Bearbeiter: [Dein Name]
- Schweregrad: Kritisch (Totalausfall) / Mittel (Teilausfall) / Niedrig (Einschränkung)
- Betroffene Systeme: (z. B. iServ, Schul-WLAN 'iserv-haltern', Proxmox-LXC, JKG-Kopierer)
- Dauer des Ausfalls: [z. B. 2 Stunden und 15 Minuten]
- Auswirkung: (z. B. Das gesamte Lehrerkollegium am JKG konnte keine Noten eintragen und keine PDFs drucken.)
Chronologischer Ablauf von der Erkennung bis zur finalen Lösung.
- 08:15 Uhr: Erste Fehlermeldungen von Lehrkräften im Sekretariat (Drucker reagieren nicht).
- 08:30 Uhr: PRTG Network Monitor schlägt Alarm: Paketverlust an IP 172.22.66.66.
- 08:45 Uhr: Analyse auf dem Proxmox-Host gestartet. LXC-Container reagiert nicht auf SSH.
- 09:10 Uhr: Root-Cause identifiziert (siehe unten).
- 10:15 Uhr: Fix eingespielt. Systeme laufen wieder stabil.
- 10:30 Uhr: Entwarnung an die Schulleitung herausgegeben.
Was genau war der Auslöser für den Ausfall? Bitte so technisch und präzise wie möglich beschreiben.
Die Festplatte des LXC-Containers war zu 100% voll gelaufen, da die Log-Dateien des Docker-Dienstes nicht automatisch rotiert wurden. Dadurch konnte die PostgreSQL-Datenbank keine neuen Zeilen schreiben und der Dienst stürzte ab.
Schritt-für-Schritt-Anleitung, wie der Fehler akut behoben wurde (wichtig für die Zukunft!).
-
Akute Platzbeschaffung: Über den Proxmox-Host Speicherplatz temporär vergrößert:
pct resize 105 rootfs +5G
-
Log-Dateien bereinigt: In den betroffenen Docker-Ordner gewechselt und alte Container-Logs geleert:
truncate -s 0 /var/lib/docker/containers//-json.log
-
Dienste neu gestartet:
docker compose up -d --force-recreate
Was müssen wir tun, damit dieser spezifische Fehler nie wieder auftritt?
📋 Zurück zur Vorlagen-Übersicht | 🏠 Zur Startseite