Montag, 4. Mai 2009
Ausfall 3. Mai 2:00 Uhr bis 4. Mai 9:30 Uhr
Sonntag morgen war der Server "dicht". Mit einer Load von mehr als 200 und mehr als 4.000 laufenden Java-Prozessen ging nichts mehr.

Warum das soweit gekommen ist, kann ich nicht sagen. Jedenfalls lief noch das Backup aus der Nacht und das Skript, welches dafür zuständig ist, Helma/Antville neu zu starten, wenn da etwas schief läuft, funktionierte nicht.

Insgesamt war der Server nicht dazu zu bringen, sich irgendwie "vernünftig" zu verhalten. Prozesse konnten nicht beendet werden, was zur Folge hatte, dass die Load nicht runter ging.

Daraufhin habe ich den Server hart neu gestartet, was damit zu vergleichen ist, wenn man einfach den Netzstecker zieht und wieder reinsteckt.

Hier gab es immer wieder Probleme, die ich nicht mehr genau nachvollziehen kann. Es scheint aber eine Verkettung von Ereignissen gewesen zu sein: zum einem musste das Software-RAID seinen Zustand wieder normalisieren und gleichzeitig hat das Betriebssystem versucht, die Datenbank zu reparieren, was nach so einem Not-Aus automatisch passiert.

Beides sind sehr plattenintensive Aufgaben, die sich wohl gegenseitig hochgeschaukelt haben. Wenn dann noch Helma/Antville automatisch mit gestartet wurde, war das Chaos perfekt und der Server machte schnell wieder die Grätsche.

Irgendwann heute morgen war aber zumindest das RAID wieder konsistent und nur die Datenbank musste noch überprüft werden. Anschließend hat AxelK dann auch Helma/Antville wieder gestartet und jetzt läuft wieder alles.

Falls euch noch was seltsames auffällt, meldet euch bitte.

... link (5 Kommentare)   ... comment