Montag, 4. Mai 2009
Ausfall 3. Mai 2:00 Uhr bis 4. Mai 9:30 Uhr
Sonntag morgen war der Server "dicht". Mit einer Load von mehr als 200 und mehr als 4.000 laufenden Java-Prozessen ging nichts mehr.

Warum das soweit gekommen ist, kann ich nicht sagen. Jedenfalls lief noch das Backup aus der Nacht und das Skript, welches dafür zuständig ist, Helma/Antville neu zu starten, wenn da etwas schief läuft, funktionierte nicht.

Insgesamt war der Server nicht dazu zu bringen, sich irgendwie "vernünftig" zu verhalten. Prozesse konnten nicht beendet werden, was zur Folge hatte, dass die Load nicht runter ging.

Daraufhin habe ich den Server hart neu gestartet, was damit zu vergleichen ist, wenn man einfach den Netzstecker zieht und wieder reinsteckt.

Hier gab es immer wieder Probleme, die ich nicht mehr genau nachvollziehen kann. Es scheint aber eine Verkettung von Ereignissen gewesen zu sein: zum einem musste das Software-RAID seinen Zustand wieder normalisieren und gleichzeitig hat das Betriebssystem versucht, die Datenbank zu reparieren, was nach so einem Not-Aus automatisch passiert.

Beides sind sehr plattenintensive Aufgaben, die sich wohl gegenseitig hochgeschaukelt haben. Wenn dann noch Helma/Antville automatisch mit gestartet wurde, war das Chaos perfekt und der Server machte schnell wieder die Grätsche.

Irgendwann heute morgen war aber zumindest das RAID wieder konsistent und nur die Datenbank musste noch überprüft werden. Anschließend hat AxelK dann auch Helma/Antville wieder gestartet und jetzt läuft wieder alles.

Falls euch noch was seltsames auffällt, meldet euch bitte.

... comment

 
Kann sein, dass es am "zerspielten Layout" liegt, deshalb sage ich auch nur ganz vorsichtig "piep", aber kann es sein, dass beim Schreiben erstellte Absätze in neuen Beiträgen nicht dargestellt werden?

... link  


... comment
 
Kleine Wasserstandsmeldung:
Mal saudumm gefragt: War grade eben nur bei mir für etwa eine Viertelstunde alles tot? Circa 23.45 bis ca. 0.00 Uhr ging bei mir nix...

... link  

 
Nee, war schon richtig tot. Nicht nur bei Ihnen.

... link  


... comment
 
in diesem zusammenhang mal wieder ein danke an alle, die sich hier hinter den kulissen um alles kümmern und den laden am laufen halten - gerade bei solchen riesen-ausfällen kann man dies nicht genug unterstreichen.

... link  


... comment
 
mir fallen einige seltsame dinge auf, aber ich vermute, dass ist hier nicht gefragt ...


;)

... link  


... comment