2009-01-04 4 views
7

In den Ohren der Arbeit in mehreren Teams habe ich mehrere Infrastrukturmanager getroffen, die eine Richtlinie für wöchentliche Serverneustarts eingeführt haben. Als Entwickler war ich immer gegen die Richtlinie - es scheint, dass dies ein Hack ist, um Software-Bugs und Hardware-Instabilitäten zu umgehen, anstatt sie zu korrigieren.Vorteile und Probleme regulärer Serverneustarts

Was sind die Meinungen der Menschen, positive und negative Punkte in Bezug auf die Politik?

+0

Sie sind richtig, geplante Neustarts sind für die faulen –

Antwort

8

Wenn Sie Ihre Server gelegentlich neu starten, können Sie sicher sein, dass sie wieder auftauchen. Obwohl wöchentlich klingt wie ein ernsthafter Overkill, habe ich dieses Problem auf Linux-Maschinen mit langen Betriebszeiten gesehen.

Jemand hat sich nicht die Mühe gemacht, einen kritischen Dienst einzurichten, der beim Booten automatisch gestartet wird. Oder die Reihenfolge der kommenden Dienste ist falsch. Oder jemand hat Bibliotheken aktualisiert, Software hinzugefügt/entfernt usw., und die ausführbare Datei funktioniert nicht mehr (sie wurde mit den alten Bibliotheken gestartet und setzte sie fort; jetzt wird ein dynamischer Linkerfehler angezeigt). Oder es stellt sich heraus, dass Dienst A von Dienst B abhängt und Dienst B von Dienst A abhängt (oops).

Irgendwann, wenn Sie am wenigsten wollen, werden Sie einen Neustart durchführen. Der Colo wird die Macht auf dich fallen lassen; Die Stromversorgung des Servers wird fehlschlagen. jemand wird das Kabel ziehen/die Reset-Taste auf dem falschen Server drücken; usw. Jetzt, wenn Sie sich die Ausfallzeiten am wenigsten leisten können, wird Ihr verdammter Server nicht wieder auftauchen.

Genau wie Software müssen Systemkonfigurationen getestet werden. Wie oft Sie diese Tests durchführen müssen, hängt davon ab, wie Ihre Boxen verwaltet werden.

0

Unsere Server sind alle Linux-Server bei der Arbeit, und wir starten nie neu und hatten keine Probleme. Ich stimme zu, dass es sich bestenfalls um einen Hack handelt, und ich denke auch, dass es wahrscheinlich etwas mit der ersten Reaktion zu tun hat, die man immer gab, wenn Windows-Probleme unterstützt wurden: "Haben Sie Ihren Computer neu gestartet?"

Jetzt, wo es von Vorteil sein könnte, haben Sie möglicherweise Anwendungen, die in einen komischen Zustand geraten oder Speicherlecks haben, die ein Neustart auflösen würde.

Ein großer Nachteil für mich ist, dass Sie wöchentliche Ausfallzeiten für die Server planen müssen. Für einige ist das kein Problem und für andere ist das ein großes Problem.

0

Offensichtlich, wenn die Quelle eines Problems nicht rechtzeitig behoben werden kann, muss es herum gearbeitet werden. Planen Sie einen Neustart, um es zu beheben, ist ein einfacher Ausweg, um das Geschäft zu speichern, wenn das funktioniert.

Sicher, es tut weh und sollte nicht gebraucht werden und es wäre am besten, gegen eine solche Lösung zu arbeiten, vor allem wenn man die problematische Software unter Kontrolle hat oder in der Lage ist, die Hersteller für eine Reparatur zu bitch-slap Einfach ersetzen. Aber wenn nicht..?

Ich erinnere mich, es für die Server in einer Citrix-Farm zu tun, am Ende wurden sie jeden Abend neu gestartet mit einem halb komplizierten Skript, das darauf wartete, dass Benutzer sich abmelden, Logins auf bestimmten Servern sperren und dann die freien neu starten. Der Grund war eine alte 16bit 4GL-Client-Anwendung, die wir einfach nicht loswerden konnten, was dazu führte, dass die allgemeine Benutzerreaktionsfähigkeit nach einigen Tagen Betriebszeit beeinträchtigt wurde.

Ich stimme jedoch zu, dass es meistens darauf beruht, nicht klug genug zu sein, um die Ursache herauszufinden und zu beheben - nicht jeder ist so versiert in Wartung oder motiviert, wie wir möchten.

6

Dies ist eine dumme Politik.

Hier ist der Grund:

  • Wenn Sie einen Server wöchentlich neu zu starten (und irgendwie fügt sie Stabilität Ihrer Infrastruktur des), Sie sind das eigentliche Problem mit einem Server oder seiner Software zu verdecken. Ein Speicherleck? Ein schlechter Fahrer? Die Lösung für diese Probleme sind beheben sie, sie nicht mit einer faulen Politik zu decken.

  • Server werden oft neu gestartet, zumindest in der Windows-Welt. Ein Neustart für kritische Kernel-Updates findet trotzdem statt.

  • Datenbankserver speichern viele Informationen im RAM zwischen. Wenn Sie Ihren Server neu starten, wird dieser Cache leer und sehr kalt. Angenommen, Sie haben ein typisches Verwendungsmuster, führt ein leerer, leerer Cache zu einer langsamen Leistung für Benutzer, wenn sie ihre Abfragen nach einem Neustart versuchen. Es Mai auch die erforderliche Zeit für die Durchführung einiger Arten von Wartung wie Backups erhöhen, da auf die Festplatte möglicherweise mehr zugegriffen werden muss.

  • Ihre Server gehen aus!Ihre Wartungsfenster für Backups und andere Dinge werden gekürzt, weil Ihr Server für einige Zeit ausgeschaltet ist. Es kann auch sein, dass Sie Ihren Benutzern sagen müssen, dass Sie Ausfallzeiten haben werden, abhängig von der Architektur Ihres Systems.

  • Angenommen, Sie haben eine Art Benachrichtigungssystem für Warnungen, müssen Sie es so konfigurieren, dass es Ihr Ausfallzeitfenster ignoriert. Dadurch können Probleme abgedeckt werden, die beim Neustart des Servers auftreten, und die Anzahl der erforderlichen Konfigurationsschritte auf den Servern erhöht werden.

Das, Neustarts sind manchmal gesagt wird als letztes Mittel auf Ressourcen von Vorteil, dass man nicht unbedingt die volle Kontrolle über (alte hersteller geschriebene Software haben, „black box“ Geräte, wenn sie ausdrücklich vom Hersteller vorgeschrieben, etc...). Aber dies sollte von Fall zu Fall und nicht mit einer naiven Pauschalpolitik behandelt werden.

0

Es ist ein Hack wirklich, aber es könnte der effizienteste Hack sein. Es ist ein 80:20 Typ Problem, bei dem Sie 80% des Problems mit 20% der Anstrengung lösen können. Wenn Sie die Ausfallzeit oder die Ausfallzeit überleben können, kostet das weniger als die eigentliche Ursache, dann ist dies eine gute Lösung. Ich persönlich mag es nicht, aber das liegt nur daran, dass es keine saubere Lösung ist.

1

Eigene Frage beantworten: Einer der Vorteile, den ich aus der Richtlinie ersehen kann, ist, wenn sie auf einen Servercluster angewendet wird und die Prozesse von einem Knoten auf einen anderen übergehen. Auf diese Weise werden alle Knoten ständig auf die korrekte Softwareinstallation getestet.

0

Eine andere Möglichkeit ist zu berücksichtigen, dass in einigen Umgebungen, wie Einzelhandelsgeschäfte, die 24 Stunden am Tag geöffnet sind, wird ein „speichern schließen“ Ereignis so, dass die Server aktualisiert werden können, gesicherte, usw.

Selbst obwohl die Server "24x7" laufen müssen, sind sie jeden Tag mindestens einige Minuten offline.

Das führt effektiv dazu, dass ein Server jeden Tag neu gestartet wird, auch wenn der Speicher noch in Betrieb ist.

3

Entschuldigung für das Abstauben eines alten Threads.

Ich denke, jeder vermisst den Punkt, vor allem die eingefleischten "Neustart"? Ich würde lieber meinen Kommodore verkaufen! Nix Admins.

Der Punkt ist, dass ein wöchentliches Fenster geplant werden sollte.Es bedeutet nicht, dass es verwendet werden muss, in der Tat ist die Präferenz, dass es nicht verwendet wird, da es unvermeidlich in einer verlassenen Stunde des Morgens ist.

Aber wenn es da ist, können Sie es verwenden.

Persönlich, ich denke, ein vierteljährlicher Neustart ist eine sehr gute Idee - es kann Ihnen einen Kopf auf Probleme geben (Hardware und Software), und wie die meisten vorausschauenden anderen Plakat hingewiesen, macht Sie bewusst, Änderungen, die verhindern reibungsloser Start, der erst nach einem Neustart sichtbar wird. Anstatt die Situation nach einem 4hr Stromausfall entstehen, die, wenn eine weitere 2 Stunden nehmen Ihre Box bis bringen wird wirklich ziemlich peinlich ....

Es gibt andere upsides ..

  • Es das Management wird verwendet, neu gestartet werden, und Sie haben ihr Vertrauen, wenn Sie tatsächlich einen Neustart benötigen (z. B. physisch verschieben). Wenn Sie nie eine Box neustarten, wird Ihr Manager verdammt nervös, wenn Sie sagen, dass er nach 4 Jahren und ohne Ausfallzeiten neu starten muss.

  • Sie sich Neustarts gewöhnen, und wissen, was schief gehen kann, \, wenn es offline ist.

  • WISSEN Sie, wie lange die Neustarts dauern. Wenn es wieder hochfährt und 10 Minuten länger als gewöhnlich dauert, sind Sie direkt in den Protokollen.

  • Wenn Sie von einem Bus hinunter morgen geklopft bekommen, gibt CURRENT ist (nicht 4 Jahre alte) Dokumentation darüber, was passiert, wenn ein Neustart durchgeführt wird (vorausgesetzt, Sie einen schönen Admin sind und Dinge aufschreiben)

  • A 30 Minuten Neustart pro Quartal passt gut zu 99,9% Verfügbarkeits-SLAs.

  • Schließlich löscht es die sprichwörtlich Spinnweben aus.

Um einige Punkte gegen regulären Neustart zu beantworten ..

  • der einen über einen schlechten Fahrer \ Speicherleck etc Vertuschung ist urkomisch. Woher wissen Sie, dass es sich um einen Speicherleck-Treiber handelt, wenn Sie den Server nicht neu starten? Nicht nur das, aber was, wenn Sie es nicht schaffen, es in Ihrer geplanten Ausfallzeit zu beheben? Wenn Sie ein wöchentlich geplantes Fenster haben, ist das kein Problem! Versuchen Sie einfach nächste Woche wieder ....

  • Benachrichtigungssystem - wenn Sie ein geplantes Fenster haben Sie eine geplante Ausnahme festlegen. Wenn Ihr Software \ Skript dies nicht tut, dann schlage ich moderne Software vor \ besseres Skriptschreiben.

  • Wie für die geplanten Ausnahmebedingungsfenster Ausblenden von Problemen, die während des geplanten Ausnahmefensters passieren "das ist nur lächerlich. Ihre anderen Server-Statistiken zeigen dieses Problem sehr schnell an, wenn Sie sie überhaupt überprüfen.

Natürlich ist eine Decke Politik nicht zu empfehlen, und Sie sollten Ausnahmen haben Kriterien (zB Speicherplatz über eine bestimmte Größe usw.)

Having said, dass unter dem Strich nur weil Ihr Server shouldn ist muss nicht neu gestartet werden, es ist unglaublich naiv zu denken, dass man es nicht neu starten sollte ....

Edit:

Ich bin nicht sicher, ob ich machte dies deutlich genug, aber das Neu starten soll nicht zum Verputzen über ein Problem verwendet werden. Das Fenster sollte wöchentlich sein, so dass Sie wiederholt versuchen, das Problem zu lösen und nicht "damit leben".

Neustart als eine Methode zur Behandlung eines Problems auf einem Server ist schlechte Systemadministrator. Nichts wird gelernt und es verschwendet wertvolle Zeit der Menschen und (zu Recht) senkt die Meinung des Managements von Ihnen.

Mein Punkt ist

  • Es ist schwierig, sicherzustellen, dass Sie ein Problem ohne ein akzeptiertes, geplant, anstelle Wartungsfenster wöchentlich zu lösen.
  • Mit einem wöchentlichen Fenster haben Sie eine fortlaufende Möglichkeit, Dinge richtig zu sortieren und die Situation zu vermeiden, in der Sie ein halbes Dutzend jerry-manipulierte Problemumgehungen auf so vielen verschiedenen Servern haben.