2016-04-04 3 views
2

Ich erhalte diesen Fehler nur einmal pro Woche an einem Knoten in einem Cluster mit zwei Knoten. Hier die Fehler, die ich auf dem AMC bekam:Die Integrität des Clusters wurde gestört

Hauptfehler:

Cluster integrity has been disturbed

Fehler für jeden Satz:

Mismatch in replication factor for namespace test as shown by nodes

Informationen, die 2-Knoten haben die gleiche aerospike.conf Datei mit einem Replikationsfaktor von 2. Eine andere Sache, die meine Aufmerksamkeit erregte, ist, dass der gesamte Cluster nicht verfügbar ist, während nur ein Knoten unten ist (nicht sichtbar), so frag ich mich auf t er HA von Aerospike.

Um dieses Problem zu lösen, starte ich einfach den Knoten nicht sichtbar.

On the aerospike documentation heißt es:

This can be true if a set of nodes has split from the main cluster. (This is sometimes referred to as a split brain.) Generally, it is easiest to restart the “lost” node(s) to get it/them to rejoin the cluster.

Aber wie dieses Problem jede Woche auftritt, würde ich gerne dieses eine Mal zu lösen und für alle :)

+1

können Sie das Protokoll für "Cluster-Integrität" grep (Groß-und Kleinschreibung beachten) und teilen, wenn es irgendwelche Fehler bitte. Version wäre auch hilfreich –

+1

Ich spüre eine Störung in der Kraft. – jotik

+0

@BenBates Protokolle: 'CLUSTER INTEGRITY FEHLER. [Phase 1 von 2] Um dies zu beheben, diesen Befehl über alle Knoten: dun: Knoten = bb9648009565000, bb9017602565000' Version: Community Edition 3.7.0.1 Sag mir, wenn Sie mehr –

Antwort

3

Ein Vorschlag besteht darin, die Paxos-Recovery-Policy auf Auto-Reset-Master zu setzen, und der Cluster sollte eigenständig zurückbilden, wobei die Ursache des Problems ein temporärer Netzwerkfluss ist, der den Cluster verliert.

+1

Vielen Dank für Ihren Rat, ich habe diese Konfiguration aktualisiert und werde Sie auf dem Laufenden halten. –

+0

10 Tage danach wurde kein Clusterintegritätsproblem erkannt. Danke! –

+0

danke für das Update, tolle Sachen! –

3

ich für Aerospike arbeiten, nachdem einige der Forschung „Mismatch tun in Replikationsfaktor für Namespace-Test, wie von Knoten gezeigt "könnte mit dem Knoten nicht sichtbar verbunden werden. Wenn ein Knoten nicht verfügbar ist, wird der Replikationsfaktor in einem 2-Knoten-Cluster mit Replikationsfaktor 2 auf 1 reduziert, um die Datenverfügbarkeit zu gewährleisten. Wenn der Knoten dem Cluster erneut beitritt, stimmen die Replikationsfaktoren für eine kurze Zeit nicht überein. AMC versucht es erneut und Sie sollten keine Wiederholung dieses Fehlers sehen.

Wir müssten auf der Unterseite des Knotens Problem gehen, um Ihre zweite Frage zu beantworten, siehe meinen Kommentar.