Wir haben einen Cluster mit 6 Knoten in Datencentern (jeweils 3 Knoten). Wir beginnen eine Reparatur auf einem Knoten und kurz anschliessend wir so etwas wie dies in den Protokollen finden:Cassandra 3 Reparatur beendet nie
ERROR [Repair#1:1] 2016-05-31 01:33:28,075 CassandraDaemon.java:195 - Exception in thread Thread[Repair#1:1,5,RMI Runtime]
com.google.common.util.concurrent.UncheckedExecutionException: org.apache.cassandra.exceptions.RepairException: [repair #e8e21070-26be-11e6-aae8-77b20cefeee5 on ..... Validation failed in /xx.xxx.xx.xx
at com.google.common.util.concurrent.Futures.wrapAndThrowUnchecked(Futures.java:1525) ~[guava-18.0.jar:na]
at com.google.common.util.concurrent.Futures.getUnchecked(Futures.java:1511) ~[guava-18.0.jar:na]
at org.apache.cassandra.repair.RepairJob.run(RepairJob.java:162) ~[apache-cassandra-3.0.4.jar:3.0.4]
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) ~[na:1.8.0_77]
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) ~[na:1.8.0_77]
at java.lang.Thread.run(Thread.java:745) ~[na:1.8.0_77]
Afterwords nichts scheint mehr zu passieren. Wir haben die Reparatur für mehrere Tage nicht unterbrochen, aber trotzdem passiert nichts. Wir haben es auch auf zwei verschiedenen Clustern mit dem gleichen Ergebnis versucht.
Nach der Suche im Internet stolperten wir auf https://support.datastax.com/hc/en-us/articles/205256895--Validation-failed-when-running-a-nodetool-repair. Es sagt, dass wir "nodetool scrub" ausführen sollten und wenn es "stablescrub" nicht hilft.
Wir haben versucht das nodetool Scrub, aber die Reparatur funktioniert immer noch nicht. Wir haben jetzt ein stablescrub gestartet, aber es scheint ewig zu dauern. Es verwendet nur eine CPU bei 100% und die Daten- und Indexdatei wächst, aber es läuft jetzt für mehr als einen Tag und die Datei hat jetzt nur eine Größe von 1,2 GB.
Ist es normal, dass "stablescrub" so langsam ist?
Der Cluster läuft bereits seit einiger Zeit und wir haben die GCGraceSeconds für die Reparatur verpasst. Könnte das zu der nicht funktionierenden Reparatur führen?
Wir wissen derzeit nicht, wie man die Reparatur läuft, hoffe jemand kann helfen.
Haben Sie die genaue Datei sstable identifiziert, die beschädigt ist und die Reparatur fehlschlägt? –
Leider haben wir das genaue sstable nicht gefunden. –