Wenn Sie einfachen Text benötigen, sollten Sie die WikiClean-Bibliothek https://github.com/lintool/wikiclean verwenden.
Ich hatte das gleiche Problem und es sieht so aus, als wäre dies die einzige effiziente Lösung, die für mich in Java funktioniert hat.
Es gibt zwei usecases:
1) Wenn Sie den Text nicht im XML-Format haben, dann sollten Sie XML-Tags hinzufügen nötig, um diese Verarbeitung zu tun. Angenommen, Sie verarbeiten die XML-Datei früher und haben nun den Inhalt ohne XML-Struktur, dann fügen Sie einfach xmlStartTag und xmlEndTag wie im folgenden Code hinzu und verarbeiten sie.
String xmlStartTag = "<text xml:space=\"preserve\">";
String xmlEndTag = "</text>";
String articleWithXml = xmlStartTag + article.getText() + xmlEndTag;
WikiClean cleaner = new WikiClean.Builder().build();
String plainWikiText = cleaner.clean(articleWithXml);
2) Wenn Sie die Wikipedia lesen Datei Dump direkt (xml-Datei), in diesem Fall, dass Sie es durch die Datei nur passieren und es geht.
WikiClean cleaner = new WikiClean.Builder().build();
String plainWikiText = cleaner.clean(XMLFileContents);
Cloud Sie ein Beispiel für eine Seite mit den Markups, die Sie entfernen möchten? – bakkal