Ich verwende einige Regex, um Leerzeichen aus einem Text in JavaScript zu entfernen. Die aktuelle Regex sieht wie folgt aus:JavaScript Entfernen von Copyright-Zeichen aus dem Text
var cleaned_plaintext = website_content;
cleaned_plaintext = cleaned_plaintext.toLowerCase();
cleaned_plaintext = cleaned_plaintext.replace(/(\0\r\n|\n|\r|\0)/gm," ");
cleaned_plaintext = cleaned_plaintext.replace(/\s+/g," ");
cleaned_plaintext = cleaned_plaintext.replace(/[...\(\)]/g,"");
cleaned_plaintext = cleaned_plaintext.replace(/[…]/g,"");
cleaned_plaintext = cleaned_plaintext.replace(/[:!?.,={-}]/g," ");
cleaned_plaintext = cleaned_plaintext.replace(/\s+/g," ");
Die obige regex tut ziemlich gut in den meisten weißen Räumen Reinigung aber sagen, ich habe Symbole wie diese
©
Wie kann ich die mit Regex entfernen? alle Tipps auch Reinigung, dass es schlanker oben regex zu machen, schneller, etc ....
Vielleicht wird ausdrücklich, was Sie –
entfernen möchten Was Sie denken, ' /[...\(\)]/ g' Übereinstimmungen? Wie auch immer, die zwei grundlegenden Optionen, die Sie haben, sind: (1) listet alle Zeichen auf, die Sie entfernen möchten, (2) listet alle Zeichen auf, die Sie * nicht entfernen wollen. – nnnnnn