2009-08-01 7 views
1

Ich mag den Überblick über delicious.com/popular RSS-Feed. In letzter Zeit gibt es jedoch immer mehr asiatische Seiten in den Artikeln. Da ich keine asiatischen Sprachen verstehe, möchte ich sie irgendwie aus dem Feed filtern und mir etwas Zeit sparen.Wie filtert man asiatische Sprache aus einem RSS-Feed?

Ich habe versucht, etwas unter Verwendung Yahoo pipes zu kochen, aber es war nicht in der Lage, es zum Funktionieren zu bringen.

Wer irgendwelche Ideen wie dies funktioniert?

Antwort

1

Ich habe bei http://pipes.yahoo.com/pipes/pipe.info?_id=yJh1aRp_3hGaPi23tPvyrQ

Die Quelle des Rohres etwas Glück hat alle Informationen hat, aber der Schlüssel Bit einen Filter mit dem regex ^[A-Za-z 0-9 \.,\?'""[email protected]#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\] ~] + `$ ausgeführt wird.

Dadurch werden alle Feeds herausgefiltert, die im Titel nichts als Standard-ASCII verwenden. Leider bedeutet dies auch, dass Wörter wie "Lebenslauf" gefiltert werden, aber es sollte ziemlich einfach für Sie sein, die Regex so anzupassen, dass sie nicht englische Zeichen aus den Ihnen bekannten Sprachen enthält.

+0

Danke! Das wird mir gut tun. – MvdD

0

Wahrscheinlich möchten Sie Titel überspringen, bei denen mehr als X% der Zeichen NICHT aus den Codeblöcken stammen, die den Skripten dieser Sprachen zugeordnet sind, die Sie verstehen können. Wenn Sie beispielsweise keine griechischen, russischen, arabischen, hebräischen, armenischen, chinesischen, japanischen, koreanischen, indischen Sprachen usw. lesen können, lehnen Sie Titel ab, bei denen mehr als 10% der Zeichen nicht im Bereich U + 0000 liegen U + 0233. Dies lässt Sie mit dem lateinischen Alphabet. Die Idee, einen Rand wie 10% zu lassen, ist für Satzzeichen; Auch technische Artikel können Symbole verwenden, die nicht im Basisalphabet enthalten sind.