Ich habe ungefähr 100k URLs, von denen jede als positiv oder negativ markiert wurde. Ich möchte sehen, welche Art von URLs positiv entspricht? (ähnlich für negativ)Ähnliche URLs gruppieren/Allgemeine URL-Muster finden (Python)
Ich begann mit der Gruppierung von Sub-Domains und identifizierte die häufigsten positiven und negativen Subdomains.
Nun, für Sub-Domänen, die ein gleich positives Verhältnis zu negativ haben, möchte ich weiter sezieren und nach Mustern suchen. Beispielmuster:
Die Links sind nicht auf clarin.com beschränkt.
Irgendwelche Vorschläge, wie man solche Muster aufdecken kann?