Ich möchte eine Website mit Greasemonkey crawlen und frage mich, ob es eine bessere Möglichkeit gibt, Werte vorübergehend zu speichern als mit GM_setValue.Beste Methode zum Speichern von Daten für Greasemonkey-basierte Crawler?
Ich möchte meine Kontakte in einem sozialen Netzwerk crawlen und die Twitter-URLs von ihren Profilseiten extrahieren.
Mein aktueller Plan ist, jedes Profil in seinem eigenen Tab zu öffnen, so dass es eher wie eine normale Browsing-Person aussieht (dh css, Scrits und Bilder werden vom Browser geladen). Speichern Sie dann die Twitter-URL mit GM_setValue. Nachdem alle Profilseiten gecrawlt wurden, erstellen Sie eine Seite mit den gespeicherten Werten.
Ich bin nicht so glücklich mit der Speicheroption, obwohl. Vielleicht gibt es einen besseren Weg?
Ich habe überlegt, die Benutzerprofile in die aktuelle Seite einzufügen, damit ich sie alle mit der gleichen Skriptinstanz verarbeiten kann, aber ich bin nicht sicher, ob XMLHttpRequest von normalen vom Benutzer initiierten Anfragen nicht zu unterscheiden ist.
Der Grund für Greasemonkey ist, dass die Seite, die gecrawlt werden soll, Robotern nicht wirklich zusagt. Greasemonkey schien der einfachste Weg zu sein, um den Crawler legitim erscheinen zu lassen. –