Wenn ich eine Feed-URL zu Google Reader oder zu einem Desktopfeed-Aggregator hinzufüge, erhalte ich gute Ergebnisse. Die URL lautet:Unterschiedliche Ergebnisse für denselben RSS-Feed, der von verschiedenen Benutzeragenten abgerufen wird
http://estaticos03.marca.com/rss/futbol_1adivision.xml
Aber wenn ich hole die gleiche URL von einem Skript (Python-Skript, feedparser Bibliothek) Ich bin für die gleichen Ergebnisse (den Titel für jeden Eintrag etwas anderen Inhalt bekommen, zum Beispiel , ist anders und alles in Großbuchstaben).
Ich glaube, auf der Serverseite wird etwas unternommen, um Leute wie mich davon abzubringen, den Inhalt für meine eigenen Projekte zu analysieren (der Feed stammt von einer beliebten Fußballzeitung), aber ich bin mir nicht sicher. Ich habe versucht, einige User Agents (wie der Google Reader) zu übergeben, aber immer noch kein Glück, also vielleicht überprüfen sie auch die IP? Ich bin ziemlich verwirrt.
Irgendeine Idee, warum geschieht mir das?
Danke!
Vielleicht fragen Sie sie? Und wie können sie die IP überprüfen? Ihr Browser und Ihr Python-Skript haben dieselbe IP-Adresse. :) –
Wenn ich sie fragte, glaube ich nicht, dass sie mir trotzdem antworten würden. Und für die IP hast du Recht, aber vielleicht checken sie zuerst den User Agent und wenn es ist, sagen wir Google Reader, dann könnten sie die IP überprüfen. Aber ich glaube nicht, dass sie so ausgefeilt sind ... – nabucosound
könntest du die rss-URL angeben, auf die du zugreifen willst? Ich wäre daran interessiert zu sehen, was vor sich geht. – smilbandit