Ich bin derzeit auf einem Crawler arbeiten in Python, die bereits ein Genre Seite auf http://lyrics.wikia.com/ kriechen alle Bands und Alben zu bekommen und dann kriecht diese Links um die Links zu bestimmten Songs zu bekommen, um die Texte endlich zu parsen und in eine Datenbank zu stellen, damit sie mir bei der Analyse lyrischer Inhalte helfen kann.Proper Parsen einer HTML-Seite mit entkam ascii-strings
bekam ich meine Crawler all diese Schritte zu tun, aber wenn ich die html von der lyrischen Seite mit urllib und beautifulsoup ich seltsam Inhalt analysieren. Ich habe das untersucht und es scheint ein Skript zu geben, das Leute davon abhält zu kriechen? Wenn man sich den HTML-Quellcode anschaut, ist der Text wie folgt verschlüsselt. Ich weiß nicht, wie ich das nennen soll, so traurig, dass ich selbst nicht weiter forschen konnte, ohne zu wissen, wonach ich suchen sollte.
<div class='lyricbox'>It was when I realized<br />that life has no meaning<br />no purpose, no quarry<br />...no answeres...<br /><br />And all the dreary night<br />that had befallen across<br />the land<br />I slipped into a revery<br />a web of human hand<br /><br />You longed to soar up high<br />to caress the silky winds<br />to embrace and kiss as lovers<br />...the ether...<br /><br
Bei der Untersuchung mit dem Google Chrome-Entwickler-Tool können die Texte gelesen werden.
Die Beispielseite war: http://lyrics.wikia.com/wiki/Agalloch:The_Wilderness
So lange Geschichte kurz: Was ist das? Woher kommt das? Wie finde ich eine Problemumgehung? (Bedenken Sie, dass ich tun möchte, dass mit rund 20000 Seiten, so bevorzugt es sein muss schnell und/oder iteratable
Vielen Dank im Voraus
Vielen Dank, das funktioniert! Ich benutzte fast das gleiche, außer dass ich urllib benutzte, um "req" zu erhalten, lxml als Parser anstelle von html.parser und ich nicht get_text(). Rstrip().Ich denke, ich werde meinen Beitrag nicht bearbeiten, um zu zeigen, was ich meinen Code hatte, da dieser jetzt beantwortet wird (oder sollte ich das noch?) – sorh
Dir geht es gut, die Frage ist immer noch die gleichen Leute bekommen Antworten wie deine in der Zukunft und dieser Thread hat einige andere großartige Antworten auf Encoding/Decoding – Tony