Ich bin building on some old code from a few years back using the commoncrawl dataset mit EMR mit MRJob. Der Code verwendet die folgende innerhalb MRJob Unterklasse Mapperfunktion, um zu bestimmen, ob
Ich muss eine Teilmenge des allgemeinen öffentlichen Datensatzes von crawl durchsuchen und herunterladen. This Seite erwähnt, wo die Daten gehostet werden. Wie kann ich die allgemeinen Crawling-Daten
Dies ist nicht das erste Mal, dass diese Frage bei Stackoverflow asked ist - aber es ist fast fünf Jahre später - und die Zeiten und Technologien haben sich ein wenig verändert. Ich frage mich, was di