Ich habe einen Webserver, auf den andere Sites mit einigen GET-Parametern umleiten. Meine Situation:Ich habe 2 GB Webserver-Logs pro Tag produziert, wie man sie filtert?
- Derzeit habe ich 2 GB Web-Server-Protokolle jeden Tag produziert.
- Ich muss die Protokolle für mindestens die Hälfte des Jahres (~ 350 GB Protokolle) filtern.
- Ich verwende Amazon-Infrastruktur, um die Protokolle in S3-Bucket zu speichern. Ich habe zwei Webserver, die die Protokolle schreiben.
Welche Technologie sollte ich verwenden, um diese Daten abzufragen/zu filtern? Zuvor habe ich Dateien auf einem Ubuntu-Rechner heruntergeladen und dann grep, um die Ergebnisse zu erhalten. Ich habe auch Hadoop über AWS getestet, aber ich fand es schwierig zu verwenden.
Welche Technologie/Lösung ist am besten in Bezug auf:
- Geschwindigkeit der Filterung
- Einfache
- Leicht zu lernen, die Regeln zu ändern Filterung
Danke für Ihre Aufmerksamkeit
Schauen Sie sich diesen Artikel https://aws.amazon.com/articles/Elastic-MapReduce/2440 – error2007s
Thanks @ error2007s Ich werde es versuchen für einige Tage und gebe mein Feedback hier. – Paul