hadoop

    0Hitze

    1Antwort

    Gibt es einen Unterschied zwischen n Dateien mit jeweils 1 Zeile im Eingabeordner und 1 Datei mit n Zeilen im Eingabeordner beim Ausführen von hadoop? Wenn es n Dateien gibt, sieht das "InputFormat" n

    2Hitze

    4Antwort

    Ich brauche ein System, um große Protokolldateien zu analysieren. Ein Freund hat mich neulich zum Hadoop geschickt und es scheint perfekt für meine Bedürfnisse zu sein. Meine Frage dreht sich um Daten

    3Hitze

    3Antwort

    Ich möchte eine große Anzahl von Dateien in Hadoop verarbeiten - jede Datei enthält einige Header-Informationen, gefolgt von vielen Datensätzen, die jeweils in einer festen Anzahl von Bytes gespeicher

    3Hitze

    2Antwort

    In der "API Anwendungsbeispiel" auf "Getting Started" Seite in HBase Dokumentation gibt ein Beispiel für Scanner Nutzung ist: Scanner Scanner = table.getScanner (neu String [] {“ myColumnFamily: colum

    -2Hitze

    5Antwort

    Ich versuche, Tabellen pragmatisch mit JDBC zu erstellen. Allerdings kann ich die Tabelle, die ich aus der Hive-Shell erstellt habe, nicht wirklich sehen. Was noch schlimmer ist, wenn ich aus verschie

    1Hitze

    1Antwort

    Ich versuche, die Verbindung nach dem Ausführen einer Abfrage zu schließen. Vorher erstelle ich einfach eine CachedRowSetImpl Instanz und es wird sich um die Freigabe der Ressourcen für mich kümmern.

    95Hitze

    4Antwort

    Eines der wichtigsten Beispiele für die Leistungsfähigkeit von MapReduce ist die Terasort benchmark. Ich habe Probleme, die Grundlagen des in der MapReduce-Umgebung verwendeten Sortieralgorithmus zu v

    1Hitze

    1Antwort

    Ich bin ein .NET-Programmierer, der einige Hadoop-Arbeit in Java macht und ich bin hier irgendwie verloren. In Hadoop versuche ich einen Map-Reduce-Job einzurichten, bei dem der Ausgabeschlüssel des M

    2Hitze

    5Antwort

    Ich werde mit einem neuen Projekt beginnen. Ich muss mit hundert Gigs von Daten in einer .NET-Anwendung umgehen. Es ist sehr früh, jetzt viel über dieses Projekt zu erzählen. Einige Übersicht ist folg

    2Hitze

    3Antwort

    Logs Tcpdumps sind binäre Dateien, möchte ich wissen, was FileInputFormat von hadoop ich für Split-Chunks die Eingabedaten verwenden sollte ... bitte helfen Sie mir !!