Ich habe eine Liste von 120 Millionen Datensätze von etwa 40/50 Bytes, die etwa 5,5/6 Gigabyte rohen Speicherplatz, ohne zusätzlichen Speicherplatz, um ein zu halten Array im Speicher.Erstellen einer eindeutigen Liste aus Dataset zu groß, um in den Speicher zu passen
Ich möchte sicherstellen, dass diese Liste einzigartig ist. Die Art, wie ich es versucht habe, ist ein Hashset <String> zu erstellen und alle Einträge nacheinander hinzuzufügen.
Wenn ich zu etwa 33 Millionen Datensätze komme, habe ich keinen Speicher mehr und die Erstellung der Liste verlangsamt sich zu einem Crawl.
Gibt es eine bessere Möglichkeit, diese riesige Liste von Einträgen rechtzeitig zu sortieren? Die einzige Lösung, die ich mir vorstellen kann, ist die Verwendung einer Amazon EC2 High-Memory Quadruple Extra Large Instanz für eine Stunde.
Dank
Wo ist dieser Datensatz, den Sie gespeichert haben? –