2008-08-15 6 views
12

Ich bin immer auf der Suche nach großen Datensätzen, um verschiedene Arten von Programmen zu testen. Hat jemand irgendwelche Vorschläge?Große Datensätze

Antwort

10

Überprüfen Sie die netflix contest. Ich glaube, sie haben ihre Datenbank oder eine große Teilmenge zur Verfügung gestellt, um den Wettbewerb zu erleichtern.

UPDATE: Their faq sagt, sie habe 100 Millionen Einträge in der Teilmenge Sie herunterladen können.

1

Sie möchten möglicherweise Zufallsdaten für Fuzz Testing generieren. Das würde Ihnen eine ziemlich unbegrenzte Menge an Testdaten geben, und Sie werden eher Randfälle treffen.

Vielleicht einige weitere Informationen darüber, welche Art von Testdaten, die Sie wollen, in welchem ​​Format und für welche Arten von Anwendungen?

1

Ich weiß nicht, was Ihre Zielplattform ist, aber wenn man gegen eine MSSQL-Datenbank ist die Entwicklung Visual Studio for Database Professionals überprüfen. Es hat eine sehr coole Funktion, wo es Daten für Ihr Schema mit einem Datenplan generieren kann, den Sie definieren können.

Redgate hat auch ein Tool zur Datengenerierung, aber ich habe es nicht verwendet.

Der Vorteil ist, dass Sie einen Datengenerierungsplan erstellen und verwenden Sie es Ihre Datenbank mit konsistenten, großen Mengen an Daten zu füllen, die abgestimmt werden können, bestimmte Bereiche Ihres Schemas zu testen.

1

Sie könnten auch theinfo von Aaron Swartz zu sehen.

Von der Website

Dies ist eine Website für große Datenmengen und die Menschen, die sie lieben: die Schaber und Raupen, die sie, die Akademiker und Geeks sammeln, die sie verarbeiten, die Designer und Künstler, die visualisieren sie. Es ist ein Ort, an dem sie Tipps und Tricks, entwickeln und mit anderen teilen Tools zusammen austauschen können, und beginnen ihre besonderen Projekte zu integrieren.

2

Ich habe einige Arbeit mit den Wikimedia Download-Sets getan, die riesige XML-Dateien sind. Leider scheint der Download-Server derzeit Probleme mit Speicherplatz zu haben, so dass viele der Datensätze nicht verfügbar sind. Aber wenn es verfügbar ist, ist der gesamte englische Wikipedia-Datensatz mit vollständiger Historie 2,8 TB (18 GB komprimiert).

5

Vielleicht möchten Sie sich die Daten für die American Statistical Association ansehen data expo - es ist Flugdaten für alle kommerziellen Flüge in den USA für die letzten 20 Jahre - 120 Millionen Datensätze, 11 Gig Daten.

2

Eine Anzahl von del.icio.us Benutzer (einschließlich mir selbst) Tag-Seiten, die öffentliche Daten enthalten, die das "publicdata" -Tag verwenden. Sie können das Archiv here finden und einen RSS-Feed für dieses Tag abonnieren here. Abonnieren Sie den Feed und Sie werden einen stetigen Strom interessanter Datasets sehen, die im Web erscheinen.

Nicht alle diese Datensätze sind groß, aber sie sind oft interessant.

0

Wenn Sie daran interessiert sind, die Art der Daten, die Sie erhalten, zu personalisieren, sehen Sie sich Kimono Labs an.Es ist Web-Scraping-Software, die Sie verwenden können, um fast jede Website kostenlos ohne Zeilenlimit zu kratzen. Richten Sie einfach eine API ein (Sie können ihren URL-Generator verwenden, um mehrere URLs gleichzeitig zu scrappen) und verwenden Sie dann Ihr persönliches Dataset als JSON, CSV oder RSS.