2008-12-04 7 views
7

Auf dem Stackoverflow-Podcast dieser Woche erwähnte Jeff, dass er 2004 ein Skript schrieb, das Google mit 110.000 englischen Wörtern anfragte und eine Datenbank mit der Anzahl der Treffer für jedes Wort sammelte. Sie verwenden dies auf Stackoverflow, z.B. für die "Related" -Liste auf der rechten Seite jeder Fragenseite.Kostenlose Datenbank von Google Worthäufigkeiten?

Da es schwierig wäre, eines von diesen heute mit einem ähnlichen Skript zu erstellen (wie Joel sagte, "bei 30.000 Wörtern klopft es an Ihre Tür"), fragte ich mich, ob jemand etwas Aktuelleres weiß , kostenlose Datenbank von Google-Worthäufigkeiten (zB für IT-Wörter, die sich seitdem sicherlich geändert haben, wie zB Jquery, Ruby, Azur, etc.).

+0

Ein Link zu dem relevanten Podcast wäre interessant zu haben. – hippietrail

Antwort

4

Eine schnelle Google-Suche (!) Ergibt ein paar Treffer. Diese sieht vielversprechend aus:

Aber es ist nicht auf IT-Wörter ausgerichtet.

0

Sie können eine Liste auf Ihre Freunde/Kollegen aufteilen und ausreichend große Timeouts verwenden, sodass Sie 50.000 Anfragen pro Tag pro IP nicht überschreiten und die Ergebnisse dann zusammenführen. Ich bin mir nicht sicher über die Rechtmäßigkeit dieses Ansatzes, aber die Wahrscheinlichkeit, dass Google-Nutzer mit dieser Methode "an deine Tür klopfen", ist ziemlich gering.

HINWEIS: bearbeitet nach Angaben von Skuta bereitgestellt

1

Laut Google Sie 50.000 Abfragen pro Tag pro IP senden. Ich glaube nicht, dass es illegal ist, es zwischen deinen Freunden zu teilen.

Ich hatte ähnliches Problem mit Abfragen pro Tag pro IP, aber wir lösten es durch völlig andere Annäherung.

+0

Macht es Ihnen etwas aus, diesen "anderen" Ansatz zu teilen? –

2

Es ist vielleicht zu spät, um dies zu beantworten, aber ich kann Ihnen einen anderen Weg vorschlagen. Anstatt "Anzahl der Treffer" von Google zu erhalten, um eine Annäherung davon zu berechnen. Holen Sie sich eine große Sammlung von Textseiten (Corpus) und zählen Sie die Anzahl jedes Wortes darin. Ich habe das mit der Wikipedia gemacht. Es gibt eine Dump aller Wiki-Seiten. Sie müssen nur einen Parser schreiben, um Text zu extrahieren und Wörter zu zählen. Das Ergebnis ist eine Liste von mehr als 110K Wörtern (mindestens 2M-3M). Wenn Sie wirklich Zahlen im Google-Suchergebnis benötigen, können Sie eine Stichprobe von Wörtern abrufen und Google abfragen und dann die berechneten Werte normalisieren, damit sie den Google-Werten entsprechen. Ich hoffe, das hilft.