Ich möchte LDA Topic Modeling auf einem 9GB Corpus machen. Der Plan besteht darin, das LDA-Modell unter Verwendung von MALLET für 1000 Iterationen mit 100 Themen zu trainieren, wobei Hyperparameter alle 10 Iterationen nach einer Burn-In-Periode von 200 Iterationen optimiert werden. Ich arbeite an 64-Bit-Win8, Computer verfügt über 16 GB RAM, Intel® Core ™ i7-4720HQ Prozessor. Kann mir jemand sagen, wie viel Zeit ich damit verbringen sollte? Sprechen wir über Stunden oder Tage? Dies ist die erste Frage, die ich hier stelle, also lassen Sie mich wissen, wenn ich einige wichtige Informationen übersprungen habe.Wie viel Zeit für ein Thema Modellierung über MALLET auf 9GB Korpus
Antwort
Also, nur für den Fall, dass jemand interessiert ist, am Ende habe ich das Thema Modellierung (wie in Frage gestellt) ausgeführt, und es dauerte fast zwei Tage, bis es zu beenden (1 Tag 20 Stunden).
Die genaue Zeit hängt von der Komplexität des Korpus ab. Das Sampling wird schneller beginnen, wenn das Modell besser passt, da die Unsicherheit sinkt. Ich würde wohl auf die Bestellung einen Tag warten um ein gutes Modell zu bekommen.
Das Importieren von Daten kann der schwierigste Teil sein. Der Befehl "bulkload" wurde entwickelt, um den Speicherbedarf für Importe zu reduzieren, die aus einer großen Datei mit einem Dokument pro Zeile bestehen. Dieser Befehl wird auch Vokabelbeschneidung basierend auf der Worthäufigkeit durchführen.
Für ein Korpus dieser Größe mit Hyperparameter-Optimierung sollten Sie mehr Themen verwenden. Die Verwendung von 500 Themen wird wahrscheinlich nicht länger als 100 Themen umfassen, aus dem gleichen Grund, aus dem die Stichproben schneller werden, wenn das Modell besser passt.
Vielen Dank für die Beantwortung meiner Frage und geben Sie mir einen zusätzlichen Ratschlag. Alles Gute! – GileBrt
@jknappen Ja, ich bin mir dessen bewusst. Das Problem ist, dass ich immer noch nicht genug Reputation dafür habe. Sobald ich es bekommen habe, werde ich sicherstellen, dass ich upvote. :) – GileBrt