2013-05-30 4 views
5

Mit Blick auf Kaggel Job Salary Prediction, sehe ich numerische Features (wie Kategorie) und textuelle (wie FullDescription).Wie geht man mit der Kombination von Text und numerischen Funktionen um?

Wie gehe ich zum Training solcher Daten vor? Ich dachte über die Vektorisierung des Textes unter Verwendung TfidfTransformer nach, jedoch schafft es spärliche Matrix, die viele Lernalgorithmen (wie RandomForestRegressor) verweigern, mit zu arbeiten. Wenn ich den Feature-Vektor für den Text habe, wie kombiniere ich ihn dann mit anderen Features?

Gibt es irgendwelche Hinweise, wie man mit solchen Daten arbeitet?

Danke!

Antwort

5

Ich würde zuerst ein lineares Modell auf den tf-IDF-Funktionen jedes Textfelds unabhängig lernen und die linearen Modelle Vorhersagen als ein zusätzliches Merkmal zu den anderen Funktionen hinzufügen und ein ExtraTreesRegressor oder GradientBoostedTreeRegressor auf den kombinierten Funktionen trainieren.

+0

Danke, das ist eine großartige Idee - ich werde es ausprobieren. – lazy1

+0

Lassen Sie uns wissen, ob das kombinierte Modell besser als nur ein lineares Modell für die Textfunktionen oder eine zufällige Gesamtstruktur nur für die Nichttextfunktionen ist. – ogrisel

+0

BTW: Welcher Regressor arbeitet mit spärlicher Matrix? – lazy1