Mit Blick auf Kaggel Job Salary Prediction, sehe ich numerische Features (wie Kategorie) und textuelle (wie FullDescription).Wie geht man mit der Kombination von Text und numerischen Funktionen um?
Wie gehe ich zum Training solcher Daten vor? Ich dachte über die Vektorisierung des Textes unter Verwendung TfidfTransformer nach, jedoch schafft es spärliche Matrix, die viele Lernalgorithmen (wie RandomForestRegressor) verweigern, mit zu arbeiten. Wenn ich den Feature-Vektor für den Text habe, wie kombiniere ich ihn dann mit anderen Features?
Gibt es irgendwelche Hinweise, wie man mit solchen Daten arbeitet?
Danke!
Danke, das ist eine großartige Idee - ich werde es ausprobieren. – lazy1
Lassen Sie uns wissen, ob das kombinierte Modell besser als nur ein lineares Modell für die Textfunktionen oder eine zufällige Gesamtstruktur nur für die Nichttextfunktionen ist. – ogrisel
BTW: Welcher Regressor arbeitet mit spärlicher Matrix? – lazy1