-1

Ich bin neu in der Welt der Datenwissenschaft und versuche, die Konzepte auf die Ergebnisse der ML zu verstehen. Ich habe begonnen, scikit - Clustering Beispiel zu verwenden. Die Verwendung der Scikit-Bibliothek ist überall gut dokumentiert. Aber alle Beispiele gehen von der Annahme bereitgestellter numerischer Daten aus.Clustering Scikit - Business-Daten in maschinelle Lerndaten umwandeln

Wie konvertiert ein Datenwissenschaftler nun Geschäftsdaten in maschinelle Lerndaten? Nur um ein Beispiel zu geben, ist hier eine Kunden- und Vertriebsdaten I vorbereitet haben ..

Customer Data

Order Data

Das erste Bild, um die Kundendaten mit einigen Parametern eine ganze Zahl, String und Boolesche Werte zeigt

Das zweite Bild zeigt die historischen Verkaufsdaten für diese Kunden.

Wie werden nun solche realen Geschäftsdaten übersetzt, um sie einem Machine Learning-Algorithmus zuzuführen? Wie konvertiere ich alle Daten in einen gemeinsamen Faktor, den der Algorithmus verstehen kann?

Dank K

Antwort

0

Technicaly, gibt es viele Möglichkeiten, wie One-Hot-Codierung, Standardisierung und für schiefe Attribute in logspace gehen.

Aber das Problem ist nicht nur von einer technischen Natur.

Finding einen Weg ist nicht genug, aber Sie brauchen zu finden, die wirklich gut für Ihr Problem funktioniert. Dies ist normalerweise sehr unterschiedlich von Problem zu Problem. Es gibt keine "schlüsselfertige Lösung".

+0

Danke @ Antony-Mousse. Gibt es einen Ort, wo ich diese Techniken nachlesen kann? vielleicht mit einigen Beispielen? Ich verstehe, dass dies ein komplexes Thema ist und etwas Exp benötigt, um dies zu tun. – Kiran

0

Nur Ergänzung zu kommentieren von @ Anony-Mousse, können Sie Won/Lost Spalte in Wert 1, 0 konvertieren (z. B. 1 für Won, 0 für Lost). Wenn Sie für die Spalte Y 3 eindeutige Werte in der Spalte haben, können Sie A in [1, 0, 0] und B in [0, 1, 0] und C in [0, 0, 1] umwandeln (sogenannte One-Hot-Codierung). Gleiches auf Z Spalte, können Sie TRUE Spalte zu 1 und FALSE zu (oder True oder False jeweils) konvertieren.

Um 2 Tabellen- oder Excel-Dateien zusammenzuführen, können Sie die zusätzliche Bibliothek pandas verwenden, mit der Sie zwei Datenrahmen zusammenführen können, z. df1.merge(df2, on='CustID', how='left'). Jetzt können Sie Ihr Feature-Set auf scikit lernen.

+0

Danke! Das Beispiel, das ich gab, war ein zufälliges Beispiel. In einem echten Bussystem habe ich viele solche Funktionen, die übersetzt werden müssen, bevor sie an Scikit übergeben werden. Gibt es einen Ausgangspunkt, von dem ich diese Tricks lernen kann? – Kiran

+0

Ich würde sagen, es ist eine Mischung aus Buch und Code-Dokumentation. Mein Lieblingsbuch zum maschinellen Lernen ist Pattern Recognition and Machine Learning by Bishop.Nach dem Lesen werden Sie eine grundlegende Terminologie zum Maschinellen Lernen kennen und können nun Dinge auf Google oder in der Dokumentation suchen. Für die Dokumentation, wenn ich One-Hot-Encoding machen möchte, werde ich direkt auf scikit lernen Seite http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html gehen. Eine Menge gutes Beispiel ist auch auf einer Seite wie Kaggle, wo Leute mit maschinellem Lernproblem umgehen :) – titipata