Ich habe ein Problem, bei dem ich versuche, das überwachte Lernen in Python zu verwenden. Ich habe eine Reihe von x, y Koordinaten, von denen ich weiß, dass sie zu einem Label in einem Datensatz gehören. In der anderen habe ich nur die x, y Koordinaten. Ich werde einen Satz verwenden, um den anderen zu trainieren, mein Ansatz ist der des überwachten Lernens und der Verwendung eines Klassifizierungsalgorithmus (lineare Diskriminanzanalyse), da die Anzahl der Markierungen diskret ist. Obwohl sie diskret sind, sind sie zahlreich (n = ~ 80.000). Meine Frage, bei welcher Anzahl von Labels ich eine Regression über die Klassifikation in Betracht ziehen sollte, bei der die Regression besser für kontinuierliche Labels geeignet ist. Ich benutze SciKit als mein maschinelles Lernpaket und verwende astronml.orgs hervorragend als tutorial.Wie viele Labels sind zulässig, bevor die Regression über die Klassifizierung verwendet wird?
-1
A
Antwort
0
Es geht nicht um Zahlen. Es geht darum, kontinuierlich zu sein oder nicht. Es spielt keine Rolle, ob Sie 80.000 Klassen oder noch mehr haben. Solange es keine Korrelation zwischen Nachbarklassen gibt (z. B. Klasse i und i + 1), sollten Sie die Klassifizierung (nicht Regression) verwenden.
Regression ist nur dann sinnvoll, wenn die Labels fortlaufend sind (reelle Zahlen für zB.) Oder zumindest wenn eine Korrelation zwischen benachbarten Klassen besteht (z. B. wenn die Zahl die Zahl zeigt, kann man Regression und dann Runde machen) up die Ergebnisse).