2016-07-21 26 views
1

Ich verwende svm light, um ein Modell für die binäre Klassifizierung zu trainieren. Mit dem Modell habe ich einige Beispiele getestet. Ich war überrascht, die Ausgabe der Vorhersagedatei zu sehen, sie enthält Werte größer als 1 sowie kleiner als -1. Ich dachte, der Bereich ist [-1,1]. Mache ich etwas falsch?Werte größer als 1 in SVM-Vorhersagedatei

+0

Warum sollten Sie eine Reichweite haben [-1; 1]? Wenn es für die Klassifizierung mit zwei Klassen ist, sollten Sie {-1; 1} haben. Einige Varianten geben eine Wahrscheinlichkeit innerhalb von -1; 1 an, wenn sich die neuen Daten im Gutter befinden. Andere suchen nach der Entfernung zur Rinne und haben daher einen anderen Wert als {-1; 1}. Würde es Ihnen etwas ausmachen, ein bisschen mehr zu erklären, was Sie erwarten und warum? –

+0

@IgorOA, mein Verständnis war die Vorhersage ist -1 und +1 für negative und positive Beispiel jeweils. Aber die Vorhersage kann ein beliebiger Wert zwischen -1 und 1 sein, als Maß für die Sicherheit (-1/+ 1 bedeutet 100% sicher). Aber das scheint falsch zu sein. – Rakib

Antwort

1

Es macht Sinn, warum die Werte nicht durch das Intervall von [-1, 1] begrenzt sind, wenn Sie verstehen, wie die SVM funktioniert. Eine SVM versucht, die Linie zu zeichnen, die die negativen und positiven Datenpunkte trennt, während sie ihre Abstände von der Linie maximiert.

Die Werte in der Vorhersagedatei repräsentieren die Abstände der Daten von der SVM-optimalen Hyperebene, wobei positive Werte auf der positiven Klassenseite der Hyperebene und negative Werte auf der negativen Klassenseite der Hyperebene sind. Diese Strecke kann beliebig groß oder klein sein und ist nicht begrenzt, wie durch dieses Bild zu sehen ist:

A data point could be infinitely far from the hyperplane in feature space.

ich einige SVM-Implementierungen gesehen habe, wie Weka's implementation von Platt's SMO, die die Werte zu normalisieren, so dass sie Vertrauen sind Werte auf der positiven Klasse begrenzt durch das Intervall von [0, 1], aber beide Wege funktionieren gut, um zu bestimmen, wie sicher eine SVM auf einer Klassifikation ist, da ein Datenpunkt weiter von der Hyperebene sicherer ist als einer nahe der Hyperebene .