2016-06-04 27 views
1

Bezüglich der Eigenschaften von k-nächsten Nachbarn, auf Seite 38 von Elements of Statistical Learning, schreiben die Autoren:Was ist die Intuition hinter der Beziehung zwischen den Dimensionen eines Modells und der Leistung von k-nächsten Nachbarn?

"... wie die Dimension p wird groß, so gilt die metrische Größe der k-nächste Nachbarschaft Wenn wir uns also als Ersatz für die Konditionierung auf die nächste Nachbarschaft einlassen, werden wir kläglich versagen. "

Bedeutet dies, dass, wenn wir k konstant halten, wenn wir einem Modell Funktionen hinzufügen, der Abstand zwischen den Ergebnissen und damit die Größe der Nachbarschaften zunimmt, so dass die Varianz des Modells zunimmt?

Antwort

1

Die curse of dimensionality kommt in verschiedenen Formen. Speziell für maschinelles Lernen gibt es eine Diskussion here.

Im Allgemeinen wird mit zunehmender Dimensionalität der relative Unterschied in den Abständen zwischen Punkten zunehmend klein. Für d = 1000 Dimensionen ist es sehr unwahrscheinlich, dass ein Punkt A in einem zufälligen Datensatz wesentlich näher an einem gegebenen Punkt B liegt als jeder andere Punkt. In gewisser Weise kann dies dadurch erklärt werden, dass es mit d = 1000 sehr unwahrscheinlich ist, dass ein Punkt A in der großen Mehrheit der Dimensionen näher bei einem Punkt B liegt (zumindest unwahrscheinlich näher als irgendein anderer beliebiger Punkt).

Ein weiterer Aspekt ist, dass die volumetrischen Eigenschaften für die Erhöhung von "d" unintuitiv werden. Zum Beispiel, selbst wenn man ein relativ moderates d = 25 annimmt (wenn ich mich richtig erinnere), ist das Volumen eines Einheitswürfels (Länge der Kante = 1) 1.000.000 größer als das Volumen der Einheitskugel (Kugel mit Durchmesser = 1). Ich erwähne das, weil Ihr Zitat die "metrische Größe" erwähnt, aber ich bin mir nicht sicher, wie sich dies auf kNN auswirkt.

+0

Das hilft sehr. Ich glaube, dass die "metrische Größe", die mir auch nicht klar war, in diesem Link gut erklärt wird, insbesondere durch die zweite Antwort, die in dem von Ihnen angegebenen zweiten Link bereitgestellt wurde. –