2016-06-01 3 views
0

Also habe ich eine Frage von meiner Datenbank-Klasse, um den Abstand zwischen zwei Werten des gleichen Attributs zu finden (Attribut: Arbeitstyp; und die möglichen Werte: Elektrik, Sanitär, Reparaturen). also die Entfernung zwischen Sanitär und Reparaturen. Ich konvertierte die Werte in Unterattribute und gebe Binärzahlen ein, um das Vorhandensein oder Nichtvorhandensein des Werts darzustellen, so dass die neuen Werte wie folgt aussehen (Elektrik: 100, Sanitär: 010, Reparaturen: 001). Ich kann jetzt die Hamming-Distanz zwischen den beiden Werten berechnen. Aber meine Frage ist, in der realen Welt, warum sollten wir überhaupt den Abstand zwischen zwei Nominalwerten wissen wollen, wenn sie offensichtlich schon anders sind und einer nicht wertvoller ist als der andere?Warum möchten wir den Abstand zwischen zwei Nennwerten wissen?

+0

Wenn A "näher" an B als an C ist, dann ist A B ähnlicher als C. Sie können es zum Vergleichen von Ähnlichkeit, Clustering, etc. verwenden – Fabricator

+0

Das macht Sinn, weil sie alle unterschiedlich sind, wird es ergeben in 3 klar getrennten Clustern oder? – seriallchiller

Antwort

0

Solange Sie nur haben solche Variablen es wenig Nutzen bringt.

Aber vorausgesetzt, Sie haben zusätzlich die Attribute "Alter" und "Einkommen", und Sie möchten diesen Datensatz zusammenfassen, dann benötigen Sie eine Entfernungsfunktion.

Leider ist binäre Codierung ein Hack, der nicht sehr gut funktioniert. Sie müssen immer noch sorgfältig die Daten normalisieren, aber was sind die richtigen Gewichte für Alter, Einkommen, Job? Sie erhalten ein Ergebnis, aber mit anderen Gewichten können Sie auch ein anderes Ergebnis erzielen.