2016-07-29 32 views
0

Ich habe einige Daten, die scheinen, einem Muster zu folgen und können visuell in drei Klassen klassifiziert werden. Dieses Bild zeigt zwei Proben jeder Klasse: -Ein Maß dafür, wie gut meine Daten einem Muster entsprechen

This image Es scheint, dass:

First class: Five Gaussian functions can be fitted 
Second class: Two Gaussian functions can be fitted 
Third class: Non of the above. 

Gibt es eine Maßnahme, die sagen könnte: für jede Probe „wie gut 5 Gauß-Funktionen ausgestattet werden kann“ und " wie gut 2 Gaußfunktionen angepasst werden können "? Dann kann ich diese Maßnahmen verwenden, um meine Daten zu klassifizieren?

Bitte lassen Sie mich wissen, wenn Sie an eine bessere Lösung für dieses Problem denken.

+1

Dies betrifft die Modalität der statistischen Verteilungen. Ich schlage vor, du versuchst es bei Cross validiert zu überfragen. Ich denke, du solltest nach "lokalen Minima" suchen. Google plus die Sprache, die Sie verwenden, z. MATLAB. – noumenal

+0

Haben Sie in Betracht gezogen, eine Kreuzkorrelation zu verwenden? – willpower2727

+0

Erwarten Sie immer eine Summierung von Gaussians mit gleicher Varianz, aber unterschiedlichem Mittelwert? Bis auf die "keine Korrelation" natürlich. –

Antwort

1

Der harte Weg wäre die folgende:

  • eine Mischung aus Gaussians Fit mit beiden 5 und 2.
  • die Wahrscheinlichkeit Punktzahl Ihrer Daten überprüfen jedes der angepassten Mischung aus Gaussians gegeben.
  • Es ist sehr wahrscheinlich, dass 5 immer eine höhere Punktzahl als 2 haben wird, schon allein deshalb, weil es mehr Punkte mit hoher Wahrscheinlichkeit erlaubt.
  • Versuchen Sie zu überprüfen, ob der Unterschied in den Bewertungen groß genug ist, damit Sie überlegen, welche Sie auswählen sollen.

Beispiel:

Wenn die Punktzahl für 2 für 5 0,8 und die Wunde ist 0,81, gab es sehr wenig Gewinn zwischen wechselnden Modellen, damit Sie sicher 2 eine bessere Passform annehmen können.

Wenn jedoch die Punktzahl für 2 0,2 ​​ist und die Punktzahl für 5 0,8 ist, war der Gewinn signifikant, was bedeutet, dass 5 möglicherweise besser passt.

Eine andere Möglichkeit besteht darin, 1D automatische Clustererkennungstechniken zu verwenden. Dirichlet Prozesse kommen mir in den Sinn.