2016-07-27 32 views
1

Ich habe zwei Gruppen, "in" und "out", und Item-Kategorien, die auf die Gruppen aufgeteilt werden können. Zum Beispiel kann ich Artikelkategorie A mit 99% "in" und 1% "out" und Artikel B mit 98% "in" und 2% "out" haben.Gibt es eine Ranking-Metrik basierend auf Prozentsätzen, die größere Größen bevorzugt?

Für jedes dieser Elemente habe ich tatsächlich die Anzahl, die in/out sind. Zum Beispiel könnte A 99 Artikel in und 1 Artikel heraus haben, und B könnte 196 Artikel haben, die drin sind und 4, die aus sind.

Ich möchte diese Elemente auf der Grundlage des Prozentsatzes, der "in" ist, einstufen, möchte aber auch Elementen mit größeren Gesamtpopulationen Priorität einräumen. Dies liegt daran, dass ich mich auf Artikel konzentrieren möchte, die für die "in" -Gruppe sehr relevant sind, aber immer noch eine große Anzahl von Artikeln in der "out" -Gruppe haben, die ich verfolgen könnte.

Gibt es eine Art von Score, die das tun könnte?

+0

[Cross-Post] (http://stats.stackexchange.com/questions/225975/is-there-a-ranking-metric-based-on-percentages-that-favors-larger-magnitudes) – unor

Antwort

1

Ich landete schließlich bayesian Lungs mit bis, die in this post. Die Technik empfohlen wurde, ist in this wikipedia article und beschrieben gründlich in this post by Evan miller und this post by Paul Masurel kurz beschrieben.

Bei der bayesischen Mittelung werden "vorherige Werte" verwendet, um den Zähler und den Nenner in Richtung der erwarteten Werte zu beeinflussen. Im Wesentlichen werden der erwartete Zähler und der erwartete Nenner zu dem tatsächlichen Zähler und Nenner addiert. In dem Fall, in dem der Zähler und der Nenner klein sind, haben die früheren Werte eine größere Auswirkung, weil sie einen größeren Anteil des neuen Zählers/Nenners repräsentieren. Wenn die Zähler und Nenner an Stärke zunehmen, nähert sich der bayesische Durchschnitt aufgrund des erhöhten Vertrauens dem tatsächlichen Durchschnitt.

In meinem Fall war der vorherige Wert für den Durchschnitt ziemlich niedrig, was einen Durchschnittswert mit kleinen Nennern nach unten brachte.

1

Ich wäre versucht, einen probabilistischen Rang — die Wahrscheinlichkeit, dass ein Artikel Kategorie aus der Gruppe mit den tatsächlichen Nummern für diese Kategorie ist. Dies erfordert, dass einige Annahmen über den Datensatz getroffen werden, einschließlich der Frage, warum eine Kategorie möglicherweise Einträge außerhalb der Gruppe enthält. Vielleicht werfen Sie einen Blick auf die binomial test oder die Mann-Whitney U test. Sie können sich auch andere Arten von nonparametric statistics ansehen.

+0

Danke! Ich sollte einige zusätzliche Zahlen klären, die ich habe. Für eine Kategorie kenne ich die Anzahl, die ein- und ausgehen. Ich kenne auch die Gesamtzahl, die in allen Kategorien vorhanden sind, sowie die Gesamtzahl, die in allen Kategorien verfügbar ist. Ich werde mir die Links ansehen, die Sie zur Verfügung gestellt haben, und sehen, ob sie funktionieren. – neelshiv

+0

@neelshiv - Ich dachte, du hättest all diese Informationen. Was Sie nicht angegeben haben, ist, ob Sie Wahrscheinlichkeitsverteilungen haben, um die Daten zu erklären. Deshalb schlage ich den Einsatz nichtparametrischer Methoden vor, da diese weniger Annahmen erfordern (natürlich auf Kosten der Unterscheidungskraft; hier gibt es kein kostenloses Mittagessen). Wenn Sie bereit sind, eine bestimmte Verteilung anzunehmen, können Sie für Ihr Ranking geeignete parametrische Testwerte verwenden. –

+0

hat sich gequält. Lassen Sie mich über diese Themen nachdenken und ein paar Dinge ausprobieren, und ich werde in einem Tag oder so berichten. – neelshiv