2011-01-05 13 views
3

Twitter vor kurzem announced, dass Sie den Rang eines beliebigen Twitter-Nutzer mit hohen Genauigkeit durch Eingabe ihrer Mitläufer zählen in der folgenden Formel annähern können:Potenzgesetz Kurvenanpassung für soziales Netzwerk abfragt

exp ($ a + $ b * log (FOLLOWER_COUNT))

wo $ a = 21 und $ b = -1,1

das ist natürlich viel effizienter als für einen bestimmten Benutzer zählen die gesamte Liste der Benutzer durch Folger Sortieren.

Wenn Sie einen ähnlichen Datensatz von einer anderen sozialen Website haben, wie könnten Sie die Werte für $ a und $ b ableiten, um in diesen Datensatz zu passen? Grundsätzlich eine Liste von Frequenzen, deren Verteilung als Potenzgesetz angenommen wird.

+0

Beachten Sie, dass ist nicht das, was „log-normal“ bedeutet ... –

+0

linear auf log/log-Skala ist, was ich wirklich –

Antwort

6

Sie haben das folgende Modell:

y = exp(a + b.log(x)) 

, die gleich ist:

log(y) = a + b.log(x) 

Deshalb, wenn Sie Protokolle der Datensatz nehmen Sie mit einem linearen Modell am Ende, so dass Sie kann dann linear regression verwenden, um die Best-Fit-Werte von a und b zu bestimmen.

Allerdings klingt das alles ziemlich bedeutungslos für mich. Wer sagt, dass eine bestimmte Netzwerkseite den Rang eines Nutzers anhand dieser Art von Beziehung bestimmt?

+0

+1 gemeint, sie nicht und Twitter nie gesagt, dass sie es tun. Das entspricht nur Ihrem Rang nach Anzahl der Follower, nicht wirklich 'Rang' –

+0

@Kirk: In der Tat habe ich zunächst missverstanden, was der OP mit "Rang" meinte. Ich denke, die rhetorische Frage wird: Wer sagt, dass die Verteilung für eine bestimmte Netzwerkseite dieser Art von Beziehung folgt? –

+0

Entschuldigung, ich habe missverstanden, was du meintest! Ich nehme an, dass dies davon ausgeht, dass die Verteilung logarithmisch normal ist oder dem "Potenzgesetz" folgt, was wahrscheinlich eine einigermaßen vernünftige, aber völlig unzuverlässige Annahme ist. –

1

Sie könnten das Microsoft Excel-Add-In namens "Solver" verwenden. Es ist in Excel enthalten, wird aber nicht immer standardmäßig installiert. Suchen Sie in Ihrer Excel-Version nach "Add-In" und "Solver" und laden Sie sie.

Nach der Installation des Add-Ins, wie folgt vorgehen:

  1. Erstellen Sie ein neues Arbeitsblatt. In Spalte A würden Sie die ID jedes einzelnen setzen (optional)

  2. Spalte B, die Anzahl der Follower.

  3. Wenn die Daten nicht sortiert ist, Sortierung mittels es Spalte B.

  4. Auf Spalte C Put-Ranking (Sie wissen, 1, 2, 3 usw.)

  5. Put Wert 21 bei Zelle D1 und -1.1 bei Zelle E1. Das sind die Twitter-Werte für $ A und $ B. Das sind unsere Grundwerte. Sie werden sich möglicherweise ändern.

  6. Bei Zelle setzen D2 eine Formel wie folgt aus: = exp ($ E $ 1 + $ F $ 1 * log (B2))

  7. Kopieren auf der Formel bei D2 am Ende der Daten.

  8. In Zelle E2 eine Formel setzen, um das tatsächliche Ranking mit dem Ergebnis der Formel (d. H. Varianz) zu vergleichen. z. B. = sqrt (c2 * c2 + d2 * d2). Je näher der tatsächliche und der vorhergesagte Wert sind, desto höher ist der Wert 0.

  9. Zelle E2 an das Ende der Daten kopieren.

  10. Am Ende der Daten in Spalte E die Varianzen addieren. Nehmen wir an, Ihre Daten haben 10.000 Werte. Bei Zelle E10001 enter = sum (e2: e10000).

  11. Gehen Sie zum Menü Daten und suchen Sie nach dem "Solver" -Menü. Der Standort kann sehr abhängig von Ihrer Version von Excel sein. Verwenden Sie die Funktion "Hilfe", um nach der Zielsuche zu suchen.

  12. Folgen Sie den Anweisungen (ich muss jetzt gehen) in der Hilfe, um das Solver-Add-In zu verwenden. Offensichtlich sind die sich ändernden Zellen D1 und E1 und das Ziel ist, E10001 (die Summe der Varianzen) so nahe wie möglich an Null zu bringen.