2016-05-07 12 views
0

Ich habe diesen Datensatz mit weltweiten bilateralen Handelsdaten für ein paar Jahre. Ich möchte ermitteln, welche Waren in dem vom Datensatz berücksichtigten Zeitraum am meisten exportiert wurden.Wie man Beobachtungen einer Variable organisiert und rankt?

Der Datensatz durch die folgenden Variablen zusammen:

  • „Jahr“
  • „hs2“, eine zweistellige Zahl enthält, die
  • „exp_val“ exportiert, die gut erzählt wird, so dass die Wert der Ausfuhr in einem bestimmten Jahr, für das gute
  • „exp_qty“, die exportierte Menge des gutes in einem bestimmten Jahr zu geben

Grundsätzlich würde Ich mag die Gesamtsumme der Menge für ein bestimmtes Gut exportiert bekommen, also eine Ausgabe wie

hs2 exp_qty 
01 34892 
02 54548 
... ... 

und so weiter. Im Moment gibt mir die Spalte "hs2" eine sehr große Anzahl von Beobachtungen und, wie Sie verstehen, wiederholen sie sich mehrmals (da die Variablen sowohl über die Zeit als auch über das Bestimmungsland variieren). Die Aufgabe wäre also, jede hs2-Nummer nur einmal mit dem entsprechenden Wert von "Gesamt" -Exporten zu haben.

Auch (aber das wäre nur ein Pluspunkt, ich könnte einfach die Zahlen selbst überprüfen) Es wäre nett, ein Ergebnis nach exp_qty sortiert zu bekommen, um eine Rangliste der am meisten exportierten Waren nach Menge zu haben.

Antwort

1

Die folgenden könnten einen Anfang bei dem, was Sie brauchen.

collapse (sum) exp_qty, by(hs2) 
gsort -exp_qty 

collapse fasst die Daten im Speicher auf einen Wert von Beobachtungen pro hs2, die Werte von exp_qty Summieren. gsort sortiert dann die ausgeblendeten Daten mit dem absteigenden Wert exp_qty, so dass die erste Beobachtung die größte ist. Weitere Details finden Sie unter help collapse und help gsort.

+0

Danke für die Hilfe, es hat perfekt funktioniert! Genau das, was ich brauchte – scoglio