Vielen Dank für diese Diskussion. Ich denke ich weiß wo mein Problem war.
Der Befehl "gsample" kann Schichten basierend auf verschiedenen Variablen auswählen. Daher dachte ich, ich müsste drei verschiedene Stratum-Variablen definieren. Aber die Lösung sollte einfacher sein.
Es gibt insgesamt 12 Schichten (die großen Firmen mit hoher Intensität in Sektor 1, die kleinen Firmen mit hoher Intensität in Sektor 1 usw.), wobei jedes Unternehmen in der Stichprobe in eine der Schichten fällt.
Alles, was ich tun muss, ist eine Variable "stradaident" mit Werten von 1 bis 12 zu erstellen, die die verschiedenen Schichten identifizieren. Ich tue dies für den Bevölkerungsdatensatz, also ist die Anzahl der Firmen, die in jede Schicht fallen, repräsentativ für die Bevölkerung. Der folgende Code liefert mir eine geschichtete Zufallsauswahl, die für die Bevölkerung repräsentativ ist.
gsample 10, percent strata (strataident) wor
Dieser Befehl auch und ist viel einfacher, siehe das Beispiel in 1 funktioniert:
gsample 10, percent wor strata(size sector intensity)
Was ist verhältnismäßig Probenahme außer in jeder Schicht die gleiche Fraktion der Auswahl? –
Proportional bedeutet (zumindest von meinem Verständnis; bitte korrigieren Sie mich, wenn ich falsch liege) Sie wählen Themen in jeder Schicht basierend auf der Verteilung in der Bevölkerung, z. 35% der Bevölkerung sind große Unternehmen, also sollten am Ende 35% der großen Unternehmen in Ihrer Stichprobe sein. – Tobias
In diesem Fall ist die Schichtung irrelevant. Ich denke, dass die Verwirrung hier ein statistischer Irrtum sein kann, dass eine Stichprobe eine Miniaturreplik der Bevölkerung sein soll. Suchen Sie eine Reihe von Arbeiten von Kruskal und Mosteller in _International Statistical Review_ 1979f. –