2016-03-24 30 views
0

Wir verwenden den ESS-Datensatz, sind jedoch nicht sicher, wie mit dem Problem fehlender Werte im SAS Enterprise Guide verfahren werden soll. Unsere abhängige Variable ist "subjektives Wohlbefinden" und zielt darauf ab, eine große Anzahl von Kontrollvariablen miteinzubeziehen - daher haben wir eine Situation, in der wir einen Datensatz haben, der viele fehlende Werte enthält.SAS Enterprise-Handbuch, verschiedene Verfahren für fehlende Variablen

Wir wollen nicht "listenweise Löschung" verwenden. Stattdessen möchten wir die verschiedenen Missings auf verschiedene Arten behandeln, abhängig von der Antwort des Befragten: "keine Antwort", "Nicht zutreffend", "Verweigerung", "Weiß nicht". Zum Beispiel planen wir eine paarweise Löschung von nicht anwendbaren, während wir z. der Mittelwert für einige andere Antworten - abhängig von der Frage (unter der Annahme, dass die Antwort des Befragten Informationen über MCAR, MAR, NMAR liefert).

Unsere wichtigsten Fragen sind:

  • Derzeit unsere fehlenden Variablen markiert sind auf unterschiedliche Weise in dem Datensatz (99, 77, 999, 88 etc.), sollten wir diese Werte in Excel, bevor Sie fortfahren ersetzen im SAS Enterprise Guide? Wenn ja - wie sollten wir sie am besten ersetzen, da sie unterschiedlich behandelt werden sollen?
  • Wie sagen wir SAS Enterprise Guide, verschiedene Missings auf unterschiedliche Weise zu behandeln?
  • Wenn wir Dummy-Variablen verwenden, um Verweigerungen für z.B. Einkommen, wie können wir diese in die finale Regression einbeziehen?

Wir haben versucht, darüber zu lesen, aber ein wenig verwirrt sind, so würden wir wirklich zu schätzen jede Hilfe :)

+0

Ja, Sie sollten Ihre fehlenden vor der Modellierung ersetzen - aber tun Sie es in EG nicht Excel.Sie können Ihre Änderungen auf diese Weise verfolgen, und wenn Sie ein Modell ausführen und Ihre Meinung ändern, wie mit einem bestimmten fehlenden Fall umzugehen ist, ist es einfacher zu beheben. Unter Imputation versteht man das Ausfüllen fehlender Werte - ich bin mir nicht sicher, wie genau EG das erreicht. Diese Frage wird auch besser auf CrossValidated gepostet, da sie mehr auf statistische Methoden als auf Programmierung bezogen ist. – Reeza

+0

Willkommen bei SO. Bitte geben Sie ein [reproduzierbares Beispiel] an (http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example) ... Auf ein Minimum, (1) gibt es keine Erklärung des "ESS-Datensatzes" und (2) Ihre gewünschte Behandlung fehlender Werte ist völlig unklar. Bitte klären Sie beide. –

Antwort

1

Auf einem technischen Hinweis, bietet SAS spezielle fehlende Werte: .a .b .c etc . (nicht Groß-/Kleinschreibung beachten). Ersetzen Sie die Zahlenwerte in SAS, z. 99 =.a77 = .b Entscheidungen Bäume können zum Beispiel diese als separate Werte behandeln.

Um die Informationen der fehlenden Beobachtungen in einem Regressionsmodell zu behalten, müssen Sie eine Art Kompromiss machen (finden Sie die am wenigsten schädliche Lösung für Ihr Problem).

  • Eine klassische Lösung ist Dummy-Variablen zu erstellen und die fehlende Werte mit dem Mittelwert ersetzen. Fügen Sie sowohl die Dummies als auch die Originalvariablen in das Modell ein. Mögliche Probleme: Die Koeffizienten sind verzerrt, Multikollinearität, zu viele Kategorien/Variablen.

  • Ein anderer Ansatz wäre, Ihre Variablen in Kategorien zu BINNEN. Tun Sie es nur nach Wert (z. B. Dezile) und Sie können Informationsverlust leiden. Do it theory und können Sie Bestätigungsfehler erleiden.

  • Ein erweiterte Ansatz wäre, die Informationen Wert (http://support.sas.com/resources/papers/proceedings13/095-2013.pdf) Ihre unabhängigen Variablen zu berechnen. Dadurch ersetzen alle Werte einschließlich die Missings. Aus diesem Grund wird dies wiederum zu Voreingenommenheit und Verlust von Informationen führen. Aber könnte zumindest ein guter Schritt sein, um nützliche/nutzlose fehlende Werte zu identifizieren.