Sunday 12 February 2017

Handling Fehlende Daten In Stata Forex

HINWEIS: Die IDRE Statistical Consulting Group wird im Februar die Website auf das WordPress CMS migrieren, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group mit einem Geschenk STATA Learning Module Fehlende Daten 1. Einleitung Dieses Modul untersucht fehlende Daten in STATA und fokussiert auf fehlende Zahlen. Es wird beschrieben, wie fehlende Daten in Ihren Rohdaten-Dateien angezeigt werden, sowie wie fehlende Daten in STATA logischen Befehlen und Zuweisungsanweisungen behandelt werden. Wir veranschaulichen einige der fehlenden Dateneigenschaften in STATA anhand von Daten aus einer Reaktionszeitstudie mit acht Probanden, die durch die Variable id angegeben sind. Und die Reaktionszeit der Versuchspersonen wurde zu drei Zeitpunkten gemessen (Versuch1 Versuch2 Versuch3). Die Eingabedatendatei wird unten gezeigt. Sie können feststellen, dass einige der Reaktionszeiten mit einem einzigen codiert sind. Wie dies bei dem Thema 2 der Fall ist. Die Person, die die Zeit für diesen Versuch mißt, mißt die Ansprechzeit nicht richtig, daher fehlen die Daten für den zweiten Versuch. 2. Wie STATA fehlende Daten in STATA-Prozeduren verarbeitet STATA-Befehle, die Berechnungen beliebiger Art durchführen, fehlende Daten fehlen, indem die fehlenden Werte ausgelassen werden. Allerdings ist die Art und Weise, dass fehlende Werte ausgelassen werden, nicht immer konsistent über Befehle, so let39s einen Blick auf einige Beispiele. Zuerst wollen wir unsere Reaktionszeitvariablen zusammenfassen und sehen, wie STATA die fehlenden Werte behandelt. Wie Sie in der Ausgabe unten sehen, fassen Sie die Berechnungsmethode mit 4 Beobachtungen für die Studien trial1 und trial2 und 6 für trial3 zusammen. Kurz gesagt, führte der Befehl summarise die Berechnungen auf allen verfügbaren Daten durch. Ein zweites Beispiel zeigt, wie der Befehl tabulation oder tab1 fehlende Daten verarbeitet. Wie zusammengefasst, verwendet tab1 nur verfügbare Daten. Beachten Sie, dass die Prozentangaben auf der Grundlage der Gesamtzahl der nicht fehlenden Fälle berechnet werden. Möglicherweise möchten Sie, dass die Prozentwerte aus der Gesamtzahl der Beobachtungen berechnet werden sollen und der Prozentsatz für jede in der Tabelle angezeigte Variable fehlt. Dies kann durch die fehlende Option nach der Tabellierung erreicht werden. Befehlen Sie Let39s, wie der korrelierte Befehl fehlende Daten verarbeitet. Wir würden erwarten, dass es die Berechnungen auf der Grundlage der verfügbaren Daten durchführen würde, und lassen Sie die fehlenden Werte. Hier ist ein Beispiel-Befehl. Die Ausgabe ist unten. Beachten Sie, wie die fehlenden Werte ausgeschlossen wurden. Stata führt Listenlöschung und nur Anzeige Korrelation für Beobachtungen, die nicht fehlende Werte auf alle Variablen aufgeführt. Stata ermöglicht auch paarweises Löschen. Für die Beobachtungen, die nicht fehlende Werte für jedes Paar von Variablen aufweisen, werden Korrelationen angezeigt. Dies kann mit dem Befehl pwcorr gemacht werden. Wir verwenden die obs-Option, um die Anzahl der Beobachtungen anzuzeigen, die für jedes Paar verwendet werden. Wie Sie sehen können, unterscheiden sie sich je nach der Anzahl der fehlenden. 3. Zusammenfassung der fehlenden Werte in STATA-Prozeduren zusammengefasst Für jede Variable wird die Anzahl der nicht fehlenden Werte verwendet. Tabelle Standardmäßig werden fehlende Werte ausgeschlossen und Prozentsätze auf der Anzahl der nicht fehlenden Werte basieren. Wenn Sie die fehlende Option auf dem Tab-Befehl verwenden, basieren die Prozentsätze auf der Gesamtzahl der Beobachtungen (nicht fehlende und fehlende) und der Prozentsatz der fehlenden Werte in der Tabelle. Corr Standardmäßig werden Korrelationen basierend auf der Anzahl der Paare mit nicht fehlenden Daten (paarweises Löschen von fehlenden Daten) berechnet. Mit dem Befehl pwcorr kann angefordert werden, dass Korrelationen nur für Beobachtungen berechnet werden, für die nach dem Befehl pwcorr nicht alle fehlenden Daten vorhanden sind (löschbare Löschung fehlender Daten). Reg Wenn keine der nach dem Befehl reg aufgeführten Variablen fehlen, werden die Beobachtungen, die diesen Wert (e) fehlen, von der Analyse ausgeschlossen (d. H. Listwise Löschen von fehlenden Daten). Weitere Informationen finden Sie im STATA-Handbuch, um zu erfahren, wie fehlende Daten behandelt werden. 4. Fehlende Werte in Zuweisungsanweisungen Es ist wichtig zu verstehen, wie fehlende Werte in Zuweisungsanweisungen behandelt werden. Betrachten Sie das unten gezeigte Beispiel. Der folgende Befehl zeigt, wie fehlende Werte in Zuweisungsanweisungen behandelt werden. Die Variable sum1 basiert auf den Variablen trial1 trial2 und trial3. Wenn eine dieser Variablen fehlte, wurde der Wert für sum1 auf fehl gesetzt. Daher fehlt sum1 für die Beobachtungen 2, 3 und 4, wie dies bei der Beobachtung 7 der Fall ist. In der Regel ergeben Berechnungen mit fehlenden Werten fehlende Werte. Beispielsweise ergibt 2 2 4 2. Ausbeuten. 2 2 ergibt 1. 2 ergibt. 2 3 ergibt 6 2. Ausbeuten. Wenn Sie addieren, subtrahieren, multiplizieren, dividieren usw. Werte, die fehlende Daten beinhalten, fehlt das Ergebnis. In unserem Reaktionszeitversuch fehlt die Gesamtreaktionszeit sum1 für vier von sieben Fällen. Wir könnten versuchen, die Daten für die nicht fehlenden Versuche zu summieren, indem wir die Zeilentotalfunktion verwenden, wie im folgenden Beispiel gezeigt. Die Ergebnisse zeigen, dass sum2 nun die Summe der nicht fehlenden Studien enthält. Beachten Sie, dass die rowtotal-Funktion fehlt als Nullwert behandelt. Beim Summieren mehrerer Variablen kann es nicht sinnvoll sein, fehlende Werte als Null zu behandeln, wenn auf alle zu summierenden Variablen keine Beobachtungen fehlen. Die rowtotal-Funktion mit der fehlenden Option gibt einen fehlenden Wert zurück, wenn eine Beobachtung für alle Variablen fehlt. Andere Anweisungen funktionieren ähnlich. Wir haben zum Beispiel beobachtet, was passiert ist, wenn wir versuchen, eine mittlere Variable ohne Verwendung einer Funktion zu erstellen (wie im folgenden Beispiel). Wenn keine der Variablen trial1, trial2 oder trial3 fehlen, wird der Wert für avg1 auf fehlen gesetzt. Alternativ berechnet die rowmean-Funktion die Daten für die nicht fehlenden Tests auf dieselbe Weise wie die rowtotale Funktion. Hinweis: Gab es eine große Anzahl von Versuchen, sagen 50 Studien, dann wäre es lästig, um avgrowmean (trial1 trial2 trial3 trial4.) Eingeben. Hier ist eine Verknüpfung, die Sie in dieser Situation verwenden können: Schließlich können Sie die Funktionen rowmiss und rownomiss verwenden, um die Anzahl der fehlenden und die Anzahl der nicht fehlenden Werte in einer Liste von Variablen zu ermitteln. Dies wird im Folgenden dargestellt. Für variable nomiss. Die Beobachtungen 1, 5 und 6 hatten drei gültige Werte, die Beobachtungen 2 und 3 hatten zwei gültige Werte, die Beobachtung 4 hatte nur einen gültigen Wert und die Beobachtung 7 keine gültigen Werte. Die Variable miss zeigt das Gegenteil, es gibt eine Anzahl der fehlenden Werte. 5. Fehlende Werte in logischen Anweisungen Es ist wichtig zu verstehen, wie fehlende Werte in logischen Anweisungen behandelt werden. Sagen Sie beispielsweise, dass Sie eine 01-Variable für trial1 erstellen möchten, die 1 ist, wenn sie 1,5 oder weniger ist, und 0, wenn sie über 1,5 liegt. Wir zeigen dies unten (falsch, wie Sie sehen werden). Es scheint, dass etwas schief gelaufen ist mit unserer neu erstellten Variablen newvar1. Den Beobachtungen mit fehlenden Werten für trial2 wurde für newvar1 eine Nullstelle zugewiesen. Let39s erforschen, warum dies geschah, indem man die Frequenztabelle von trial2 betrachtete. Wie Sie in der Ausgabe sehen können, werden fehlende Werte nach dem höchsten Wert 2.1 aufgelistet. Dies liegt daran, dass STATA einen fehlenden Wert als größtmöglichen Wert (zB positive Unendlichkeit) behandelt und dieser Wert größer als 2.1 ist, also die Werte für Newvar1 zu 0. Nachdem wir verstehen, wie STATA fehlende Werte behandelt, werden fehlende Werte explizit ausgeschlossen, um sicherzustellen, dass sie korrekt behandelt werden, wie unten gezeigt. Wie Sie im folgenden STATA-Ausgang sehen können, hat die neue Variable newvar2 fehlende Werte für Beobachtungen, die auch für trial2 fehlen. 6. Fehlende Werte in logischen Anweisungen Beim Erstellen oder Umkodieren von Variablen mit fehlenden Werten ist darauf zu achten, dass die Variable fehlende Werte enthält. 7. Für weitere Informationen Der Inhalt dieser Website sollte nicht als eine Anerkennung für eine bestimmte Website, Buch oder Software-Produkt von der University of California ausgelegt werden. NOTICE: Die IDRE Statistical Consulting-Gruppe wird die Migration der Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata FAQ: Wie kann ich die Anzahl der fehlenden Werte und Muster fehlender Werte in meiner Datendatei sehen Manchmal kann ein Datensatz quotholesquot darin haben, Dh fehlende Werte. Einige statistische Verfahren wie die Regressionsanalyse funktionieren nicht oder gar nicht auf einem Datensatz mit fehlenden Werten. Die Beobachtungen mit fehlenden Werten müssen gelöscht werden oder die fehlenden Werte müssen ersetzt werden, damit ein statistisches Verfahren sinnvolle Ergebnisse liefert. Die meisten statistischen Programme (einschließlich SAS, SPSS und Stata) entfernen automatisch solche Fälle von einer Analyse, die Sie ausführen (ohne die Fälle aus dem Dataset zu löschen). Aus diesem Grund variiert der Quotient häufig von Analyse zu Analyse, auch wenn der Dataset derselbe ist. Unterschiedliche Variablen haben unterschiedliche Mengen an fehlenden Daten und daher ändert die Änderung der Variablen in einem Modell die Anzahl der Fälle mit vollständigen Daten zu allen Variablen im Modell. Weil die Software Fälle mit fehlenden Werten für uns sinkt, ist es sehr einfach, über fehlende Daten vollständig zu quittieren. Allerdings kann das Vorhandensein fehlender Daten unsere Ergebnisse beeinflussen, insbesondere wenn ein Datensatz oder sogar eine einzelne Variable einen hohen Prozentsatz an Werten fehlt. Daher ist es immer eine gute Idee, einen Datensatz auf fehlende Daten zu überprüfen und darüber nachzudenken, wie die fehlenden Daten unsere Analysen beeinflussen können. Auf dieser Seite finden Sie einige Methoden, um fehlende Werte in einem Datensatz zu suchen. Diese Informationen können verwendet werden, um fundiertere Entscheidungen zur Handhabung der fehlenden Werte zu treffen. Bevor wir anfangen, benötigen wir einige Daten mit fehlenden Werten, der Code unten gibt einen kleinen Dataset in Stata ein und zeigt dann diese Daten an. In einem kleinen Datensatz, wie der unten, ist es sehr einfach, die Rohdaten zu betrachten und zu sehen, wo Werte fehlen. Wenn Datenmengen groß sind, benötigen wir jedoch eine systematischere Methode, um unseren Datensatz auf fehlende Werte zu untersuchen. Im Folgenden zeigen wir Ihnen einige Möglichkeiten, dies zu tun, mit den folgenden Daten als Beispiel. 1. Anzahl der fehlenden Werte vs. Anzahl der nicht fehlenden Werte Das erste, was wir tun werden, ist festzustellen, welche Variablen eine Menge fehlender Werte haben. Wir haben ein kleines Stata-Programm namens mdesc erstellt, das die Anzahl fehlender Werte sowohl in numerischen als auch in Zeichenvariablen zählt. Sie können mdesc von innerhalb von Stata downloaden, indem Sie findit mdesc eingeben (sehen Sie, wie ich den findit Befehl benutzen kann, um nach Programmen zu suchen und zusätzliche Hilfe für mehr Informationen über die Verwendung von finidit zu erhalten). Dann können Sie mdesc für eine oder mehrere Variablen ausführen, wie unten dargestellt. Nun kennen wir die Anzahl der fehlenden Werte in jeder Variablen. Zum Beispiel hat variable salepric vier fehlende Werte und saltoapr hat zwei fehlende Werte. 2. Ermitteln der Anzahl fehlender Werte pro Beobachtung Wir können auch die Verteilung der fehlenden Werte über Beobachtungen betrachten. Der folgende Code erzeugt eine Variable namens nmis, die die Anzahl der fehlenden Werte für jede Beobachtung angibt. Die hier verwendete Funktion rmiss2 () ist eine Erweiterung der egen-Funktion rmiss (). Es zählt die Anzahl der fehlenden Werte in der varlist. Rmiss2 () akzeptiert sowohl String als auch numerische Variablen. (Statas rmiss () akzeptiert nur numerische Variablen.) Sie können rmiss2 () über das Internet herunterladen, indem Sie findit rmiss2 eingeben (siehe Wie kann ich den findit-Befehl verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten ). Darunter tabellieren wir die Variable, die wir gerade erstellt haben. Betrachtet man die Frequenztabelle, so wissen wir, dass es vier Beobachtungen ohne fehlende Werte gibt, neun Beobachtungen mit fehlenden Werten, eine Beobachtung mit zwei fehlenden Werten und eine Beobachtung mit drei fehlenden Werten. 3. Muster fehlender Werte Wir können auch die Muster fehlender Werte betrachten. Sie können mvpatterns über das Internet von innerhalb von Stata downloaden, indem Sie findit mvpatterns eintippen (sehen Sie, wie ich den findit Befehl benutzen kann, um nach Programmen zu suchen und zusätzliche Hilfe für mehr Informationen über usingitit zu erhalten). Der Befehl mvpatterns erzeugt eine Ausgabe für alle Variablen im Datenbestand, für fehlende Datenmuster über eine Teilmenge von Variablen kann eine Variablenliste enthalten sein, z. B. mvpatterns landval improval totval. Die Ausgabe, die von mvpatterns erzeugt wird, ist unten gezeigt. In der ersten Tabelle sind die Variablen, deren Speichertyp (Typ), die Anzahl der Beobachtungen (obs), die Anzahl der fehlenden Werte (mv) und die Variablenbeschriftung aufgelistet. Die zweite Tabelle enthält die Informationen über das Muster der fehlenden Werte. Der erste Spaltenblock in der Ausgabe zeigt die Muster fehlender Daten. Innerhalb des Blocks wird jede Variable durch eine Spalte dargestellt, ein Quotient zeigt an, dass Werte dieser Variablen in einem gegebenen fehlenden Datenmuster vorhanden sind, ein quadratisches Zeichen bedeutet, dass sie fehlen. Die Spalten folgen der gleichen Reihenfolge wie die Variablenliste in der ersten Tabelle, so dass die erste Spalte in der Ausgabe unten repräsentiert landval. Die zweite Verbesserung. und so weiter. Die fehlenden Datenmuster werden in absteigender Häufigkeit aufgelistet, hier ist das gebräuchlichste fehlende Datenmuster vollständige Daten (quotquot). Die Tabelle zeigt auch die Anzahl der fehlenden Werte in diesem Muster (mv) und die Anzahl der Fälle mit dem fehlenden Datenmuster (freq). Basierend auf den Informationen in der zweiten Tabelle wissen wir, dass es vier Beobachtungen ohne fehlende Werte, zwei Fälle fehlen auf nur die variable salepric. Und eine Beobachtung mit fehlenden Werten zur Verbesserung. Salepric und saltoapr. 4. Wenn alle interessierenden Variablen numerisch sind Die obigen Beispiele funktionieren unabhängig davon, ob die interessierenden Variablen (d. h. die Variablen, deren fehlende Datenmuster Sie untersuchen möchten) numerisch oder string sind. Wenn alle Variablen, die Sie auf fehlende Werte überprüfen möchten, numerisch sind, können wir ein Programm mit dem Namen misschk verwenden, um die Schritte der Untersuchung der fehlenden Daten in unserem Datensatz zu vereinfachen. (Beachten Sie, dass numerische Variablen diejenigen mit Wertbeschriftungen enthalten, die Zeichenfolgen sind, solange die aktuellen Werte der Variablen als Zahlen gespeichert sind.) Sie können misschk aus Stata herunterladen, indem Sie findit misschk eingeben (siehe Wie kann ich den Befehl findit verwenden? Nach Programmen suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit erhalten). Unten ist der Befehl für Misschk. Wir haben alle fünf Variablen in unserem Datensatz in der Variablenliste nach dem Befehl misschk aufgelistet. Allerdings hätten wir die Variablenleerliste einfach leer lassen können (d. H. Stattdessen nur misschk. gen (miss)), wenn wir hatten, hätte misschk mit allen Variablen in unserem Datensatz laufen gelassen. Die Variablenliste ist nur dann notwendig, wenn wir nur einige der Variablen in unserem Datensatz ausführen wollen. Die gen (miss) - Option sagt misschk, dass wir wollen, dass sie zwei neue Variablen erzeugt, die beide mit quotmissquot beginnen. Diese beiden Variablen werden als Fehl - und Fehlzahl bezeichnet. Die Variable misspattern gibt an, welches der fehlenden Datenmuster jeweils folgt. Die variable Fehlzahl gibt die Anzahl der fehlenden Werte für jeden Fall an. Die Ausgabe für misschk besteht aus drei Tabellen. Die erste Tabelle listet die Anzahl der fehlenden Werte sowie prozentual fehlende Werte für jede Variable auf, dies entspricht der Tabelle, die von mdesc in Teil 1 oben erstellt wurde. Diese Tabelle enthält auch eine Spalte, die beschriftet ist, die jeder Variablen eine Zahl zuweist, die verwendet wird, um die Variable später in der Ausgabe zu identifizieren. Die zweite Tabelle zeigt die Verteilung der fehlenden Werte. Das Muster des Fehlens wird unter Verwendung der variablen Zahlen aus der ersten Tabelle und Unterstriche () beschrieben. Die Zahlen geben an, welche Variablen in diesem Muster fehlen, wobei die Unterstriche nicht fehlende Beobachtungen darstellen. Zum Beispiel sehen wir aus der zweiten Tabelle, dass zwei Fälle fehlende Werte auf Variable 1 (landval) haben, aber vollständige Daten zu allen anderen Variablen enthalten und dass ein Fall fehlende Daten auf den Variablen 2, 4 und 5 enthält Dass vier Fälle überhaupt keine Werte fehlen (alle Unterstriche). Diese Tabelle zeigt die gleichen Informationen, die in Teil 3 oben, aber in einem etwas anderen Format erzeugt wurden. Das fehlende Datenmuster für jeden Fall wird in dem variablen Fehlspattern beschrieben. Schließlich zeigt die dritte Tabelle die Verteilung der Anzahl fehlender Werte pro Fall. Dies ist die gleiche Information, die oben in Teil 2 diskutiert wurde. Die Anzahl der Variablen, die jeder Fall fehlt, ist auch in der variablen Fehlzahl enthalten. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, Buch oder Software-Produkt von der Universität von Kalifornien ausgelegt werden. NOTICE: Die IDRE Statistical Consulting-Gruppe wird die Migration der Website, um die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata FAQ: Wie kann ich die Anzahl der fehlenden Werte und Muster fehlender Werte in meiner Datendatei sehen Manchmal kann ein Datensatz quotholesquot darin haben, Dh fehlende Werte. Einige statistische Verfahren wie die Regressionsanalyse funktionieren nicht oder gar nicht auf einem Datensatz mit fehlenden Werten. Die Beobachtungen mit fehlenden Werten müssen gelöscht werden oder die fehlenden Werte müssen ersetzt werden, damit ein statistisches Verfahren sinnvolle Ergebnisse liefert. Die meisten statistischen Programme (einschließlich SAS, SPSS und Stata) entfernen automatisch solche Fälle von einer Analyse, die Sie ausführen (ohne die Fälle aus dem Dataset zu löschen). Aus diesem Grund variiert der Quotient oft von Analyse zu Analyse, auch wenn der Dataset derselbe ist. Unterschiedliche Variablen haben unterschiedliche Mengen an fehlenden Daten und daher ändert die Änderung der Variablen in einem Modell die Anzahl der Fälle mit vollständigen Daten zu allen Variablen im Modell. Weil die Software Fälle mit fehlenden Werten für uns sinkt, ist es sehr einfach, über fehlende Daten vollständig zu quittieren. Allerdings kann das Vorhandensein fehlender Daten unsere Ergebnisse beeinflussen, insbesondere wenn ein Datensatz oder sogar eine einzelne Variable einen hohen Prozentsatz an Werten fehlt. Daher ist es immer eine gute Idee, einen Datensatz auf fehlende Daten zu überprüfen und darüber nachzudenken, wie die fehlenden Daten unsere Analysen beeinflussen können. Auf dieser Seite finden Sie einige Methoden, um fehlende Werte in einem Datensatz zu suchen. Diese Informationen können verwendet werden, um fundiertere Entscheidungen zur Handhabung der fehlenden Werte zu treffen. Bevor wir anfangen, benötigen wir einige Daten mit fehlenden Werten, der Code unten gibt einen kleinen Dataset in Stata ein und zeigt dann diese Daten an. In einem kleinen Datensatz, wie der unten, ist es sehr einfach, die Rohdaten zu betrachten und zu sehen, wo Werte fehlen. Wenn Datenmengen groß sind, benötigen wir jedoch eine systematischere Methode, um unseren Datensatz auf fehlende Werte zu untersuchen. Im Folgenden zeigen wir Ihnen einige Möglichkeiten, dies zu tun, mit den Daten unten als Beispiel. 1. Anzahl der fehlenden Werte vs. Anzahl der nicht fehlenden Werte Das erste, was wir tun werden, ist festzustellen, welche Variablen eine Menge fehlender Werte haben. Wir haben ein kleines Stata-Programm namens mdesc erstellt, das die Anzahl fehlender Werte sowohl in numerischen als auch in Zeichenvariablen zählt. Sie können mdesc von innerhalb von Stata downloaden, indem Sie findit mdesc eingeben (sehen Sie, wie ich den findit Befehl benutzen kann, um nach Programmen zu suchen und zusätzliche Hilfe für mehr Informationen über die Verwendung von finidit zu erhalten). Dann können Sie mdesc für eine oder mehrere Variablen ausführen, wie unten dargestellt. Nun kennen wir die Anzahl der fehlenden Werte in jeder Variablen. Zum Beispiel hat variable salepric vier fehlende Werte und saltoapr hat zwei fehlende Werte. 2. Ermitteln der Anzahl fehlender Werte pro Beobachtung Wir können auch die Verteilung der fehlenden Werte über Beobachtungen betrachten. Der folgende Code erzeugt eine Variable namens nmis, die die Anzahl der fehlenden Werte für jede Beobachtung angibt. Die hier verwendete Funktion rmiss2 () ist eine Erweiterung der egen-Funktion rmiss (). Es zählt die Anzahl der fehlenden Werte in der varlist. Rmiss2 () akzeptiert sowohl String als auch numerische Variablen. (Statas rmiss () akzeptiert nur numerische Variablen.) Sie können rmiss2 () über das Internet herunterladen, indem Sie findit rmiss2 eingeben (siehe Wie kann ich den findit-Befehl verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten ). Darunter tabellieren wir die Variable, die wir gerade erstellt haben. Betrachtet man die Frequenztabelle, so wissen wir, dass es vier Beobachtungen ohne fehlende Werte gibt, neun Beobachtungen mit fehlenden Werten, eine Beobachtung mit zwei fehlenden Werten und eine Beobachtung mit drei fehlenden Werten. 3. Muster fehlender Werte Wir können auch die Muster fehlender Werte betrachten. Sie können mvpatterns über das Internet von innerhalb von Stata downloaden, indem Sie findit mvpatterns eintippen (sehen Sie, wie ich den findit Befehl benutzen kann, um nach Programmen zu suchen und zusätzliche Hilfe für mehr Informationen über usingitit zu erhalten). Der Befehl mvpatterns erzeugt eine Ausgabe für alle Variablen im Datenbestand, für fehlende Datenmuster über eine Teilmenge von Variablen kann eine Variablenliste enthalten sein, z. B. mvpatterns landval improval totval. Die Ausgabe, die von mvpatterns erzeugt wird, ist unten gezeigt. In der ersten Tabelle sind die Variablen, deren Speichertyp (Typ), die Anzahl der Beobachtungen (obs), die Anzahl der fehlenden Werte (mv) und die Variablenbeschriftung aufgelistet. Die zweite Tabelle enthält die Informationen über das Muster der fehlenden Werte. Der erste Spaltenblock in der Ausgabe zeigt die Muster fehlender Daten. Innerhalb des Blocks wird jede Variable durch eine Spalte dargestellt, ein Quotient zeigt an, dass Werte dieser Variablen in einem gegebenen fehlenden Datenmuster vorhanden sind, ein quadratisches Zeichen bedeutet, dass sie fehlen. Die Spalten folgen der gleichen Reihenfolge wie die Variablenliste in der ersten Tabelle, so dass die erste Spalte in der Ausgabe unten repräsentiert landval. Die zweite Verbesserung. und so weiter. Die fehlenden Datenmuster werden in absteigender Häufigkeit aufgelistet, hier ist das gebräuchlichste fehlende Datenmuster vollständige Daten (quotquot). Die Tabelle zeigt auch die Anzahl der fehlenden Werte in diesem Muster (mv) und die Anzahl der Fälle mit dem fehlenden Datenmuster (freq). Basierend auf den Informationen in der zweiten Tabelle wissen wir, dass es vier Beobachtungen ohne fehlende Werte, zwei Fälle fehlen auf nur die variable salepric. Und eine Beobachtung mit fehlenden Werten zur Verbesserung. Salepric und saltoapr. 4. Wenn alle interessierenden Variablen numerisch sind Die obigen Beispiele funktionieren unabhängig davon, ob die interessierenden Variablen (d. h. die Variablen, deren fehlende Datenmuster Sie untersuchen möchten) numerisch oder string sind. Wenn alle Variablen, die Sie auf fehlende Werte überprüfen möchten, numerisch sind, können wir ein Programm mit dem Namen misschk verwenden, um die Schritte der Untersuchung der fehlenden Daten in unserem Datensatz zu vereinfachen. (Beachten Sie, dass numerische Variablen diejenigen mit Wertbeschriftungen enthalten, die Zeichenfolgen sind, solange die aktuellen Werte der Variablen als Zahlen gespeichert sind.) Sie können misschk aus Stata herunterladen, indem Sie findit misschk eingeben (siehe Wie kann ich den Befehl findit verwenden? Nach Programmen suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit erhalten). Unten ist der Befehl für misschk. Wir haben alle fünf Variablen in unserem Datensatz in der Variablenliste nach dem Befehl misschk aufgelistet. Allerdings hätten wir die Variablenleerliste einfach leer lassen können (d. H. Stattdessen nur misschk. gen (miss)), wenn wir hatten, hätte misschk mit allen Variablen in unserem Datensatz laufen gelassen. Die Variablenliste ist nur dann notwendig, wenn wir nur einige der Variablen in unserem Datensatz ausführen wollen. Die gen (miss) - Option sagt misschk, dass wir wollen, dass sie zwei neue Variablen erzeugt, die beide mit quotmissquot beginnen. Diese beiden Variablen werden als Fehl - und Fehlzahl bezeichnet. Die Variable misspattern gibt an, welches der fehlenden Datenmuster jeweils folgt. Die variable Fehlzahl gibt die Anzahl der fehlenden Werte für jeden Fall an. Die Ausgabe für misschk besteht aus drei Tabellen. Die erste Tabelle listet die Anzahl der fehlenden Werte sowie prozentual fehlende Werte für jede Variable auf, dies ist ähnlich der Tabelle, die mdesc in Teil 1 oben erstellt wurde. Diese Tabelle enthält auch eine Spalte, die beschriftet ist, die jeder Variablen eine Zahl zuweist, die verwendet wird, um die Variable später in der Ausgabe zu identifizieren. Die zweite Tabelle zeigt die Verteilung der fehlenden Werte. Das Muster des Fehlens wird unter Verwendung der variablen Zahlen aus der ersten Tabelle und Unterstriche () beschrieben. Die Zahlen geben an, welche Variablen in diesem Muster fehlen, wobei die Unterstriche nicht fehlende Beobachtungen darstellen. Zum Beispiel sehen wir aus der zweiten Tabelle, dass zwei Fälle fehlende Werte auf Variable 1 (landval) haben, aber vollständige Daten zu allen anderen Variablen enthalten und dass ein Fall fehlende Daten auf den Variablen 2, 4 und 5 enthält Dass vier Fälle überhaupt keine Werte fehlen (alle Unterstriche). Diese Tabelle zeigt die gleichen Informationen, die in Teil 3 oben, aber in einem etwas anderen Format erzeugt wurden. Das fehlende Datenmuster für jeden Fall wird in dem variablen Fehlspattern beschrieben. Schließlich zeigt die dritte Tabelle die Verteilung der Anzahl fehlender Werte pro Fall. Dies ist die gleiche Information, die oben in Teil 2 diskutiert wurde. Die Anzahl der Variablen, die jeder Fall fehlt, ist auch in der variablen Fehlzahl enthalten. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, Buch oder Software-Produkt von der Universität von Kalifornien ausgelegt werden. NOTICE: Die IDRE Statistical Consulting-Gruppe wird die Migration der Website, um die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group mit einem Geschenk STATA Learning Module Fehlende Daten 1. Einleitung Dieses Modul untersucht fehlende Daten in STATA und fokussiert auf fehlende Zahlen. Es wird beschrieben, wie fehlende Daten in Ihren Rohdaten-Dateien angezeigt werden, sowie wie fehlende Daten in STATA logischen Befehlen und Zuweisungsanweisungen behandelt werden. Wir veranschaulichen einige der fehlenden Dateneigenschaften in STATA anhand von Daten aus einer Reaktionszeitstudie mit acht Probanden, die durch die Variable id angegeben sind. Und die Reaktionszeit der Versuchspersonen wurde zu drei Zeitpunkten gemessen (Versuch1 Versuch2 Versuch3). Die Eingabedatendatei wird unten gezeigt. Sie können feststellen, dass einige der Reaktionszeiten mit einem einzigen codiert sind. Wie dies bei dem Thema 2 der Fall ist. Die Person, die die Zeit für diesen Versuch mißt, mißt die Ansprechzeit nicht richtig, daher fehlen die Daten für den zweiten Versuch. 2. Wie STATA fehlende Daten in STATA-Prozeduren verarbeitet STATA-Befehle, die Berechnungen beliebiger Art durchführen, fehlende Daten fehlen, indem die fehlenden Werte ausgelassen werden. Allerdings ist die Art und Weise, dass fehlende Werte ausgelassen werden, nicht immer konsistent über Befehle, so let39s einen Blick auf einige Beispiele. Zuerst wollen wir unsere Reaktionszeitvariablen zusammenfassen und sehen, wie STATA die fehlenden Werte behandelt. Wie Sie in der Ausgabe unten sehen, fassen Sie die Berechnungsmethode mit 4 Beobachtungen für die Studien trial1 und trial2 und 6 für trial3 zusammen. Kurz gesagt, führte der Befehl summarise die Berechnungen auf allen verfügbaren Daten durch. Ein zweites Beispiel zeigt, wie der Befehl tabulation oder tab1 fehlende Daten verarbeitet. Wie zusammengefasst, verwendet tab1 nur verfügbare Daten. Beachten Sie, dass die Prozentangaben auf der Grundlage der Gesamtzahl der nicht fehlenden Fälle berechnet werden. Möglicherweise möchten Sie, dass die Prozentwerte aus der Gesamtzahl der Beobachtungen berechnet werden sollen und der Prozentsatz für jede in der Tabelle angezeigte Variable fehlt. Dies kann durch die fehlende Option nach der Tabellierung erreicht werden. Befehlen Sie Let39s, wie der korrelierte Befehl fehlende Daten verarbeitet. Wir würden erwarten, dass es die Berechnungen auf der Grundlage der verfügbaren Daten durchführen würde, und lassen Sie die fehlenden Werte. Hier ist ein Beispiel-Befehl. Die Ausgabe ist unten. Beachten Sie, wie die fehlenden Werte ausgeschlossen wurden. Stata führt Listenlöschung und nur Anzeige Korrelation für Beobachtungen, die nicht fehlende Werte auf alle Variablen aufgeführt. Stata ermöglicht auch paarweises Löschen. Für die Beobachtungen, die nicht fehlende Werte für jedes Paar von Variablen aufweisen, werden Korrelationen angezeigt. Dies kann mit dem Befehl pwcorr gemacht werden. Wir verwenden die obs-Option, um die Anzahl der Beobachtungen anzuzeigen, die für jedes Paar verwendet werden. Wie Sie sehen können, unterscheiden sie sich je nach der Anzahl der fehlenden. 3. Zusammenfassung der fehlenden Werte in STATA-Prozeduren zusammengefasst Für jede Variable wird die Anzahl der nicht fehlenden Werte verwendet. Tabelle Standardmäßig werden fehlende Werte ausgeschlossen und Prozentsätze auf der Anzahl der nicht fehlenden Werte basieren. Wenn Sie die fehlende Option auf dem Tab-Befehl verwenden, basieren die Prozentsätze auf der Gesamtzahl der Beobachtungen (nicht fehlende und fehlende) und der Prozentwert fehlender Werte werden in der Tabelle angegeben. Corr Standardmäßig werden Korrelationen basierend auf der Anzahl der Paare mit nicht fehlenden Daten (paarweises Löschen von fehlenden Daten) berechnet. Mit dem Befehl pwcorr kann angefordert werden, dass Korrelationen nur für Beobachtungen berechnet werden, für die nach dem Befehl pwcorr nicht alle fehlenden Daten vorhanden sind (löschbare Löschung fehlender Daten). Reg Wenn keine der nach dem Befehl reg aufgeführten Variablen fehlen, werden die Beobachtungen, die diesen Wert (e) fehlen, von der Analyse ausgeschlossen (d. H. Listwise Löschen von fehlenden Daten). Weitere Informationen finden Sie im STATA-Handbuch, um zu erfahren, wie fehlende Daten behandelt werden. 4. Fehlende Werte in Zuweisungsanweisungen Es ist wichtig zu verstehen, wie fehlende Werte in Zuweisungsanweisungen behandelt werden. Betrachten Sie das unten gezeigte Beispiel. Der folgende Befehl zeigt, wie fehlende Werte in Zuweisungsanweisungen behandelt werden. Die Variable sum1 basiert auf den Variablen trial1 trial2 und trial3. Wenn eine dieser Variablen fehlte, wurde der Wert für sum1 auf fehl gesetzt. Daher fehlt sum1 für die Beobachtungen 2, 3 und 4, wie dies bei der Beobachtung 7 der Fall ist. In der Regel ergeben Berechnungen mit fehlenden Werten fehlende Werte. Beispielsweise ergibt 2 2 4 2. Ausbeuten. 2 2 ergibt 1. 2 ergibt. 2 3 ergibt 6 2. Ausbeuten. Wenn Sie addieren, subtrahieren, multiplizieren, dividieren usw. Werte, die fehlende Daten beinhalten, fehlt das Ergebnis. In unserem Reaktionszeitversuch fehlt die Gesamtreaktionszeit sum1 für vier von sieben Fällen. Wir könnten versuchen, die Daten für die nicht fehlenden Versuche zu summieren, indem wir die Zeilentotalfunktion verwenden, wie im folgenden Beispiel gezeigt. Die Ergebnisse zeigen, dass sum2 nun die Summe der nicht fehlenden Studien enthält. Beachten Sie, dass die rowtotal-Funktion fehlt als Nullwert behandelt. Beim Summieren mehrerer Variablen kann es nicht sinnvoll sein, fehlende Werte als Null zu behandeln, wenn auf alle zu summierenden Variablen keine Beobachtungen fehlen. Die rowtotal-Funktion mit der fehlenden Option gibt einen fehlenden Wert zurück, wenn eine Beobachtung für alle Variablen fehlt. Andere Anweisungen funktionieren ähnlich. Wir haben zum Beispiel beobachtet, was passiert ist, wenn wir versuchen, eine mittlere Variable ohne Verwendung einer Funktion zu erstellen (wie im folgenden Beispiel). Wenn keine der Variablen trial1, trial2 oder trial3 fehlen, wird der Wert für avg1 auf fehlen gesetzt. Alternativ berechnet die rowmean-Funktion die Daten für die nicht fehlenden Tests auf dieselbe Weise wie die rowtotale Funktion. Hinweis: Gab es eine große Anzahl von Versuchen, sagen 50 Studien, dann wäre es lästig, um avgrowmean (trial1 trial2 trial3 trial4.) Eingeben. Here is a shortcut you could use in this kind of situation: Finally, you can use the rowmiss and rownomiss functions to determine the number of missing and the number of non-missing values, respectively, in a list of variables. This is illustrated below. For variable nomiss . observations 1, 5 and 6 had three valid values, observations 2 and 3 had two valid values, observation 4 had only one valid value and observation 7 had no valid values. The variable miss shows the opposite, it provides a count of the number of missing values. 5. Missing values in logical statements It is important to understand how missing values are handled in logical statements. For example, say that you want to create a 01 variable for trial1 that is 1 if it is 1.5 or less, and 0 if it is over 1.5. We show this below (incorrectly, as you will see). It appears that something went wrong with our newly created variable newvar1 . The observations with missing values for trial2 were assigned a zero for newvar1. Let39s explore why this happened by looking at the frequency table of trial2 . As you can see in the output, missing values are at the listed after the highest value 2.1 This is because STATA treats a missing value as the largest possible value (e. g. positive infinity) and that value is greater than 2.1, so then the values for newvar1 become 0. Now that we understand how STATA treats missing values, we will explicitly exclude missing values to make sure they are treated properly, as shown below. As you can see in the STATA output below, the new variable newvar2 has missing values for observations that are also missing for trial2 . 6. Missing values in logical statements When creating or recoding variables that involve missing values, always pay attention to whether the variable includes missing values. 7. For more information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.


No comments:

Post a Comment