Ulrich Kohler, Frauke Kreuter Datenanalyse mit Stata ISBN 978-3-11-047290-5 e-ISBN (PDF) 978-3-11-046950-9 e-ISBN (EPUB) 978-3-11-046973-8 Library of Congress Cataloging-in-Publication Data A CIP catalog record for this book has been applied for at the Library of Congress Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar © 2017 Walter de Gruyter GmbH, Berlin/Boston www.degruyter.com Vorwort Die fünfte Auflage von „Datenanalyse mit Stata“ enthält eine Reihe von Modernisierungen der Stata-Syntax und anderen Darstellungen um den Text lesefreundlicher zu machen Eine Reihe von Fehlern wurden korrigiert und die Datensätze in das neue Stata 14 Format überführt, welches Unicode unterstützt und daher Umlaute in Variablennamen zulässt Nutzer älterer Stata-Versionen (12 und 13) können die Daten der Daten der vorangegangenen Auflage ohne Einschränkung verwenden Darüber hinaus haben wir uns bei der Gliederung von Kapitel zum „Erstellen und Verändern von Variablen“ stärker an den Bedürfnissen von Neueinsteigern orientiert indem wir das schwierige Thema zum rekodieren mit by, _n, _N und expliziten Subscripten weiter nach hinten gerückt haben Wir bieten nun einen systematischeren Zugang zum Umgang mit „Missing Values“ und haben einen neuen Abschnitt zum Thema „Unicode“ in Kapitel „Daten lesen und schreiben“ erstellt (Abschni tt 11.7) Lehrbücher, und besonders solche, die als Texte zum Selbstlernen angelegt sind, profitieren immer vom Feedback durch Leser Ausdrücklich bedanken wollen wir uns daher für die Zuschriften folgender Personen: T Bock, B Boessl, T Creutz, I Dammasch, J Demuth, Y Eggenschwiler, T Fechner, A von Flüe, J Galanis, V Jovic, A Kadow, K Kriemann, S Krückel, P Leppert, M Sarközi, A Schmidt, S Scheurle, J Schulz, A Sehnert, M Siahpush, F Simmen, S Späthe, B Sulayman-Willie, H Tauchmann, und F Wieser Besonderern Dank schulden wir D Enzmann und M Krawietz, die uns beide eine besonders lange Fehlerliste zukommen haben lassen Viele Faktoren tragen dazu bei, dass aus einem Lehrbuch ein gutes Lehrbuch wird Ein Lehrbuch in Datenanalyse braucht gute Daten Dank gebührt deshalb der SOEP-Gruppe am Deutschen Institut für Wirtschaftsforschung (DIW), und ganz besonders Jan Goebel Unseren Arbeitgebern, der Universität Potsdam, dem JPSM, dem IAB und der Universität Mannheim, danken wir dafür, dass sie so wunderbare Arbeitsbedingungen für uns bereitstellen Unseren Kollegen S Grau, M Krawietz, S Munnes, A Rolf, C Saalbach, T Sawert, C Thewes danken wir für Ihre Kritik und Mitarbeit Unseren Familien und Freunden danken wir für ihre Unterstützung und Geduld Für den Inhalt – und die Fehler – aller Teile dieses Buches sind wir beide zu gleichen Teilen verantwortlich Sie erreichen uns unter der EMail-Adresse kkstata@web.de, und wir freuen uns über alle Hinweise auf Fehler und Verbesserungsvorschläge Ulrich Kohler Frauke Kreuter Oktober 2016 Inhalt Vorwort Zu diesem Buch „Das erste Mal“ 1.1 Aufruf von Stata 1.2 Gestalten der Bildschirmansicht 1.3 Erste Analysen 1.4 Do-Files 1.5 Stata verlassen 1.6 Übungen Arbeiten mit Do-Files 2.1 Von der interaktiven Arbeit zum Do-File 2.2 Do-Files sinnvoll gestalten 2.2.1 Kommentare 2.2.2 Zeilenwechsel 2.2.3 Befehle, die in keinem Do-File fehlen sollten 2.3 Arbeitsorganisation 2.4 Übungen Die Stata-Grammatik 3.1 Elemente der Stata-Kommandos 3.1.1 Der Befehl 3.1.2 Die Variablenliste 3.1.3 Optionen 3.1.4 Die in-Bedingung 3.1.5 Die if-Bedingung 3.1.6 Ausdrücke 3.1.7 Die Nummernliste 3.1.8 Dateinamen 3.2 Wiederholung ähnlicher Befehle 3.2.1 Das by-Präfix 3.2.2 3.2.3 3.3 3.4 Die foreach-Schleife Die forvalues-Schleife Die Gewichtungsanweisung Übungen Eine allgemeine Bemerkung zu den Statistik-Kommandos 4.1 Herkömmliche Statistikbefehle 4.2 Modellbefehle 4.3 Übungen Erstellen und Verändern von Variablen 5.1 Die Befehle generate und replace 5.1.1 Variablennamen 5.1.2 Einige Beispiele 5.1.3 Nützliche Funktionen 5.2 Missings zuweisen und aufheben 5.3 Beschriftung von Variablen 5.4 Spezielle Recodierungs-Befehle 5.4.1 recode 5.4.2 egen 5.5 Recodieren für Fortgeschrittene 5.5.1 Recodieren mit by, _n und _N 5.5.2 Explizite Subscripte 5.6 Recodieren von String-Variablen 5.7 Recodierung von Datums- und Zeitangaben 5.7.1 Datumsangaben 5.7.2 Zeit 5.8 Storage-Types oder: der Geist in der Maschine 5.9 Übungen Erstellen und Verändern von Grafiken 6.1 Eine Vorbemerkung zur Syntax 6.2 Typen von Grafiken 6.2.1 Beispiele 6.2.2 Spezielle Grafiken 6.3 Elemente der Grafiken 6.3.1 Erscheinungsbild der Daten 6.3.2 Grafik- und Plotregion 6.3.3 Informationen innerhalb der Plotregion 6.3.4 6.4 6.4.1 6.4.2 6.4.3 6.5 6.6 Informationen außerhalb der Plotregion Multiple Grafiken Überlagerung mehrerer twoway-Grafiken Befehlsoption by() Zusammenführung von Grafiken Speichern und Drucken von Grafiken Übungen Die Beschreibung von Verteilungen 7.1 Wenige oder viele Ausprägungen? 7.2 Variablen mit wenigen Ausprägungen 7.2.1 Tabellarische Darstellungen 7.2.2 Grafische Verfahren 7.3 Variablen mit vielen Ausprägungen 7.3.1 Häufigkeitsverteilung gruppierter Daten 7.3.2 Beschreibung durch Maßzahlen 7.3.3 Grafische Verfahren 7.4 Übungen Grundlagen statistischer Inferenz 8.1 Zufallsstichproben und Stichprobenverteilungen 8.1.1 Erzeugung von Zufallszahlen 8.1.2 Erzeugung fiktiver Datensätze 8.1.3 Ziehung von Stichproben 8.1.4 Die Stichprobenverteilung 8.2 Deskriptive Inferenz 8.2.1 Standardfehler für einfache Zufallsstichproben 8.2.2 Standardfehler für komplexe Stichproben 8.2.3 Standardfehler bei fehlenden Daten 8.2.4 Verwendungen für Standardfehler 8.3 Kausale Inferenz 8.3.1 Grundlegende Konzepte 8.3.2 Der Efekt der dritten Klasse 8.3.3 Einige Probleme der kausalen Inferenz 8.4 Übungen Einführung in die Regressionstechnik 9.1 Lineare Einfachregression 9.1.1 Das Grundprinzip 9.1.2 9.2 9.2.1 9.2.2 9.2.3 9.3 9.3.1 9.3.2 9.3.3 9.4 9.4.1 9.4.2 9.4.3 9.5 9.5.1 9.5.2 9.5.3 9.6 9.6.1 9.6.2 9.7 Lineare Regression mit Stata Die multiple Regression Multiple lineare Regression mit Stata Spezielle Kennzahlen der multiplen Regression Was bedeutet eigentlich „unter Kontrolle“? Regressionsdiagnostik Die Verletzung von E(ϵi) = 0 Heteroskedastizität Autokorrelation Verfeinerte Modelle Kategoriale unabhängige Variablen Interaktionsefekte Regressionsmodelle mit transformierten Daten Darstellung von Regressionsergebnissen Tabellen ähnlicher Regressionsmodelle Koefizienten-Plots Conditional-Efects-Plots Weiterführende Verfahren Median-Regression Regressionsmodelle für Paneldaten Übungen 10 Regressionsmodelle für kategoriale abhängige Variablen 10.1 Das lineare Wahrscheinlichkeitsmodell 10.2 Grundkonzepte 10.2.1 Odds, Log-Odds und Odds-Ratios 10.2.2 Exkurs: Das Maximum-Likelihood-Prinzip 10.3 Logistische Regression mit Stata 10.3.1 Der Koefizientenblock 10.3.2 Der Iterationsblock 10.3.3 Der Modellfit-Block 10.4 Diagnostik der logistischen Regression 10.4.1 Linearität 10.4.2 Einflussreiche Fälle 10.5 Likelihood-Ratio-Test 10.6 Verfeinerte Modelle 10.7 Weiterführende Verfahren 10.7.1 Probit-Modelle ... nur schwer zu beurteilen sein, ob mehr Frauen oder mehr Männer in den unteren Einkommensgruppen sind Die In- Bedingung Um einen ersten Eindruck über das Verhältnis von Einkommen und Geschlecht zu bekommen, könnte man Einkommen... eine „fehlende Angabe“ oder einen „Missing“ Weiter hinten in diesem Kapitel zeigen wir Ihnen, wie man solche Missings erzeugt (S 20) Mehr zum Umgang mit fehlenden Werten in Stata finden Sie in Abschnitt 5.2... Immer wenn Sie eine Zeile in dieser Schrift sehen, die mit einem Punkt eingeleitet wird, sollten Sie diese Zeile in Stata eingeben Dabei ist es wichtig, dass Sie alle Befehle eingeben, da diese innerhalb eines