-
abgeschlossen -
Forschungsprojekt -
Methodenforschung
Fehlende Daten in der Bildungsforschung II
Worum ging es in dem Projekt?
Fehlende Werte stellen in der Bildungsforschung eine große Herausforderung dar. Sie verringern die Effizienz statistischer Analysen und können zu verzerrten Parameterschätzungen führen, wenn sie nicht angemessen behandelt werden. Dies tritt besonders auf, wenn systematisch Daten fehlen und Methoden wie der listenweise Fallausschluss angewendet werden. In Schulleistungsstudien erschwert die häufige Mehrebenenstruktur der Daten die Behandlung fehlender Werte zusätzlich.
Was sind Ergebnisse des Projekts?
Es umfasste mehrere Teilprojekte. Die ausführlichen Ergebnisse dieser Teilprojekte sind in den jeweiligen Publikationen veröffentlicht.
Im ersten Teilprojekt entwickelten Forschende einen flexiblen Ansatz für die multiple Imputation fehlender Werte in Mehrebenenanalysen. Sie übertrugen den sogenannten Sequential Modelling Ansatz auf diesen Kontext und implementierten ihn im R-Paket „mdmb“ (Robitzsch & Lüdtke, 2021). Dieser Ansatz behandelt fehlende Werte auf verschiedenen Ebenen, wie der Ebene der Schüler und Lehrkräfte, und in gemischten Datentypen. Er berücksichtigt variierende Steigungskoeffizienten (Random Slopes) und nicht-lineare Effekte, wie Cross-Level-Interaktionen und polynomiale Effekte. Zudem unterstützt er verschiedene Methoden der Zentrierung, beispielsweise am Schulmittelwert.
Grund, Lüdtke und Robitzsch haben in ihrem Beitrag, der 2021 in der Zeitschrift Behavioral Research Methods veröffentlicht wurde, den Ansatz in mehreren Simulationsstudien evaluiert. Sie demonstrierten die Anwendung dieses Ansatzes in einem umfassenden Fallbeispiel.
Zur Publikation:
Grund, S., Lüdtke, O., & Robitzsch, A. (2021). Multiple imputation of missing data in multilevel models with the R package mdmb: A flexible sequential modeling approach. Behavior Research Methods, 53(6), 2631–2649. https://doi.org/10.3758/s13428-020-01530-0
Im zweiten Teilprojekt lag der Fokus auf der Analyse von mehrfach imputierten Datensätzen. Dabei standen insbesondere die Herausforderungen im Zusammenhang mit der Analyse im Vordergrund. Während Pooling-Verfahren für einzelne Parameter wie Steigungskoeffizienten weit verbreitet sind, gibt es für Hypothesen, die mehrere Parameter betreffen, oder die Bewertung der Modellgüte verschiedene konkurrierende Ansätze. Diese wurden bisher kaum evaluiert und sind nur selten in statistischer Software verfügbar. Das Projekt untersucht aktuelle Verfahren zur Kombination von Likelihood Ratio Tests in verschiedenen Modellkontexten, darunter Regressionsmodelle, verallgemeinerte lineare Modelle und Strukturgleichungsmodelle.
Zur Publikation: Eine Publikation, in der die Verfahren evaluiert und deren Verwendung am Beispiel der Prüfung von Messinvarianz demonstriert werden, ist in der Zeitschrift Psychological Methods erschienen.
In einem weiteren Teilprojekt nutzten die Forschenden das Verfahren der multiplen Imputation, um synthetische Daten zu erzeugen. Synthetische Daten sind künstlich erzeugte Datensätze, die keine direkte Beziehung zu den originalen Datenpunkten haben. Sie reflektieren jedoch weiterhin die zentralen Beziehungen zwischen den Variablen im Datensatz, vorausgesetzt, es werden geeignete Imputationsmodelle zur Erstellung der synthetischen Daten verwendet. Synthetische Daten können die Reproduzierbarkeit von Analyseergebnissen verbessern, besonders wenn Originaldatensätze aus datenschutzrechtlichen Gründen nicht öffentlich zugänglich sind. Die Forschenden haben verschiedene Methoden zur Erzeugung synthetischer Daten untersucht und in Software umgesetzt. Eine Studie nutzte bereits das Verfahren zur Erzeugung von synthetischen Daten, um verschiedene Trendschätzungen mit den PISA-Daten zu vergleichen. Dadurch war es möglich, den Analysecode gemeinsam mit den (synthetischen) PISA-Daten öffentlich zur Verfügung zu stellen.
Zur Publikation: Die Befunde wurden in einem Beitrag zusammengefasst, der in der Zeitschrift Psychological Methods publiziert wurde.
In einem letzten Teilprojekt entwickelten die Forschenden Ansätze zur Behandlung fehlender Beobachtungen in Datensätzen mit kreuz-klassifizierter Mehrebenenstruktur und evaluierten diese in Simulationsstudien. Derartige Datenstrukturen treten häufig in der Bildungsforschung auf, beispielsweise wenn Schüler*innen derselben Schule unterschiedlichen Nachbarschaften angehören. Sie verfassten einen Beitrag, der anhand simulierter und realer Daten zeigt, wie man solche Datenstrukturen bei der Ersetzung fehlender Werte adäquat berücksichtigt.
Zur Publikation: Der Beitrag ist in der Zeitschrift Journal of Educational and Behavioral Statistics erschienen.
Auszug unserer Forschungsprojekte
-
Forschungsprojekt abgeschlossen Methodenforschung Fehlende Daten in der Bildungsforschung II
01.01.2020
Mehr lesen -
-
Forschungsprojekt laufend Methodenforschung Entwicklung von statistischen Methoden für die Modellierung interaktiver Aufgaben
27.03.2025
Mehr lesen -
Forschungsprojekt abgeschlossen Methodenforschung Entwicklung von Software für die Schätzung von Mehrebenenstrukturgleichungsmodellen
01.01.2017
Mehr lesen