-
abgeschlossen -
Forschungsprojekt -
Methodenforschung
Fehlende Daten in der Bildungsforschung I
Worum ging es in dem Projekt?
Fehlende Daten (Missing Data) stellen in der Bildungsforschung eine große Herausforderung dar und sind im Allgemeinen mit drei Problemen bei der Datenauswertung verbunden:
- Die aufgrund des Datenausfalls reduzierte Stichprobengröße führt zu einer verringerten Effizienz bei der Parameterschätzung.
- Der Umgang mit den Daten wird erschwert, weil statistische Standardverfahren vollständige Datensätze erwarten.
- Es besteht die Gefahr verzerrter Parameterschätzungen, weil systematische Unterschiede zwischen den beobachteten und den fehlenden Daten vorliegen könnten.
In der Forschungspraxis werden häufig noch Ad-Hoc-Lösungen (z. B. fallweiser und paarweiser Ausschluss) zur Behandlung von fehlenden Werten verwendet, obwohl mit dem Verfahren der multiplen Imputation ein Ansatz zur Behandlung von fehlenden Werten vorliegt, der im Allgemeinen schwächere Annahmen bezüglich des Ausfallprozesses der Daten trifft.
Für die Analyse von Schulleistungsstudien ergeben sich hinsichtlich fehlender Daten noch zwei weitere Herausforderungen: Erstens weisen die Daten aus Schulleistungsstudien häufig eine Mehrebenenstruktur auf, in der die Schüler*innen (Ebene 1) geschachtelt in Schulen (Ebene 2) sind. Zweitens ist aktuell noch nicht zufriedenstellend geklärt, wie bei der Skalierung der Leistungsdaten mit fehlenden Werten in Hintergrundvariablen (z.B. Kontextfragebögen) umgegangen werden soll.
Das vorliegende Projekt widmete sich der Optimierung der Behandlung von fehlenden Daten bei der Auswertung von Large-Scale Assessments mit Hilfe dem Verfahren der multiplen Imputation.
Das Projekt befasste sich vor diesem Hintergrund mit drei Herausforderungen bei der Durchführung der multiple Imputation in Large-Scale Assessments.
Was sind Ergebnisse des Projekts?
Im Folgenden sind die Herausforderungen mit den zugehörigen Ergebnissen zusammengefasst:
Wie können fehlende Daten auf Ebene 2 adäquat behandelt werden?
Es wurden verschiedene Ansätze zur Behandlung fehlender Werte auf Ebene 2 (z. B. fehlende Angaben auf Schul- oder Klassenebene) implementiert und anhand von umfangreichen Simulationsstudien evaluiert (Grund, Lüdtke & Robitzsch, 2018). Ein wichtiger Befund war, dass durch die Berücksichtigung von Variablen auf Ebene 1 (z.B. Schülerleistung) die Imputation von fehlenden Werten auf Ebene 2 (z.B. fehlender Angabe der Lehrerin) substantiell verbessert werden kann. Die im Rahmen der Arbeit evaluierten Ansätze zur Spezifkation des Imputationsmodells sind in statistischer Software verfügbar (in den R-Paketen „miceadds“ und „mitml“). Diese Arbeit war zentraler Bestandteil der Dissertation von Simon Grund, die 2017 abgeschlossen und 2018 mit dem Fakultätspreis der Philosophischen Fakultät der Universität Kiel ausgezeichnet wurde.
Wie sollen nicht-lineare Effekte bei der multiplen Imputation berücksichtigt werden?
In einem zweiten Strang wurden Strategien zum Umgang mit fehlenden Werten in Modellen mit komplexen nicht-linearen Effekten erarbeitet. Es wurde ein sogenannter Sequential Modelling Ansatz entwickelt, bei dem das Imputationsmodell so in eine Sequenz von bedingten Modellen zerlegt wird, dass auch komplexe nicht-lineare Beziehungen zwischen den Variablen erfasst werden können. Diese Arbeiten wurden in Kooperation mit Prof. Stephen West (Universität Arizona) durchgeführt und führten zu zwei Zeitschriftenpublikationen (Lüdtke, Robitzsch & West, in press; Lüdtke, Robitzsch & West, 2020). Dieser Ansatz wurde in dem R-Paket „mdmb“ implementiert und wurde auf Modelle mit latenten Variablen (z. B. schulisches Selbstkonzept gemessen über mehrere Items) oder kategorialen Variablen (z. B. Wahl einer Schulform) erweitert.
Wie sollen fehlende Werte im Skalierungsmodell für die Fähigkeiten behandelt werden?
In diesem dritten Schritt wurden verschiedene Ansätze zur Behandlung von fehlenden Werten in den Hintergrundvariablen des Skalierungsmodells für die Fähigkeitswerte von Schüler*innen evaluiert. Mit Hilfe von umfangreichen Simulationsstudien und analytischen Herleitungen wurde untersucht, unter welchen Bedingungen das aktuell in PISA verwendete Verfahren zur Behandlung von fehlenden Werten im Hintergrundmodell zu korrekten Ergebnissen führt. Es zeigte sich, dass nur bei komplett zufälligem Datenausfall und bestimmten Analysemodellen unverzerrte Parameterschätzungen resultierten. Des Weiteren wurden alternative mehrschrittige Verfahren (Imputation der Hintergrundvariablen, dann Skalierung der Fähigkeitswerte) entwickelt und mit Hilfe von Simulationsstudien evaluiert. Anhand einer Fallstudie wurden die Konsequenzen dieser Befunde für die Nutzung von Daten aus Schulleistungsstudien diskutiert, insbesondere bezüglich der Skalierung der Fähigkeitswerte und deren Verwendung in Sekundäranalysen. Ein Manuskript befindet sich derzeit beim Journal of Educational and Behavioral Statistics in der zweiten Begutachtungsrunde.
Zusammenfassend kann festgehalten werden, dass die im angegebenen Zeitraum entstandenen Arbeiten sowohl einen substantiellen Beitrag zur methodischen Missing Data Literatur leisteten als auch Empfehlungen für praktisch arbeitende Wissenschaftler*innen in der Schul- und Unterrichtsforschung bereitstellen. Durch die Entwicklung von relativ leicht einzusetzender Software wurde ein adäquater Umgang mit fehlenden Daten auch in komplexeren Datensätzen ermöglicht.
Auszug unserer Forschungsprojekte
-
Forschungsprojekt abgeschlossen Methodenforschung Entwicklung von Software für die Schätzung von Mehrebenenstrukturgleichungsmodellen
01.01.2017
Mehr lesen -
-
Forschungsprojekt abgeschlossen Methodenforschung Fehlende Daten in der Bildungsforschung II
01.01.2020
Mehr lesen -
Forschungsprojekt laufend Methodenforschung LDW II
27.03.2025
PISA 2025 Kompetenzdomäne „Lernen in der digitalen Welt“
Mehr lesen