Was sind die Fehler beim Imputieren fehlender Werte mit dem Mittelwert?

Inhaltsverzeichnis:

Was sind die Fehler beim Imputieren fehlender Werte mit dem Mittelwert?
Was sind die Fehler beim Imputieren fehlender Werte mit dem Mittelwert?

Video: Was sind die Fehler beim Imputieren fehlender Werte mit dem Mittelwert?

Video: Was sind die Fehler beim Imputieren fehlender Werte mit dem Mittelwert?
Video: Fehlende Werte ersetzen in SPSS 2024, Dezember
Anonim

Mittelwertimputation verzerrt Beziehungen zwischen Variablen Aber die Mittelwertimputation verzerrt auch multivariate Beziehungen und beeinflusst Statistiken wie die Korrelation. Beispielsweise berechnet der folgende Aufruf von PROC CORR die Korrelation zwischen der Orig_Height-Variable und den Weight- und Age-Variablen.

Warum es keine gute Idee ist, einen Mittelwert für fehlende Daten zu verwenden?

Mittelwert reduziert eine Varianz der Daten Wenn man tiefer in die Mathematik einsteigt, führt eine kleinere Varianz zu einem schmaleren Konfidenzintervall in der Wahrscheinlichkeitsverteilung[3]. Dies führt zu nichts anderem, als unser Modell zu verzerren.

Warum sind fehlende Werte ein Problem?

Fehlende Daten führen zu verschiedenen Problemen. Erstens das Fehlen von Daten verringert die statistische Aussagekraft, die sich auf die Wahrscheinlichkeit bezieht, dass der Test die Nullhypothese zurückweist, wenn sie falsch ist. Zweitens können die verlorenen Daten zu Verzerrungen bei der Schätzung von Parametern führen. Drittens kann es die Repräsentativität der Stichproben verringern.

Warum ist gemeine Unterstellung schlecht?

Problem Nr. 1: Mittelwert Imputation behält die Beziehungen zwischen Variablen nicht bei. Richtig, die Imputierung des Mittelwerts bewahrt den Mittelwert der beobachteten Daten. Wenn also die Daten zufällig komplett fehlen, bleibt die Schätzung des Mittelwerts unverzerrt.

Sollten Sie fehlende Daten durch den Mittelwert ersetzen?

Ausreißer-Datenpunkte haben einen signifikanten Einfluss auf den Mittelwert und daher es wird in solchen Fällen nicht empfohlen, den Mittelwert zum Ersetzen der fehlenden Werte zu verwenden. Die Verwendung von Mittelwerten zum Ersetzen fehlender Werte erstellt möglicherweise kein großartiges Modell und wird daher ausgeschlossen.

Empfohlen: