Dos soluciones recomendadas para los datos faltantes – Imputación Múltiple

Posted by admin on July 14, 2012

Hay dos métodos para hacer frente a los datos que faltan, grandes mejoras respecto a los métodos tradicionales, se han convertido en disponibles en el software principal estadística en los últimos años.

Tanto de los métodos aquí descritos requieren que los datos faltan al azar – no está relacionado con los valores que faltan. Si esta suposición es válida, las estimaciones resultantes (es decir, los coeficientes de regresión y los errores estándar) será imparcial, sin pérdida de potencia.

El primer método es Imputación múltiple (MI). Al igual que los métodos de imputación a la antigua, llena de imputación múltiple en las estimaciones para los datos que faltan. Sin embargo, para capturar la incertidumbre de esas estimaciones, MI estima los valores varias veces. Debido a que utiliza un método de imputación con el error en la construcción, las estimaciones múltiples deben ser similares, pero no idénticos.

El resultado es varios conjuntos de datos con valores idénticos para todos los valores que no faltan y los valores ligeramente diferentes para los valores imputados en cada conjunto de datos. El análisis estadístico de interés, tales como ANOVA o regresión logística, se realiza por separado en cada conjunto de datos, y los resultados se combinan a continuación. Debido a la variación en los valores imputados, también debe haber una variación en las estimaciones de los parámetros, que conduce a estimaciones apropiadas de los errores estándar y adecuada los valores de p.

Imputación múltiple está disponible en SAS, S-Plus, R, y ahora el programa SPSS 17.0 (pero es necesario el análisis de valores perdidos módulo add-on).

El segundo método consiste en analizar los datos completos, incompletos establecidos mediante la estimación de máxima verosimilitud. Este método no imputar ningún dato, sino que utiliza cada uno de los casos los datos disponibles para calcular las estimaciones de máxima verosimilitud. La estimación de probabilidad máxima de un parámetro es el valor del parámetro que es más probable que se han traducido en los datos observados.

Cuando faltan datos, podemos factorizar la función de verosimilitud. La probabilidad se calcula por separado para los casos con datos completos sobre algunas de las variables y los que tienen datos completos sobre todas las variables. Estas dos probabilidades entonces se maximiza en conjunto para encontrar las estimaciones. Al igual que la imputación múltiple, este método proporciona estimaciones insesgadas de los parámetros y los errores estándar. Una ventaja es que no requiere la selección cuidadosa de las variables utilizadas para imputar los valores que Imputación múltiple requiere. Es, sin embargo, limitada a los modelos lineales.

El análisis de los datos completos, incompletos establece mediante la estimación de máxima verosimilitud está disponible en AMOS. AMOS es un paquete de modelado de ecuaciones estructurales, pero también puede funcionar varios modelos de regresión lineal. AMOS es fácil de usar y está ahora integrada en SPSS, pero no va a producir gráficos de los residuos, las estadísticas de influencia, y otra producción típica de los paquetes de regresión.

Referencias:
Schafer, J. Software para la imputación múltiple
Hox, J.J. (1999) Una revisión de la actual del software de manejo de datos faltantes, Kwantitatieve Methoden, 62, 123-138.
Allison, P. (2000). Imputación múltiple de los datos faltantes: un cuento aleccionador, los métodos sociológicos y de investigación, 28, 301-309.

Categories: Software

Comments are closed.