Mes: octubre 2012

Cálculo de ponderaciones en muestreos complejos

“En las investigaciones que se hacen por encuestas poblacionales, se debe tener en cuenta el peso de cada observación y también su pertenencia a los conglomerados utilizados en el trabajo de campo.  Pero tengo un problema con el concepto de los pesos: Si utilizo los pesos de muestreo, los resultados se ajustan para realizar la inferencia sobre la población objetivo en términos de millones, aumentando “artificialmente” el tamaño de la muestra y el poder del estudio. ¿Para hacer análisis que sólo me sirvan para realizar inferencias sobre las relaciones entre variables puedo hacer este enfoque?: Crear pesos analíticos que indiquen el peso de una observación frente a la población objetivo pero que al sumarlos todos nos de el tamaño de la muestra del estudio (ej. 7000 sujetos). Cómo hago para calcular esos pesos analíticos?”

Al hacer inferencia con los datos ponderados convierte el tamaño de muestra al tamaño poblacional, y seguramente todas las inferencias basadas en un tamaño tan grande daran significativas. Dado que la inferencia es basada en una muestra, intuitivamente parece adecuado que la inferencia se haga con el tamaño de tal muestra.

El procedimiento es relativamente sencillo. Asumiendo el caso mas simple, que es cuando tenemos varios estratos (por ej. 7 en la tabla), lo primero que hay que calcular son los pesos de muestreo. Una manera de recordar este concepto es responder a la pregunta: ¿A cuantos individuos de la población esta representando un individuo en la muestra?.

Pesos de Muestreo: En el caso de una muestra aleatoria simple, el peso de muestreo esta dado por N/n. En el caso de muestreo estratificado o de muestreos mas complejos, los pesos (o ponderaciones) estan dados -para cada estrato o grupo- por el tamano del estrato en la población y los individuos en la muestra que corresponden al estrato en mención, es decir w_i = N_i / n_i.  Hacer el analisis con esta ponderaciones produce estimaciones correctas e interpretables directamente en el contexto de la población.

En la tabla adjunta, al hacer la suma de los productos  n_i*w_i  esta suma reproduce el total de la población, es decir, la suma de las poblaciones de todos los estratos. En cualquiera de las versiones actuales de paquetes estadisticos se puede ‘activar’ la ponderacion asignando una variable calculada, digamos WEIGHT1 para cada indviduo, dividiendo el N poblacional (grande) por el n muestral (pequeño) del estrato al que pertenece dicho individuo  (e.g. en SPSS se hace por la opcion Data > Weight cases; en Stata es buena idea explorar las versiones svy de los comandos mas comunes, o en las ultimas versiones usar el comando precedido de svy: es lo más usual).

Pesos ‘Analiticos’*: Para evitar el problema del tamaño gigantesco de muestra, que produciría valores p ‘altamente significantes’ al momento de hacer pruebas estadisticas (e.g. Chi-cuadrado, coeficiente de correlacion, o una simple prueba t), y por consiguiente una inferencia incorrecta, se debe ‘restituir’ el tamaño de la muestra original pero sin perder la ponderacion dada por los pesos de muestreo anteriormente calculados. Esto se logra, multiplicando (para cada individuo) el peso de muestreo por el factor n/N, es decir, por la fracción de muestreo total, f = n/N. En SPSS, significaria calcular una nueva variable, digamos COMPUTE WEIGHT2 = WEIGHT1*(N_MUESTRA/N_POBLACION).

Finalmente, cuanto se esté haciendo el análisis, se deben activar los pesos correspondientes, dependiendo de si se esta estimando el numero de individuos con una determinada caracteristica en la población (WEIGHT1), o si se esta probando la asociación entre un par de variables, y se necesita reportar un valor p (WEIGHT2).

Incluyo un archivo Excel con el ejemplo de la tabla: Example – Sampling and Analytical Weights in Complex Sampling

Tamaño de muestra en cada estrato Tamaño del estrato Poblacional Pesos de muestreo Pesos ‘Analiticos’
n_i N_i w_i=N_i/n_i n_i*w_i w”_i = w_i*(n/N) n_i*w”_i
20 73,000 3650.000 73,000.0 8.183 163.7
45 42,000 933.333  42,000.0 2.092 94.2
30 5,600 186.667 5,600.0 0.418 12.6
25 900 36.000 900.0 0.081 2.0
65 1,200 18.462 1,200.0 0.041 2.7
80 1,500 18.750 1,500.0 0.042 3.4
65 23,000 353.846 23,000.0 0.793 51.6
330 147,200 147,200.0 330.0