sábado, 8 de junio de 2013

Otra correlación insostenible

Lc 15:32
No es la primera vez que me ocupo de este tema (aquí y aquí), pero como se insiste, pues cabalgamos.
El caso es que Manuel Bagüés, en el blog de FEDEA, ha escrito una entrada en la que se sorprende de "lo poco que ha cambiado el mapa educativo en siglo y medio", presentando un gráfico de dispersión, en apariencia, apabullante. ¡Nada menos que el 72% del nivel educativo actual, a nivel regional, sería explicable por las tasas de analfabetismo existentes antes de la puesta en marcha de la primera ley educativa de España! Eso le da pie a hablar de la asombrosa "persistencia de los fenómenos sociales, culturales o económicos" y otras zarandajas, por no hablar de la, por momentos delirante, discusión posterior (ni Bagüés -que a veces tiene anotaciones espléndidas- ni los otros colaboradores del blog suelen publicar cosas tan flojas, aunque es habitual que no acabe de estar de acuerdo con ellos en materia educativa).
El problema es que el gráfico apenas se sostiene. Veamos por qué.
En el primer gráfico reproduzco el gráfico de Bagüés, con la recta de regresión lineal, otra curva polinómica y la de Loess. La primera tiene un ajuste medio para el número de puntos, la segunda ajusta un poco mejor, pero no mucho, y la tercera la he puesto porque me gusta, me parece muy indicativa. Yo hubiera dado la vuelta al gráfico (la variable explicativa sería la alfabetización del s.XIX: es difícil que el nivel de lectura actual explique lo que ocurrió hace 150 años), pero es un detalle menor que no cambia lo esencial. Otro error es lo del 72%: en el mejor de los casos, la R2 apenas pasa de 0,5. Probablemente se deba a que ha cogido R en vez de R2, un despiste como otro cualquiera. Aún así, que un factor explique un 50% no es desdeñable, aunque sería deseable que se profundizase algo más en el componente explicativo y causal, porque si no sólo alimentamos prejuicios.
En el segundo gráfico, muy similar al anterior, señalo en rojo las comunidades del sur y en azul las del norte, con sus rectas de regresión consiguientes: en el sur el efecto de las tasas de analfabetismo desaparece, mientras que en el norte la correlación es muy pequeña (y, de hecho, no llega a ser significativa). Como ya comenté en uno de los post citados anteriormente, si cuando divides España en norte y sur el efecto desaparece, pues tienes el efecto norte-sur, y puedes tirar tu factor explicativo "por um cano abaixo". La verdad es que si tienes a diez (más de la mitad) de las CCAA alrededor de un 20% de tasa de alfabetización con diferencias en lectura de más de 50 puntos, ya era para sospechar que el factor explicativo no daba para mucho, pero muy a menudo, cuando tenemos datos agrupados (a mí también me pasa), lo elevado de la correlación no nos deja ver la debilidad de la misma.
[Nota técnica: ya sé que esto último se hace metiendo una dicotómica norte-sur e introduciéndola en la regresión, pero así queda más claro para los legos. Si se hace, el coeficiente del efecto de la alfabetización se reduce a la sexta parte y deja de ser significativo, mientras que la R2 pasa de 0,5 a 0,78. Por tanto, tenemos dos grupos diferenciados, y utilizar la regresión sin utilizar esto en cuenta conduce a errores de interpretación, como el presente.]
Nos queda, entonces, el efecto norte-sur: ¿se ha mantenido estos 150 años?
Hay una evaluación realizada en España en 1997 en la que se publicaron resultados por comunidades autónomas (que yo sepa, por primera vez), aunque ya nadie se acuerde de ella. Es una evaluación muy interesante que encierra buena parte de las claves y problemas de nuestra educación. Que yo sepa, no hay manera de conseguirla entera en internet, aunque en Google Books es posible ver parte de alguno de los siete tomos que se publicaron. Hay, además, un resumen de la misma bastante amplio en inglés y menos amplio en español, pero que hay que bajarse en sendos zip (aquí y aquí). La evaluación medía la competencia en bastantes áreas (Comprensión lectora, Gramática y Literatura, Matemáticas, Ciencias de la Naturaleza y Geografía e Historia) de los alumnos de 14 y 16 años (8º de EGB y 2º de BUP/FP I en el sistema anterior, 2º y 4º de la ESO en el actual), pero dos de las comunidades que esperaban peores resultados (Canarias y Andalucía) se negaron a presentarse (si quieren un ejemplo de pervivencia histórica, ahí está Taifistán). En fin, no me voy a extender más sobre las bondades de esta evaluación, pero si quieren un ejemplo de su actualidad, lean el capítulo de las conclusiones titulado "La mediocridad no debe constituir un objetivo común" (sólo en la versión inglesa).
Bueno, el caso es que tenemos una medición de la competencia lectora a los 14 años en 1996, otra a los 16 en 1996 (pero en esta ya faltaban alumnos que habían dejado la escuela, al menos un 5%), y otra en 2009, todas ellas por CCAA. Si la permanencia de los factores socioculturales de las regiones españolas durase siglo y medio, es evidente que tendrían que notarse en la evaluación de 1996. Y esto es lo que pasa.
En este tercer gráfico (arriba) el ajuste lineal (en rojo) es, esta vez, ridículo, mientras que el ajuste cuadrático (en azul), pese a ser bastante alto, carece sencillamente de sentido. Eso sí, de nuevo ninguna CCAA del sur está por delante de ninguna del norte.
Si pasamos (cuarto gráfico, arriba) a los 16 años (ya hay cerca de un 5% de alumnos no escolarizados) hay algunas variaciones, pero la correlación lineal sigue siendo baja y no significativa.
Por fin (quinto gráfico, arriba), esto es lo que ocurre cuando correlacionamos la evaluación de 1996 (a los 14 años) con la de PISA 2009 (a los 15): una correlación débil causada por el consabido norte-sur, inexistente entre las CCAA del norte y bastante fuerte (y negativa) entre las del sur. No es que signifique demasiado, pero es un ejemplo de cómo factores que correlacionan en cada grupo negativamente, pueden dar lugar a una correlación positiva si no tomamos en cuenta la grupalidad.
Quizás este último gráfico sea el más interesante: se han normalizado las puntuaciones de ambas evaluaciones para poder compararlas (utilizando la media y desviación típica de los alumnos, no la de las CCAA). Esta normalización permite comparar grupos de datos distintos que se distribuyen más o menos normalmente, pero tiene sus limitaciones: no es posible comparar la evolución de España, sino la variación de cada una de sus regiones asumiendo que la media de España es la misma en 1997 que en 2009. Es decir, no podemos decir que la región x haya empeorado o mejorado en términos absolutos, sino con respecto al grupo: podría suceder que toda España hubiera mejorado (o empeorado) mucho en poco más de una década, y por tanto que la región x se hubiera quedado simplemente estancada.
Las tres comunidades que más empeoran, sobre todo en el segundo gráfico, son del sur (y no tenemos datos de Canarias ni de Andalucía), mientras que las del norte tienden a experimentar variaciones más pequeñas. El caso de Cataluña tiene sus dificultades: en 1997 fue la última vez que se midió la competencia lectora en castellano comparándola con el resto de España, y la de 2009 mide la competencia lectora en catalán. No aparecen en el gráfico los datos de Ceuta y Melilla, porque no hay información sobre su tasa de alfabetización, pero en 1996 se situaba al lado de la C. Valenciana (z=-0,22) para los 14 años, mientras que en 2009 se saldría del gráfico, con un valor estandarizado z=-0,91, una diferencia de -0,69 desviaciones típicas (y eso que no tiene la educación transferida, todavía depende del Ministerio). De todas formas, el peso del dato histórico sigue sin ser fuerte en este caso (si correlacionamos diferencias con tasa de alfabetización, la R2 es de 0,134 a los 14, y algo menos a los 16).
No dudo de la pervivencia de la Historia en nuestra sociedad (tengo algunas teorías al respecto), y de algunos factores sociológicos, pero si perviven lo han hecho a través de las familias, y estas se han movido mucho en 150 años (no pocas veces, expulsadas de su solar por esos factores). PISA, que tiene el lugar de nacimiento de los padres, puede dar pistas sobre el tema, quizás. Pero la tasa de alfabetización, tal y como se ha planteado, no parece explicar demasiado a nivel macro.
Como idea general, un sistema educativo fuerte reduce el peso de los factores sociales indeseados en los resultados, mientras que uno débil hace que éstos resurjan. El problema está en que, en la última década, los factores de origen están ganando peso si atendemos no tanto a lo que saben los alumnos, sino a sus oportunidades de titulación. Pero eso lo dejamos para otro día.