domingo, 20 de noviembre de 2011

Mi porra electoral

Algunos blogs de los que soy lector habitual han propuesto sendas porras electorales: malaprensa y politikon. En la de los segundos no he participado por una razón algo peregrina (no tengo cuenta en twitter), pero sí en la propuesta por Josu. El caso es que estos retos han hecho que me introduzca un poco en los misterios de nuestra ley electoral. Y, después, me construí un simulador para hacer algunas pruebas con los datos disponibles.
Una de las posibilidades era utilizar los datos de una encuesta lo suficientemente grande, como la del CIS, pero me pareció mejor idea utilizar la cercana confrontación electoral de mayo y corregirla sobre la base de estas encuestas. Los datos de las pasadas elecciones municipales son una gran encuesta realizada hace tan sólo hace seis meses y sin margen de error, y me pareció buena idea utilizarla como punto de partida.
Esta es una simulación de los resultados electorales de las elecciones generales utilizando el voto provincial de las municipales de mayo de 2011:

Simulación elecciones municipales 2011
Escaños
PP167
PSOE115
IU16
CiU16
UPyD2
PNV7
Amaiur7
ERC6
BNG2
PA2
CC5
Equo1
FAC2
PRC1
GBai1
Fuente: Elaboración propia sobre datos del Ministerio del Interior.

El simulador aún tiene que mejorarse (sólo le he dedicado un día), pero en líneas generales creo que el resultado es correcto. Es decir, el PP habría ganado claramente las elecciones obteniendo 167 escaños, por lo hubiera gobernado sin mayoría absoluta, pero sin demasiados problemas. Pero hay dos problemas: que han pasado seis meses desde entonces, y que el número de votos de los partidos mayoritarios en las municipales es muy inferior a los de las municipales. Por ello aparecen algunos partidos pequeños que no obtendrán representación (al no superar la barrera del 3%) en las generales. Por la misma razón, los partidos regionales aparecen, en líneas generales, con más diputados de los que sacarán en realidad.
Aunque ya nadie se acuerde, las elecciones municipales de 2007 las ganó el PP, con escasa diferencia sobre el PSOE, pero en las nacionales del año siguiente el Partido Socialista consiguió dar la vuelta a la situación y ganar con una mayoría holgada que le ha permitido gobernar hasta la fecha.
El vuelco a la situación se produjo porque, aunque el PP aumentó el número de votos (con respecto a las elecciones municipales del años anterior) un 30%, el PSOE los aumentó un 45%. Ambos partidos tuvieron un gran éxito movilizando a sus votantes, pero el PSOE lo hizo claramente mejor.
La siguiente tabla muestra la proyección de los resultados municipales a las circunscripciones nacionales con un aumento de voto del PP (respecto a las municipales de 2011) del 30%, y para diversas movilizaciones posibles del electorado del PSOE (se ha incluido también un deslizamiento del voto a IU y UPyD del 2 y el 1% respectivamente del antiguo voto socialista):

Proyección de resultados municipales (PP: +30%)
PSOE: +0%PSOE: +10%PSOE: +20%PSOE: +30%PSOE: +45%
PP190184178174167
PSOE99108115123131
IU1413131212
CiU1616151515
UPyD22222
PNV66655
Amaiur77766
ERC54443
BNG22222
PA00000
CC55544
Equo11111
FAC21111
PRC11111
Fuente: Elaboración propia sobre datos del Ministerio del Interior.

Se puede decir, como en el fútbol, que el PP depende de sí mismo: si consigue una alta movilización de sus votantes, sólo una movilización en masa (poco probable, hoy por hoy) del voto socialista podría evitar la mayoría absoluta popular.
Sin embargo, se puede considerar que una movilización del 30% del voto PP sobre las elecciones municipales es demasiado alta, ya que hay que tener en cuenta que el PP ya estaba movilizado (en algunos casos, era un voto de castigo a Zapatero) en las municipales, y por tanto, su aumento de voto será más moderado. En este caso, las cosas podían ir así:

Proyección de resultados municipales (PP: +20%)
PSOE: +0%PSOE: +10%PSOE: +20%PSOE: +30%PSOE: +45%
PP180176172168159
PSOE106113119127139
IU1514141312
CiU1616151515
UPyD22222
PNV66655
Amaiur77766
ERC54443
BNG22222
PA21000
CC55544
Equo11111
FAC22221
PRC11111
Fuente: Elaboración propia sobre datos del Ministerio del Interior.

En este caso, la movilización socialista sí podría evitar una mayoría absoluta del PP, pero es difícil que le arrebate una victoria y una mayoría cómoda.
Vistas así las cosas, me fiaría más de un análisis de participación por comunidades que de las encuestas a pie de urna (un método, además, mucho más barato) para los primeros momentos tras el cierre de las urnas.
El método empleado aún es demasiado grueso, ya que utilizo aumentos de participación generales y no provinciales, y no hay un análisis exhaustivo de tendencias, todo ello por falta de tiempo. Pero, si las próximas generales tienen tan cerca las municipales, lo mismo hay tiempo de mejorar la herramienta y ganar todas las porras. También he sumado votos a partidos que ahora van juntos y coaliciones partidas que no sé si se van a corresponder con la realidad, por lo que algún partido pequeño estará sobrerrepresentado.
En fin, tras el análisis, ¿con qué nos quedamos? Al final, hay que rellenar la porra con un solo resultado. Pues esta es mi apuesta: movilización alta del PP y media del PSOE. Y estos los resultados.

Proyección de resultados municipales
(PP: +25%/PSOE: +20%)
Escaños
PP175
PSOE117
IU13
CiU15
UPyD2
PNV6
Amaiur7
ERC4
BNG2
PA0
CC5
Equo1
FAC2
PRC1
Fuente: Elaboración propia sobre datos del Ministerio del Interior.

Aunque hoy veremos: si la participación se acerca al 60% la mayoría del PP será absoluta, e irá peligrando a medida que la participación vaya acercándose al 75%. Los datos de participación en Andalucía y Cataluña serán esenciales para saber quién vota y quién se abstiene en este día lluvioso. 
Quizás habría estado bien publicar este análisis hace un par de días, pero uno tiene el tiempo que tiene...

martes, 8 de noviembre de 2011

"Heredabilidad" del paro y el nivel de estudios

Todos sabemos que la familia tiene una importancia capital en nuestra vida. No sólo por la herencia genética, sino por un cúmulo de valores, actitudes y cuestiones sociales que tienen una influencia indudable. El peso de unos factores u otros aún está en discusión, y no voy a entrar en el tema. Lo que denomino "heredabilidad" del paro o del nivel de estudios es encontrar cuánto condiciona la familia en estos temas, independientemente de las razones biológicas, económicas o sociales que haya detrás.
El otro día le comentaba a Kiko Llaneras, otro "escarbador de datos", que para la importancia que tiene el paro, la discusión pública y el análisis de los datos disponibles ha sido escaso. Él sigue publicando algunas cosas (como sigamos sin hacer nada podemos estar discutiendo sobre si vamos a llegar o no a los seis millones de parados el año que viene), y yo sigo con las mías.
Los cálculos que se presentan ahora son una aproximación, pues están basados en un sólo trimestre de la EPA (2011T3, el último disponible) y, como veremos, en el mismo trimestre hace seis años (2005T3) para la comparación del nivel de estudios. Para llegar a conclusiones definitivas hace falta un estudio más profundo que no tengo posibilidad de hacer (al menos gratis et amore), ya que lleva mucho tiempo.
Otro de los problemas es que para encontrar a personas con estudios terminados hay que irse a los 25-29 años, ya que muchos de los que tienen 20-24 aún están estudiando, sobre todo en la universidad. Pero la EPA sólo permite relacionar padres e hijos si aún viven en la misma casa, y a esas edades son aún menos. Si encima utilizamos al padre en vez de a la madre --como es el caso--, los casos se reducen aún más, y comienza a haber problemas de muestra. Al final, la muestra útil se queda en poco más de 5.000 casos, lo que no está nada mal (la EPA para eso es una maravilla) mientras no segmentemos demasiado. Por cierto, los datos sólo incluyen a jóvenes nacidos en España.
En fin, vamos con los datos: lo primero que hice fue seleccionar a los jóvenes entre 25 y 29 años que viven en casa con su padre (un 83% del total), y ver el porcentaje de éstos que estaba en paro cuando su padre estaba en paro. Y estos son los resultados.

Situación laboral de los jóvenes (25-29 años) y la de su padre
Cifras totales
Padre ocupadoPadre parado Total
Joven ocupado430.54340.811471.354
Joven parado137.12040.836177.955
Total567.66381.647649.310
Porcentajes verticales
Padre ocupado Padre paradoTotal
Joven ocupado75,850,072,6
Joven parado24,250,027,4
Total100,0100,0100,0
Porcentajes horizontales
Padre ocupadoPadre parado Total
Joven ocupado91,38,7100,0
Joven parado77,122,9100,0
Total87,412,6100,0
Fuente: Elaboración propia sobre datos de la EPA (2011T3).

Parece, pues, que el grupo con padre empleado tiene una tasa de paro del 24%, mientras que en el grupo con padre sin trabajo la tasa de paro es del 50%. Hay varias razones para que esto ocurra. La primera en que pensé fue que es más probable que los jóvenes sin empleo continúen viviendo en casa de su padre o hayan vuelto a ella, al no tener ingresos. Pero los datos permitieron descartar esa hipótesis, ya que la tasa de paro entre los que aún viven en casa con su padre a los 25-29 años es igual que la de los que no viven en ella. Otra de las razones es que al vivir en el mismo sitio tienen también un condicionante geográfico que puede influir, y de hecho el análisis por CCAA muestra que a ese nivel existen diferencias (y que Andalucía engrosa mucho este resultado, aunque la diferencia es amplia en la mayoría de los casos). También puede influir el que los niveles de estudios de padres e hijos (como vimos) están relacionados, por lo que si padre e hijo tienen un bajo nivel de estudios, sus probabilidades de estar en paro aumentan. Seguramente habría otras razones, pero comprobarlas lleva tiempo, si es que se puede. Pero no sería descabellado pensar que esta razón influye en que haya tantas familias con todos los miembros en paro.
En fin, como ya tenía el archivo preparado, se me ocurrió preguntarle más cosas. Por ejemplo, cómo está funcionando el ascensor social que debe ser la educación. Por ello, crucé el nivel de estudios de los padres (varones) con el de los hijos:

Relación entre el nivel de estudios de padres [P] e hijos [H] (2011)
Cifras totales
[P] Bajos[P] Medios[P] Altos[P] Todos
[H] Bajos291.12729.08815.556335.772
[H] Medios157.90149.38744.024251.312
[H] Altos261.246103.210168.029532485
[H] Todos710.274181.685227.6101.119.569
Porcentajes horizontales
[P] Bajos[P] Medios[P] Altos[P] Todos
[H] Bajos86,78,74,6100,0
[H] Medios62,819,717,5100,0
[H] Altos49,119,431,6100,0
[H] Todos63,416,220,3100,0
Porcentajes verticales
[P] Bajos[P] Medios[P] Altos[P] Todos
[H] Bajos41,016,06,830,30
[H] Medios22,227,219,322,4
[H] Altos36,856,873,847,6
[H] Todos100,0100,0100,0100,0
Fuente: Elaboración propia sobre datos de la EPA (2011T3).

Como podemos ver en los porcentajes horizontales, hay muy poco "descenso social", es decir, casi todos (un 87%) los jóvenes con un nivel bajo de estudios tienen un padre con bajo nivel de estudios, mientras que un 9% tienen un padre con un nivel de estudios medio y un 5% tiene un nivel de estudios alto. El "ascenso social" es más evidente, pues la mitad de los alumnos que han alcanzado un alto nivel de estudios tienen un padre con un nivel de estudios bajo. Hay que tener en cuenta que partimos de unas cifras de nivel de estudios en la población adulta muy bajas: un 63% de los padres tienen estudios bajos.
En los porcentajes verticales podemos apreciar mejor los efectos del sistema educativo: un 41% de los jóvenes que tienen un padre con estudios bajos tienen un nivel bajo de estudios, por un 22% que tiene estudios medios y un 37% que tiene estudios altos, lo cual creo que no está nada mal. Entre los que tienen un padre con estudios medios el 16% se queda en estudios bajos, el 27% en estudios medios y el 57% alcanza un nivel alto de estudios. De los que tienen un padre con alto nivel de estudios sólo el 7% alcanza sólo un bajo nivel de estudios, el 19% logra un título de estudios medios, mientras que el 74% obtiene una titulación similar a la de su padre.
En general, es para estar satisfechos: el nivel de estudios de los hijos es bastante mejor que el de los padres, y el sistema actúa mucho mejor como ascensor social que como "descensor" social. O eso parece.
Pero quizás algunos recuerden que nuestro sistema educativo no está funcionando tan bien como hace unos años, y los que no lo recuerden pueden leer esta anotación. Es decir, está funcionando mejor que hace cuarenta años, pero peor que hace diez. ¿Quiere eso decir que hace años nuestro sistema educativo era más eficaz que hoy? Pues vamos a verlo, con datos de la misma EPA hace seis años:

Relación entre el nivel de estudios de padres [P] e hijos [H] (2005)
Cifras totales
[P] Bajos[P] Medios[P] Altos[P] Todos
[H] Bajos369.71330.37715.343415.434
[H] Medios244.26556.09242.206349.563
[H] Altos456.704135.757224.20286.663
[H] Todos1.070.682222.226288.7521.581.660
Porcentajes horizontales
[P] Bajos[P] Medios[P] Altos[P] Todos
[H] Bajos89,07,33,7100,0
[H] Medios69,916,014,1100,0
[H] Altos55,916,627,5100,0
[H] Todos67,714,118,3100,0
Porcentajes verticales
[P] Bajos[P] Medios[P] Altos[P] Todos
[H] Bajos34,513,75,326,3
[H] Medios22,825,217,022,1
[H] Altos42,761,177,651,6
[H] Todos100,0100,0100,0100,0
Fuente: Elaboración propia sobre datos de la EPA (2005T3).

Lo primero es hacer notar el aumento del nivel de estudios de los padres en estos seis años, y el descenso del de los hijos, aunque es algo que podíamos deducir del gráfico antes referenciado: los padres con estudios bajos han pasado del 68% en 2005 al 63% en 2011, pero los hijos con estudios bajos han pasado del 26% en 2005 al 30% en 2011. El 52% de nuestros jóvenes tenían estudios de nivel alto en 2005, por el 48% en 2011. Es un fenómeno bastante conocido que yo achaco a la implantación de la Logse y otros no, pero que ahí está pese a que muchos han negado su existencia. Ahora lo que nos interesa es saber a quién ha afectado más esta involución en los logros educativos de los españoles.
Si miramos los porcentajes horizontales, podría parecer que los hijos con padre que tienen bajo nivel de estudios han mejorado: al fin y al cabo, los jóvenes con estudios bajos con padre de estudios bajos han pasado de ser el 89% en 2005 al 87% en 2011. Pero, si nos fijamos bien, vemos que el efecto se debe a que en 2005 el porcentaje de padres con bajo nivel de estudios era del 68% y en 2011 es del 64%. Si miramos los porcentajes verticales, en realidad han empeorado: dentro de los hijos con padre que tiene estudios bajos, los jóvenes con estudios bajos pasaron del 34% en 2005 al 41% en 2011, con estudios medios se quedaron igual, y los de estudios altos pasaron de ser el 43% al 37%. Una pérdida apreciable.
En jóvenes con padre de estudios altos, el 78% alcanzó estudios altos en 2005, por el 74% en 2011, una pérdida de cuatro puntos, pero el porcentaje que se queda en un nivel bajo de estudios es sólo del 7% en 2011, por el 5% en 2005. Y en jóvenes con padre de estudios medios la pérdida entre los que alcanzan el nivel alto de estudios es de cuatro puntos, pero entre los que alcanzan el nivel bajo son de dos.
Es decir, aunque la pérdida de jóvenes con nivel alto de estudios es similar en todos los niveles (en padres con alto, medio y bajo nivel de estudios) en estos seis años, no ocurre lo mismo con el aumento de los niveles bajos: entre padres con nivel bajo de estudios el aumento es de casi siete puntos, de dos en hijos de padres con estudios medios, y de menos de dos en jóvenes con padre que ha alcanzado un alto nivel de estudios.
Menos mal que gracias a las medidas incluidas en la Logse "el sistema educativo contribuirá a la reducción de la injusta desigualdad social" (Logse, Preámbulo).

miércoles, 2 de noviembre de 2011

Paro, fracaso y PISA

El pasado día salieron los datos de la Encuesta de Población Activa que nos dejaban al borde de los cinco millones de parados o, dicho de otra manera, un 21,5% de las personas que quiere trabajar no encuentra quien lo contrate. Es una burrada sin parangón en el mundo al que queremos pertenecer, tanto en evolución como en números brutos. Algo estamos haciendo muy mal para estar así, pero como no sé demasiado del tema, me abstendré de comentarlo.
Lo que sí sé es que, tal y como se puede ver en esta tabla, la edad y el nivel de estudios son dos factores importantes de protección frente al paro.

Paro por edad y nivel de estudios (2011T3)
BajosMediosAltosTotal
Todos23,415,311,821,5
De 16 a 19 años57,317,7--56,0
De 20 a 24 años41,233,837,239,6
De 25 A 29 años26,819,421,424,2
De 30 a 34 años24,714,712,819,4
De 35 a 39 años22,513,111,117,6
De 40 a 44 años21,412,98,816,7
De 45 a 49 años18,412,36,514,6
De 50 a 54 años15,810,96,312,7
De 55 a 59 años14,811,27,112,3
De 60 a 64 años15,312,84,611,4
Fuente: Elaboración propia sobre datos de la EPA (2011T3).

Según avanzamos en edad el paro disminuye, muy rápidamente al principio, poco a poco más tarde. Probablemente no es la edad/experiencia la protectora, sino la duración del contrato y la indemnización aneja. Pero el nivel de estudios es evidente: a los 30-34 años el paro es el doble entre los que tienen estudios bajos (sin Secundaria superior, es decir, Bachillerato y FP media) que entre los que tienen estudios medios (Secundaria superior) o altos (universitarios o FP Superior); a los 40-45 años, los que tienen estudios medios tienen el doble de paro que los que tienen un nivel alto de estudios, y los que tienen estudios bajos tienen el triple de paro que estos últimos.
En general, uno de cada cuatro personas con nivel bajo de estudios está en paro, frente a una de cada siete con estudios medios y una de cada nueve con estudios altos. No es difícil ver que con una proporción menor de población con sin Secundaria superior no tendríamos el paro que tenemos.
Con los jóvenes (por debajo de los 30) el nivel de estudios no está funcionando tan bien. Aunque antes de los 25 hay una población de estudiantes que altera los resultados (el paro se calcula sobre población activa, y los estudiantes se consideran en general inactivos), en el tramo 25-29 apenas hay diferencias entre unos y otros. Puede ser porque no hay trabajo para ninguno de los que empiezan o por una perversión de los contratos temporales, no lo sé.
Quizás sea ilustrativo recordar cómo estábamos hace cinco años, cuando había quienes decían que estudiar en España no compensaba:

Paro por edad y nivel de estudios (2006T3)
BajosMediosAltosTodos
Todos10,07,75,88,1
De 16 a 19 años26,419,7--24,9
De 20 a 24 años14,414,414,814,5
De 25 a 29 años11,38,38,99,5
De 30 a 34 años10,96,95,77,8
De 35 a 39 años8,86,65,17,0
De 40 a 44 años8,75,84,06,5
De 45 a 49 años7,84,02,95,6
De 50 a 54 años7,55,92,45,9
De 55 a 59 años7,15,23,15,9
De 60 a 64 años5,54,52,44,8
Fuente: Elaboración propia sobre datos de la EPA (2006T3).

Para los que tienen cierta edad, el paro se ha duplicado para los que tienen un nivel alto de estudios, pero se ha multiplicado por 2,5 o por tres para los que tienen un nivel bajo de estudios. Uno de los datos evidentes de la comparación entre ambas tablas es que cada vez menos gente está protegida por contratos largos, especialmente entre los que tienen un bajo nivel de estudios. No sé si los sindicatos habrán tomado nota de esto.
Como el fracaso escolar en España es el responsable del nivel bajo de estudios de los jóvenes, me puse a cruzar datos de paro y fracaso por comunidades autónomas. Para empezar, una tabla de correlaciones:

Correlaciones entre los valores medios de las 17 CCAA (sin Ceuta y Melilla)
ParoParo joven (16-24 años)Fracaso escolarMatemáticas (PISA 2009)Media años estudio
Paro1,0000,8050,719-0,821-0,745
Paro joven (16-24 años)0,8051,0000,702-0,537-0,481
Fracaso escolar0,7190,7021,000-0,694-0,588
Matemáticas (PISA 2009)-0,821-0,537-0,6941,0000,607
Media años estudio-0,745-0,481-0.5880,6071,000
FUENTE: Elaboración propia sobre la EPA (2011T3) y PISA 2009.
Notas: El paro está calculado sobre la población activa, pero el paro juvenil sobre la población total. El fracaso es la media de los diez últimos años. La media de años de estudio está calculado sobre la población entre 25 y 64 años.

[Para el que no lo sepa, una correlación es un número entre -1 y 1 que indica el grado de asociación entre dos variables: si se acerca a cero, no están relacionadas; si se acerca a uno, están relacionadas de manera que a medida que crece una, crece la otra; y si se acerca a -1 están también relacionadas, pero de manera que si crece una la otra decrece].
Comencemos con una serie de notas técnicas para saber qué significa cada denominación. Para empezar, se han correlacionado los valores medios de cada variable en cada una de las comunidades autónomas, salvo Ceuta y Melilla, no tanto por su tamaño como por los valores extremos que suelen tener (lo que distorsiona no poco las correlaciones), y sin ponderación de ninguna clase. El paro es el porcentaje de población activa que no tiene trabajo, la definición habitual, pero para el paro juvenil se ha empleado el porcentaje de parados sobre la población general, ya que entre los 16 y los 24 la definición anterior deja fuera a los estudiantes, lo que baja todas las correlaciones y puede confundir. El fracaso escolar es la tasa bruta de población que no ha obtenido el título de ESO en los diez últimos años disponibles (2000-2009). Matemáticas es la puntuación media de las comunidades en PISA 2009 en la escala de Matemáticas: la utilizo porque es la más fiable y estable (por cierto, está la puntuación de las 17, aunque en las tres que se presentaron sin muestra ampliada la media es menos fiable). Por fin, la media de años de estudio es un indicador del nivel de estudios de la población adulta (30-64 años), y se ha calculado tras otorgar a cada nivel de estudios unos años estimados de escolarización (como aquí) y calculando posteriormente la media.
Pero vamos con la tabla. Lo primero que sorprende es que la correlación más alta (0,821) se de entre dos variables que no pueden estar relacionadas directamente: el paro de toda la población y los resultados de PISA en Matemáticas (que se miden en chavales que hoy tienen 17 años). La segunda se da entre el paro general y el paro juvenil (0,805, esperable, conociendo España) y la tercera entre la media de años de estudio (que es el nivel educativo medio de la población mayor de 30 años) y el paro (-0,745, también esperable, pues hemos visto en la primera tabla que a menor nivel de estudios, más paro) y a continuación una serie de correlaciones muy parecidas, entorno a 0,7, que son las del fracaso escolar con el paro, el paro joven y Matemáticas en PISA.
Vamos a analizar con cuidado la primera correlación (resultados en PISA, tasa de paro). En el siguiente gráfico se puede ver cómo se relacionan ambas variables por CCAA (no se incluyen en los cálculos Ceuta y Melilla, aunque sí están representadas en un color más claro):


Lo que el gráfico nos estaría diciendo es que el 67% de la tasa de paro podría explicarse por el nivel en PISA de sus jóvenes. Como tal explicación es un absurdo, habría que colegir que hay es una variable latente que explicaría ambas cosas: nivel de estudios de los jóvenes y tasa de paro. Una candidata podría ser el nivel de estudios general de la población en las CCAA, pero ya la incluimos en la tabla de correlaciones, y no parece dar la talla. Por tanto, habría otra variable latente, que probablemente incluría el nivel de estudios, el poder adquisitivo, valoración de la cultura, inclinación hacia el progreso a través del estudio, y un largo etcétera.
Probablemente algo de esto haya, lo que la gente tiene en la cabeza explica mucho de lo que pasa (porque está detrás de las decisiones que toma), y lo que la gente tiene en la cabeza tiene detrás una larga tradición histórica, a veces de siglos (creo que, en este sentido, hay una entidad geográfica, la comarca, que se desprecia sistemáticamente). Pero ¿tanto?
Evidentemente, aquí hay gato encerrado. Demasiadas veces los analistas nos quedamos en el nivel de análisis que nos dice lo que buscamos, y demasiadas veces los que estudian la educación desde una perspectiva sociológica se quedan aquí y no profundizan más porque han llegado donde esperaban. Unas veces puede estar justificado, otras no. Veamos el siguiente gráfico, una versión corregida del anterior:


Lo que hemos hecho ha sido dividir las comunidades españolas en dos, norte y sur, para ver cómo funciona el análisis. Lo que ocurre es que las CCAA del norte de España lo hacen mejor en PISA y tienen menos paro (en este caso, junto con Baleares: allí el verano sí ha funcionado, pero en el cuarto trimestre la cosa cambiará), y las del sur tienen más paro y lo hacen peor en PISA. En el círculo naranja están agrupadas las del norte de España, muy juntitas, y en ese grupo el nivel explicativo apenas supera el 20% y deja de ser significativo. Más sueltas están las del sur de España, cuya recta tiene una pendiente similar, pero su correlación es ridícula. Esto pasa con todas las variables educativas expuestas anteriormente. 
Por tanto, lo que tenemos son dos españas que explican un porcentaje muy alto de la correlación. Este fenómenos es muy habitual en las correlaciones de grupos: cuando separas varones y mujeres, escuela pública y privada, u otras tantas dualidades la supuesta relación entre variables se debilita o llega a desaparecer. En el caso analizado, si se introduce la variable norte-sur en la ecuación, la influencia de los datos de PISA se queda en la mitad y deja de ser significativa.
Por supuesto, en la diferencia entre las dos españas influye esa variable latente en la que incluimos todos los factores que citábamos antes, es algo que ya sabemos. Pero al incluirlo en una regresión podemos achacar a las comunidades lo que es un efecto que actúa a un nivel superior (y justificar con una regresión con muchos puntos lo que en realidad es básicamente una diferencia entre dos puntos, que se trata técnicamente de otra forma).
Nos encontramos otra vez con algo de lo que he hablado muy a menudo y que en el libro repito continuamente: muchas de las creencias que sostenemos en educación son fruto de análisis insuficientes, cuando no análisis de medio pelo o interesados. He visto papers íntegros basados en este fenómeno, donde se incluyen 15 o 20 regresiones de este tipo (que, como hemos visto, hablan siempre de lo mismo) y se permiten sacar conclusiones. El mismo Instituto de Evaluación cae continuamente en este tipo de análisis.
Nos queda el problema norte-sur, algo persistente en España, aunque se ha reducido mucho en las últimas décadas (eso es algo que se tiende a olvidar: aunque sigue habiendo diferencias, la magnitud de éstas no tiene nada que ver). Diferencias que no son fáciles de reducir por medio de políticas públicas (aunque sí de ampliar, que también se olvida), y que yo sepa la mejora se ha basado en una escuela fuerte (que ya no tenemos) y en la redistribución del gasto público.

Nota de disculpa: Entiendo que mucha gente no acabe de entender las regresiones (por favor, que alguien las incluya en el currículo común del Bachillerato), pero muchos de los argumentos y justificaciones que uno oye todos los días tienen a esta técnica detrás, aunque no de forma transparente. Es decir, es algo que nos afecta, lo queramos o no, en nuestra vida diaria, y es una carencia importante (y no soy el único que la nota) bastante generalizada en España, incluso entre los que tienen poder de decisión. Pero es que hay cosas que no se pueden explicar de otra forma.