Escobari y Hoover hacen una comparación inadecuada con 2016, invalidando sus estimaciones de “diferencia en diferencia”

Esta es la décima de una serie de publicaciones de blog que abordan un informe de Diego Escobari y Gary Hoover que cubre las elecciones presidenciales de 2019 en Bolivia. Sus conclusiones no resisten un escrutinio, como observamos en nuestro informe Cinco centavos antes de monedas de diez centavos. Aquí ampliamos varias afirmaciones y conclusiones que Escobari y Hoover hacen en su artículo. Enlaces a publicaciones: parte uno, la segunda parte, parte tres, cuarta parte, quinta parte, sexta parte, parte siete, octava parte, y parte nueve.

En la publicación anterior, observamos que incluso si la geografía es estable de una elección a otra, no hay garantía de que el efecto de la geografía en la proporción de votos sea consistente a lo largo del tiempo. Esto puede dar lugar a una brecha cada vez mayor entre los márgenes observados a lo largo del progreso de un recuento, incluso en ausencia de fraude. También observamos que los resultados en las mesas electorales incluidas en el anuncio del TSE mostraron esa tendencia. Afirmamos que esto plantea un problema para Escobari y Hoover. En esta publicación, demostramos cómo sus modelos de “diferencia en diferencias” identifican erróneamente el fraude cuando la diferencia en las tendencias interactúa con el sesgo de conteo, incluso cuando las tendencias resultantes son lineales.

Una forma de demostrar esto es aplicar Escobari y Hoover a datos electorales sintéticos donde tenemos control total de la cantidad de fraude. Podemos crear una variable de “geografía”. No podremos observar esta variable directamente en nuestro análisis, pero será constante en todos los distritos y se correlacionará con la LLEGADA. Entonces podremos generar resultados electorales basados únicamente en la geografía oculta, sin tener en cuenta la LLEGADA. Para mayor claridad de la ilustración, dividiremos el grupo CIERRE como colegios electorales en el último sexto de LLEGADA.

En Figura 1Vemos dos resultados electorales sintéticos diferentes. Tanto los resultados de la izquierda como los de la derecha tienen la misma tendencia general en cuanto al orden en que se transmitieron los colegios electorales. En cada uno, hemos marcado en verde los colegios electorales APAGADOS. No hay ninguna tendencia dentro del distrito ni en la izquierda ni en la derecha, ni SHUTDOWN tiene ningún impacto en el margen. La única diferencia entre izquierda y derecha es cuánto geografía explica las diferencias entre distritos.

Figura 1
Dos ejemplos de datos electorales sintéticos

Fuente: cálculos del autor.

A la derecha, la geografía explica bastante y, por tanto, la tendencia general es más clara porque el orden de transmisión es una representación imperfecta de la geografía.

Es posible que produzcamos estimaciones diferentes sobre estos datos tal como lo hicimos con los resultados reales de las elecciones de 2019. Tanto en la izquierda como en la derecha, las estimaciones diferentes de Escobari y Hoover identifican fraude donde no existe, a menos que hagamos ajustes a nivel de distrito electoral.

tabla 1

Aplicación de las “estimaciones de diferencias” de Escobari y Hoover a datos sintéticos
		Izquierda		Bien
	(1)	(2)	(3)	(4)
Variable
CERRAR	15,46 (0,706)	0,233 (0,110)	16,26 (0,141)	0,132 (0,706)
Constante	7,780 (0,298)	10,38 (0,037)	7,370 (0,076)	10,11 (0,044)
Efecto fijo
Recinto	No	Sí	No	Sí
Observaciones	35.000	35.000	35.000	35.000
R²	0.0136	0.988	0,199	0,773

Fuente: cálculos del autor.

Al generar los resultados electorales sintéticos, ni siquiera hemos identificado los distritos electorales como contados completamente tarde, por lo que sabemos que no hay fraude tardío a nivel de distrito electoral. Sin embargo, eso no debería impedir que se agreguen datos sintéticos de 2016. Como vemos en la Figura 2, los resultados sintéticos de 2019 son más sensibles a la geografía que los resultados de 2016.

Figura 2
Ejemplo de datos sintéticos que cubren múltiples elecciones

Fuente: cálculos del autor.

Entonces, ¿qué hacen Escobari y Hoover con esta información adicional? En los modelos de diferencias simples, simplemente compararon el margen promedio entre las mesas electorales incluidas en el anuncio del TSE con las que fueron excluidas. Suponen que, en ausencia de fraude, no hay diferencia entre los dos. En los modelos de “diferencias en diferencias”, la línea base para el fraude en 2019 no es cero, sino cualquier diferencia que se observe en 2016. Gráficamente, podemos ver el modelo base de diferencias en diferencias de Escobari y Hoover aplicado a los datos sintéticos en Figura 3. Las líneas finas discontinuas marcan las tendencias para cada elección y las líneas gruesas y sólidas indican las predicciones del modelo.

figura 3
La simple diferencia en diferencias falla en datos electorales sintéticos

Fuente: cálculos del autor.

Debido a que las tendencias no son paralelas, la brecha promedio entre 2016 y 2019 es de 11,8 puntos porcentuales entre las mesas incluidas en el anuncio del TSE, pero de 15,1 puntos porcentuales entre las mesas CIERRE. Esto da como resultado una “diferencia en la diferencia” de 3,3 puntos porcentuales (la diferencia entre la diferencia de LLEGADA tardía de 15,1 puntos porcentuales y la diferencia de LLEGADA anticipada de 11,8 puntos porcentuales).

La interpretación de Escobari y Hoover de la doble diferencia de 3,3 puntos porcentuales es que hay fraude en los colegios electorales que LLEGAN tarde. Pero no tienen nada de interesante, excepto que son “geográficamente” más favorables para el titular. La doble diferencia surge porque los márgenes son más sensibles a la geografía en 2019, algo que existe en todos los datos.

Podemos, como antes, incluir controles geográficos mediante ajustes a nivel de distrito electoral. Si bien esto eliminará la tendencia general entre las elecciones, preservará las diferencias entre ellas; la diferencia de tendencias no cambiará. Esto significa que la diferencia en la diferencia tampoco cambiará y, por lo tanto, Escobari y Hoover volverían a malinterpretar esta mayor sensibilidad geográfica como “fraude”.

Figura 4
El ajuste de los datos sintéticos a nivel de distrito electoral no tiene ningún efecto en la estimación

Fuente: cálculos del autor.

En Tabla 2Vemos el resultado estadístico de aplicar el modelo de diferencias en diferencias tanto a los datos de “izquierda” como a los de “derecha” y con distintos niveles de controles geográficos. La diferencia en diferencia aparece como «APAGADO x Y2019».

Tabla 2

Aplicación de las “estimaciones de diferencias” de Escobari y Hoover a datos sintéticos
	Izquierda			Bien
	(1)	(2)	(3)	(4)	(5)	(6)
Variable
APAGADO x Y2019	4.703 (1.03)	4,703 (1,069)	4,703 (1,456)	3,343 (0,150)	3,343 (0,156)	3,343 (0,212)
CERRAR	10,75 (0,784)	-2,202 (0,543)		12,91 (0,137)	-1,687 (0,127)
Y2019	11,74 (0,437)	11,74 (0,436)	11,74 (0,618)	11,79 (0,063)	11,79 (0,065)	11,79 (0,089)
Constante	-3,963 (0,331)	-1,754 (0,229)	-2,129 (0,280)	-4,442 (0,068)	-1,956 (0,047)	-2,241 (0,040)
Efectos fijos
Recinto	No	Sí	Sí	No	Sí	Sí
Hoja de cálculo	No	No	Sí	No	No	Sí
Observaciones	70.000	70.000	70.000	70.000	70.000	70.000
R²	0.0231	0.523	0.530	0.332	0,746	0.861

Fuente: cálculos del autor.

Tenga en cuenta que dentro de cada conjunto de datos, el nivel de control geográfico no cambia la estimación puntual de la doble diferencia. en absolutopero la incertidumbre es mayor en los datos de la “izquierda”, que no se explican tan plenamente por la geografía.

La razón por la que las estimaciones puntuales son constantes dentro de cada conjunto de datos es que nuestros datos están completos: tenemos datos para 2016 y 2019 en cada colegio electoral. El modelo de diferencia en diferencias aplicado a los márgenes de voto se reduce exactamente a un modelo de diferencia ordinario aplicado a los aumentos de márgenes de 2016 a 2019. En otras palabras, con el modelo de diferencia en diferencias estamos preguntando simplemente por cuánto más los márgenes aumentaron en promedio en el grupo SHUTDOWN en comparación con el aumento en los colegios electorales anteriores. Si hay alguna razón benigna por la cual los márgenes de CIERRE aumentarían más, entonces la doble diferencia sobreestima el fraude.

No hay fraude en los datos sintéticos. Más bien, el supuesto de identificar “tendencias paralelas” no se cumple. La interpretación de la doble diferencia como fraude es totalmente errónea.

En la próxima publicación, aplicaremos estos métodos a los datos electorales reales y observaremos que persiste el problema de las tendencias no paralelas.

BREAKING NEWS

Escobari y Hoover hacen una comparación inadecuada con 2016, invalidando sus estimaciones de “diferencia en diferencia”

Deja una respuesta Cancelar la respuesta