Las “estimaciones de diferencias” de Escobari y Hoover no deben tomarse al pie de la letra

Las “estimaciones de diferencias” de Escobari y Hoover no deben tomarse al pie de la letra

Esta es la séptima de una serie de publicaciones de blog que abordan un informe de Diego Escobari y Gary Hoover que cubre las elecciones presidenciales de 2019 en Bolivia. Sus conclusiones no resisten un escrutinio, como observamos en nuestro informe Cinco centavos antes de monedas de diez centavos. Aquí ampliamos varias afirmaciones y conclusiones que Escobari y Hoover hacen en su artículo. Enlaces a otras publicaciones: parte uno, la segunda parte, parte tres, cuarta parte, quinta parte, sexta parte, parte ochoy parte nueve.

En el post anterior, notamos un error en los cálculos de margen de Escobari y Hoover. Aunque el efecto en sus cálculos fue pequeño, el uso incorrecto de Válidos En Acta por parte de Escobari y Hoover (entre muchos otros) generó controversia al hacer parecer que los totales oficiales de votos no sumaban correctamente. Más bien, estos reflejan errores administrativos cometidos por los jurados en los colegios electorales individuales. Ahora continuamos donde lo dejamos en la publicación número 5, cuando notamos que había un sesgo en el conteo en las elecciones. Aquí profundizamos en los efectos que tuvo ese sesgo en los primeros resultados producidos por Escobari y Hoover.

Comenzamos con sus “Estimaciones de diferencias”, reproducidas casi exactamente a continuación. Atribuimos las discrepancias (indicadas en rojo) a diferencias en la asignación de los colegios electorales a los distritos electorales: un problema Nosotros identificamos con la primera versión de su artículo de 2019, y es probable que no se haya corregido por completo.

tabla 1

Replicación de las “estimaciones de diferencias” de Escobari y Hoover
CC PERO MAS-CC
(1) (2) (3) (4) (5) (6)
Variable
CERRAR -8,286 (0,324) 7,975 (0,343) 16,26 (0,653) 7,243 (0,437) 6,762 (0,464) 0.377 (0,194)
Constante 36,86 (0,136) 46,69 (0,134) 9,830 (0,266) 11,28 (0,162) 11,36 (0,151) 12,39 (0,063)
Efectos fijos[1]
Municipio 129,6
Localidad 23.49
Recinto 124.7
Observaciones 34.529 34.529 34.529 34.529 34.529 34.529
R2 0,017 0,016 0,017 0.640 0.740 0.958

Fuente: TSE y cálculos del autor.

Notas: Las variables dependientes son porcentajes de Válidos En Acta (frecuentemente faltantes o mal informados en las actas) y no de votos oficiales válidos. Los errores estándar entre paréntesis son robustos. Las diferencias con Escobari y Hoover se indican en rojo.

[1] Las estadísticas de la prueba F para efectos fijos no son sólidas.

Tenga en cuenta también que el análisis no está ponderado por el número de votantes en cada mesa. Por ejemplo, la constante de la columna 3 indica que el margen promedio simple para Morales en todos los colegios electorales incluidos en el anuncio del TSE fue de 9,83 puntos porcentuales, casi 2 puntos porcentuales por encima del resultado oficial en ese momento. Asimismo, el resultado de Escobari y Hoover implica que el margen promedio simple para Morales en todos los colegios electorales fue de 12,45 puntos porcentuales, nuevamente casi 2 puntos porcentuales por encima del resultado oficial. Esto se debe a que en las elecciones reales, la proporción total de votos no se calcula como lo hacen Escobari y Hoover. En las elecciones reales, lo que importa son los totales de votos, y no los márgenes promedio. Así, los colegios electorales con menos votos tienen menos impacto en la votación final que los colegios electorales con más votos. Ignorar esto hace que sea difícil poner los resultados de Escobari y Hoover en el contexto adecuado.

Considere el ejemplo de dos distritos de Tabla 2. En el recinto rural hubo 100 votos válidos, los cuales ganó Morales por 40 votos. En el distrito urbano, Mesa ganó por 25 votos de 250. El margen promedio simple es (40-10)/2 = 15 puntos porcentuales. Pero en general (tomando ambas estaciones como un solo grupo) Morales ganó por 40-25 = 15 votos de 350, o sólo 4,3 puntos porcentuales.

Tabla 2

Ilustración de la importancia de las ponderaciones para el contexto
Votantes No votos Margen
Rural 100 40 +40
Urbano 250 -25 -10
Conjunto 350 15 4

Pasamos a la columna 3 de tabla 1 arriba. En Tabla 3Presentamos los resultados de Escobari y Hoover junto con nuestra replicación y correcciones para facilitar el contexto. Primero, observamos que nuestra replicación (columna 2) reproduce exactamente los resultados publicados (columna 1). En segundo lugar, vemos que al emplear el número correcto de votantes válidos en el cálculo, tenemos 22 observaciones más, faltando sólo cuatro mesas electorales que fueron anuladas. En tercer lugar, observamos que una vez que ponderamos los datos de los colegios electorales por el número de votantes válidos (columna 4), la “constante” cae en casi 2 puntos porcentuales. Esto refleja poner los números en su contexto adecuado. La ventaja de Morales (según las cifras oficiales) en los colegios electorales incluidos en el anuncio del TSE fue del 7,9 por ciento del voto válido.

Asimismo, al pasar de la columna 3 a la columna 4, “SHUTDOWN” crece en 0,5, lo que significa que al darle demasiada importancia a las mesas pequeñas, Escobari y Hoover terminan subestimando el aumento del apoyo al pasar de las mesas incluidas en el anuncio del TSE a los destacados. Tomado como grupo, el margen de Morales en las mesas electorales pendientes es de 7,883+16,77 = 24,65 puntos porcentuales, y no de 9,843+16,27 = 26,12.

Tabla 3

Replicación y reanálisis del modelo de diferencia de referencia de Escobari y Hoover
Como se publicó Replicación Votantes correctos Ponderado
(1) (2) (3) (4)
Variable
CERRAR 16,26 (0,653) 16,26 (0,653) 16,27 (0,653) 16,77 (0,663)
Constante 9,830 (0,266) 9,830 (0,266) 9,843 (0,266) 7,883 (0,264)
Observaciones 34.529 34.529 34.551 34.551
R2 0,017 0,017 0,017 0.019

Hay varias formas de interpretar estos resultados. Una es simplemente decir que miden en qué medida los colegios electorales tardíos favorecieron más a Morales, y no hacen ninguna atribución en cuanto a la causa. Este análisis es meramente descriptivo.

Otra es decir que estos resultados miden el sesgo en el recuento desproporcionadamente temprano de los colegios electorales de la oposición. Quizás las estaciones rurales que favorecen a Morales simplemente tenían más probabilidades de llegar tarde y, por lo tanto, fueron excluidas del anuncio del TSE (es decir, cinco centavos antes que diez centavos).

Una tercera es decir que el anuncio en sí marcó una división: el mero hecho de que no se incluyera una mesa electoral en el anuncio explica el aumento del apoyo y que si se hubieran incluido todos, Morales habría ganado por sólo 7,9 puntos porcentuales. Dado que la votación tuvo lugar antes del anuncio, la exclusión del anuncio no debería por sí sola hacer que aumente el apoyo a Morales en esos colegios electorales. La implicación es que el aumento debe deberse a la adición de fraude, ya sea cometido después del anuncio o en un retraso deliberado en informar los resultados de los colegios electorales que ya se sabe que contienen fraude. Es decir, en esta interpretación, APAGADO sería un indicador de fraude.

En esta figura, nos interesa la conexión entre el fraude y el margen, resaltada en rojo. El fraude no es algo que podamos observar directamente en los datos, pero un mecanismo propuesto es que el tiempo requerido para implementar el fraude requería retrasar la verificación de esas actas hasta después del anuncio del TSE (de ahí si se incluyó o no en el post-anuncio “). APAGADO” grupo).

Tenga en cuenta que el resultado publicado es inconsistente con respecto a esta interpretación. Escobari y Hoover argumentan a favor del contrafactual de 7,9 puntos porcentuales, pero la constante en el modelo implica un margen proyectado de 9,8 puntos porcentuales, no estadísticamente distinto del umbral de 10 puntos porcentuales que determina las elecciones. Esto refuerza nuestro punto de que el uso de ponderaciones en el análisis es importante cuando se desea interpretar los resultados.

Esta tercera explicación de la diferencia de 16 puntos porcentuales como medida del fraude real es difícil de defender debido a las explicaciones confusas del segundo análisis. Es decir, en el modelo, SHUTDOWN captura todo lo que afecta el margen de Morales y que varía entre los grupos. Existe todo un aparato de factores que complican la interpretación de la diferencia de 16 puntos porcentuales como fraude.

Todavía sólo nos interesa el efecto del fraude indicado en rojo. Por supuesto, las actas terminaron en el grupo CIERRE por razones benignas, así como por cualquier supuesta malicia. Consideremos aquellos que transmitieron tarde (“LLEGADA” tardía a las autoridades electorales) y aquellos que transmitieron sus transcripciones pero no pudieron ser verificadas oportunamente. Vinculamos tanto la LLEGADA como el CIERRE a la ruralidad, pero aquí “rural” es un sustituto de una batería de diversos factores geográficos o socioeconómicos, cada uno de los cuales puede tener un efecto diferente en cada uno. Es importante destacar que estos mismos factores contienen información sobre el apoyo a Morales y, por lo tanto, impactan el margen observado. Finalmente, el número de votantes en cualquier mesa electoral determinada ayuda a determinar el orden de LLEGADA, ya que las mesas más pequeñas pueden completar el recuento de votos más rápidamente.

El problema es que si controlamos solo por APAGADO, eso conlleva información sobre todos los factores geográficos. Por ejemplo, dado que una estación está en el grupo APAGADO, podemos inferir que es más rural y por lo tanto está más a favor de Morales. No podemos decir si la diferencia de 16 puntos porcentuales se debe al “fraude” que Escobari y Hoover buscan medir, o si se debe a diferencias en factores geográficos/socioeconómicos. Se requiere un modelo estadístico más complejo.

Por supuesto, no es fácil cuantificar (y mucho menos identificar) todos los factores de confusión. Debemos ceder un poco ante la realidad de la disponibilidad de datos. Debemos reconocer que SHUTDOWN es un efecto residual. Todo lo que explica el aumento tardío del margen que no está expresamente modelado es capturado por SHUTDOWN. Eso incluye tanto el posible fraude como las monedas de cinco centavos antes que las de diez centavos que se pasan por alto. Un coeficiente de APAGADO “estadísticamente significativo” no indica la existencia de fraude, específicamente, a menos que podamos desentrañar adecuadamente los efectos.

Hasta ese punto, una diferencia inexplicable de 16,77 puntos porcentuales sería políticamente preocupante en ausencia de otra información. Aplicado al 16 por ciento de las elecciones incluidas en el grupo SHUTDOWN, esto implica que el modelo extremadamente simple no logra explicar 2,7 puntos porcentuales del margen final de Morales. Podemos ver esto directamente en la constante estimada de la Tabla 3, Columna 4, que dice que el grupo que no participó en el CIERRE favoreció a Morales por 7,9 puntos porcentuales. Si el grupo SHUTDOWN es efectivamente idéntico, entonces el margen electoral final debería haber sido cercano a 7,9 puntos porcentuales y no al oficial 10,56. Por tanto, el modelo deja un residuo políticamente significativo sin explicación que Escobari y Hoover interpretan como fraude. Sin embargo, sabemos con certeza que la suposición crítica de que el grupo SHUTDOWN es idéntico es falsa. El modelo no tiene en cuenta diferencias importantes entre los grupos APAGADO y no APAGADO. Cinco centavos antes que diez centavos.

Una forma de hacer frente a una vertiginosa variedad de posibles diferencias es dividir los colegios electorales en grupos más pequeños. Al hacerlo, podemos esperar hacer asignaciones de modo que dentro de cada grupo estos factores de confusión sean más o menos constantes, que no podamos distinguir fácilmente un colegio electoral de otro. excepto por su inclusión o exclusión de la convocatoria del TSE.

Como veremos en la próxima publicación, este es el razonamiento detrás de las columnas 4 a 6 de la Tabla 1.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *