¿Qué método econométrico debería utilizar para la inferencia causal de la política de salud? – Economista sanitario

TL;DR

un artículo de Ress y salvaje (2024) proporcione las siguientes recomendaciones para responder a esta pregunta.

  1. Cuando pretenda controlar un conjunto de covariables grande, considere utilizar el superaprendiz para estimar los parámetros molestos.
  2. Cuando utilice el superaprendiz para estimar parámetros molestos, considere utilizar enfoques de estimación doblemente robustos, como AIPW y TMLE.
  3. Cuando se enfrente a un conjunto de covariables pequeño, considere utilizar la regresión para estimar parámetros molestos.
  4. Al emplear la regresión para estimar parámetros molestos, considere utilizar enfoques de estimación individualmente robustos, como el emparejamiento por puntaje de propensión o IPW.

¿Cómo llegaron a estas recomendaciones? Para descubrirlo, sigue leyendo.

Descripción de la simulación de plasmodos sobre la metodología del estudio.

Para responder a la pregunta “¿Qué método econométrico debería utilizarse para la inferencia causal de las políticas de salud?”, es necesario tomar una serie de decisiones de investigación.

En primer lugar, hay que decidir si se simula el efecto de una intervención política o se incorporan datos del mundo real a la simulación. La ventaja del primer enfoque es que conocemos la verdad y podemos crear cualquier escenario de generación de datos que queramos; Debido a que nosotros (el investigador) hemos construido nosotros mismos el proceso de generación de datos, tenemos un estándar de oro con el que comparar y podemos probar varios procesos de generación de datos. El problema de este enfoque es su naturaleza hipotética. Específicamente, Ress y salvaje (2024) escribir:

Muchos estudios de simulación… se caracterizan por estructuras de confusión relativamente simples con pocas variables, lo que lleva a resultados variables dependiendo de la estructura de datos modelada y los métodos bajo consideración… Porque la elección óptima para una estrategia de estimación depende de la pregunta de investigación, las características de los datos y las características de la población. y supuestos del método, los resultados de la simulación solo son aplicables al entorno de simulación específico.

En cambio, los autores optan por una simulación de plasmodo. ¿Qué es una simulación de plasmodo?

En una simulación de plasmodo, las covariables de un conjunto de datos real se utilizan sin alteración, mientras que los valores de las variables de resultado se simulan en función de las asociaciones estimadas entre las covariables y los resultados de los datos originales, lo que garantiza que se conozca el verdadero tamaño del efecto. La ventaja de este enfoque es que preserva la estructura de covariables compleja y de alta dimensión de los datos de origen, proporcionando un entorno de simulación que se asemeja mucho a las condiciones del mundo real.

En resumen, si bien las covariables subyacentes no cambian, los investigadores pueden probar la solidez de diferentes métodos de estimación mediante modificaciones controladas del conjunto de datos real, como insertar o eliminar artificialmente ciertas relaciones, introducir o eliminar sesgos, agregar ruido o alterar variables específicas. Esto permite el examen controlado de cómo funcionan los métodos estadísticos en diferentes condiciones conocidas.

Una segunda decisión de investigación es determinar qué métodos de estimación deben evaluarse. Ress y salvaje (2024) considere los siguientes enfoques:

  • Emparejamiento de puntuación de propensión: Este método implica estimar la probabilidad de asignación de tratamiento en función de las covariables observadas, lo que permite a los investigadores emparejar unidades tratadas y no tratadas con puntuaciones de propensión similares, reduciendo así el sesgo de selección en los estudios observacionales.
  • Probabilidad inversa de ponderación del tratamiento (IPTW): IPTW asigna ponderaciones a los individuos en función de la inversa de su probabilidad de recibir el tratamiento que realmente recibieron, lo que permite la creación de una pseudopoblación donde la asignación del tratamiento es independiente de las covariables observadas, lo que facilita la inferencia causal.
  • Equilibrio de entropía: Esta técnica, desarrollada en Hainmüller 2012ajusta los pesos de la muestra para lograr el equilibrio de covariables entre los grupos tratados y de control minimizando la distancia entre las medias ponderadas de las covariables, asegurando que la distribución de las covariables sea similar entre los grupos.
  • Análisis de diferencias en diferencias (DID): DID es un diseño cuasiexperimental que compara los cambios en los resultados a lo largo del tiempo entre un grupo de tratamiento y un grupo de control, lo que ayuda a estimar los efectos causales mientras controla los factores de confusión no observados que son constantes en el tiempo.
  • Ponderación de probabilidad inversa aumentada (AIPW): AIPW combina IPTW con ajuste de regresión para mejorar la eficiencia y reducir el sesgo al incorporar tanto el puntaje de propensión como un modelo para el resultado, lo que permite estimaciones causales más sólidas. Específicamente, AIPW es un estimador doblemente robusto porque produce estimaciones insesgadas siempre que el modelo de puntaje de propensión o la regresión de resultados está correctamente especificada.
  • Estimación de máxima verosimilitud dirigida (TMLE): TMLE es un método semiparamétrico que combina de manera óptima el aprendizaje automático y las técnicas estadísticas tradicionales para estimar los efectos causales mientras se enfoca en parámetros de interés específicos, proporcionando así estimaciones sólidas incluso en entornos complejos.

En tercer lugar, los autores deben considerar cómo estimar los parámetros molestos. Los parámetros clave de molestia son la puntuación de propensión y el modelo de resultados. La estimación de los parámetros de molestia se realizó utilizando el súper aprendiz paquete.

…utilizamos el algoritmo superlearner implementado en SuperLearner [R] paquete (Polley y otros, 2021), lo que nos permitió incorporar enfoques no paramétricos. Incluimos los siguientes cinco algoritmos como aprendices básicos: modelo lineal generalizado con máxima verosimilitud penalizada (función glmnet) (Friedman y otros, 2010), bosque aleatorio (función de guardabosques) (Wright y Ziegler, 2017), aumento de gradiente (función xgboost) (Chen y otros, 2015), máquinas de vectores de soporte (función svm) (…Karatzoglou et al., 2006), y splines de regresión adaptativa multivariada (función terrestre) (Friedman, 1991).

Cuarto, se debe considerar una intervención específica para evaluar y cómo simular los datos. La intervención que los autores consideraron fue una iniciativa alemana destinada a mejorar la atención médica en una zona urbana socialmente desfavorecida. Específicamente, la intervención incluyó (i) una red intersectorial de proveedores de atención sanitaria, social y comunitaria y (ii) un servicio de navegación y asesoramiento sanitario comunitario. (para más detalles ver Ress y Salvaje 2023). Para simular los datos del plasmodo para esta intervención, Ress y salvaje (2024) utilice el siguiente procedimiento:

  1. Estimar la asociación entre tratamiento, resultado y covariables.
  2. Utilice los coeficientes estimados para predecir los resultados, pero modifique el coeficiente del tratamiento al tamaño del efecto deseado.
  3. Dibuje J subconjuntos de tamaño s mediante remuestreo con reemplazo y realice los pasos 4 y 5 para cada uno de esos subconjuntos.
  4. Introduzca ruido muestreando los resultados de distribuciones adecuadas utilizando los valores simulados del paso 3 como valores esperados.
  5. Analizar los datos simulados.

Quinto, se debe determinar el conjunto de métricas de desempeño que se utilizarán para evaluar el estudio. Las métricas de desempeño consideradas incluyeron:

  • Inclinación: calculado como la diferencia media entre el efecto del tratamiento estimado y real. Dado que el verdadero efecto del tratamiento se conoce a través del plasmodo, se puede calcular el sesgo.
  • error estándar. El error estándar empírico (SE) refleja la dispersión de los efectos estimados alrededor de su media. En otras palabras, mide la precisión del estimador.
  • Cobertura del nivel de confianza. Esto se calcula como la proporción de intervalos de confianza (IC) que contienen el efecto real. Digamos que estamos usando un IC del 95%. Si sólo el 80% del IC contuviera el efecto verdadero, se consideraría que el IC es estrecho; por el contrario, si el 99% de los IC contuviera el efecto verdadero, los IC se considerarían demasiado amplios.

Basándose en este enfoque, los autores concluyen que no hay un ganador claro:

Descubrimos que TMLE combinado con el superaprendiz tuvo mejores resultados en términos de sesgo y SE, pero mostró deficiencias en términos de cobertura de CI. Al considerar todas las medidas de desempeño y resultados, la combinación de emparejamiento y análisis DiD posterior junto con la regresión para la estimación de parámetros molestos tuvo el mejor desempeño.

¿Cuáles son las conclusiones de esta investigación? Los autores exponen muy bien esto al final de su artículo:

  1. Cuando pretenda controlar un conjunto de covariables grande, considere utilizar el superaprendiz para estimar los parámetros molestos.
  2. Cuando utilice el superaprendiz para estimar parámetros molestos, considere utilizar enfoques de estimación doblemente robustos, como AIPW y TMLE.
  3. Cuando se enfrente a un conjunto de covariables pequeño, considere utilizar la regresión para estimar parámetros molestos.
  4. Al emplear la regresión para estimar parámetros molestos, considere utilizar enfoques de estimación individualmente robustos, como el emparejamiento por puntaje de propensión o IPW.

Puedes leer el artículo completo. aquí. ¿Qué opinas del uso de simulaciones de plasmodos?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *