Un tutorial sobre la estimación de costos asociados con los estados del modelo de enfermedad utilizando GLM – Healthcare Economist
Modelar los costos de la atención médica suele ser problemático porque se distribuyen de manera anormal. Por lo general, hay una gran cantidad de observaciones de $0 (es decir, personas que no utilizan ningún servicio de atención médica) y una distribución de costos fuertemente sesgada hacia la derecha entre los usuarios de atención médica debido a un número desproporcionado de personas con costos de atención médica muy altos. Esta observación es bien conocida por los economistas de la salud, pero un factor que complica a los modeladores es mapear el costo de las enfermedades en estados de atención de salud específicos. Por ejemplo, si bien el costo de la atención del cáncer puede variar según el estadio de la enfermedad y si el cáncer ha progresado; el costo de la enfermedad cardiovascular será diferente si el paciente sufre un infarto de miocardio.
un artículo de Zhou y cols. (2023) proporciona un buen tutorial sobre cómo estimar costos con estados de modelos de enfermedades utilizando modelos lineales generalizados. El tutorial contiene los pasos principales.
Paso 1: Preparar el conjunto de datos:
- El conjunto de datos normalmente requiere calcular el costo para períodos de tiempo discretos. Por ejemplo, si tiene datos de reclamaciones, es posible que tenga información sobre el costo por fecha, pero para fines analíticos es posible que desee tener un conjunto de datos con información de costos por persona (filas) cuyas columnas representen el costo por año (o mes). Alternativamente, podría crear la unidad de observación para que sea persona-año (o persona-mes) y cada fila sería un registro de persona-año separado.
- A continuación hay que especificar los estados patológicos. En cada período de tiempo, a la persona se le asigna un estado de enfermedad. Los desafíos incluyen determinar qué tan granulares deben ser los estados (por ejemplo, solo MI versus tiempo desde MI) y cómo manejar escenarios de múltiples estados.
- Cuando los datos están censurados, se puede (i) agregar una covariable para indicar que los datos están censurados o (ii) excluir observaciones con datos parciales. Si faltan datos de costos (pero el paciente no es censurado), se pueden utilizar múltiples métodos de imputación. Para formar los períodos de tiempo de análisis es necesario mapear la duración del ciclo del modelo de decisión, manejar la censura de manera adecuada y potencialmente transformar los datos.
- A continuación se muestra un conjunto de datos de muestra.
Paso 2: Selección del modelo:
- El artículo recomienda utilizar un modelo de dos partes con un marco de modelo lineal generalizado (GLM), ya que a menudo se violan los supuestos de MCO sobre normalidad y homocedasticidad en los residuos.
- Con el GLM, el valor esperado del costo se transforma de forma no lineal, como se muestra en la siguiente fórmula. Debe estimar tanto una función de enlace como la distribución del término de error. «Las más populares (combinaciones de función de enlace y distribución) para los costos de atención médica son la regresión lineal (vínculo de identidad con distribución gaussiana) y la regresión gamma con un enlace de logaritmo natural).
- Para combinar el GLM con un modelo de dos partes, simplemente se estima la ecuación anterior en todos los valores positivos y luego se calcula un modelo logit o probit para la probabilidad de que un individuo tenga un costo positivo.
Paso 3: Seleccionar el modelo final.
- La selección del modelo primero debe considerar qué covariables se incluyen en la regresión que se puede obtener mediante selección gradual utilizando una significación estadística preespecificada. Sin embargo, esto puede resultar en un ajuste excesivo. Las técnicas de selección de covariables alternativas incluyen la selección por pasos de arranque y técnicas penalizadas (por ejemplo, selección de ángulo mínimo y operador de contracción, LASSO). También se podrían considerar las interacciones entre covariables.
- El ajuste general se puede evaluar utilizando el error medio, el error absoluto medio y el error cuadrático medio (el último es el más utilizado). Los modelos que se ajustan mejor tienen errores más pequeños.
Paso 4: predicción del modelo
- Si bien es fácil predecir los costos, el impacto del estado de la enfermedad en los costos es más complejo. Los autores recomiendan lo siguiente:
Para un modelo no lineal de una parte o un modelo de dos partes, los efectos marginales se pueden derivar mediante predicción reciclada. Incluye los dos pasos siguientes: (1) ejecutar dos escenarios en la población objetivo estableciendo que el estado de la enfermedad de interés sea (a) presente (por ejemplo, cáncer recurrente) o (b) ausente (por ejemplo, sin recurrencia del cáncer); (2) calcular la diferencia en los costos medios entre los dos escenarios. Los errores estándar de la diferencia de medias se pueden estimar mediante bootstrapping.
Los autores también proporcionan un ejemplo ilustrativo de la aplicación de este enfoque para modelar los costos hospitalarios asociados con eventos cardiovasculares en el Reino Unido. Los autores también proporcionan el código de muestra en R y puedes descargarlo. aquí.