Subestudio a partir de los datos del estudio MESA (Multi-Ethnic Study of Atherosclerosis), que prueba el machine learning (en castellano, ‘aprendizaje automático’) como estrategia de big data puede ser útil para caracterizar el riesgo cardiovascular, predecir los resultados e identificar biomarcadores en los estudios poblacionales.
El objetivo que se planteó fue probar la capacidad de los random survival forests (RF), en castellano ‘bosques aleatorios de supervivencia’, una técnica de machine learning, para predecir seis resultados cardiovasculares en comparación con las escalas de riesgo cardiovascular estándar.
Los métodos empleados fueron los siguientes: se incluyeron participantes del estudio MESA. Las medidas basales se utilizaron para predecir los resultados cardiovasculares a lo largo de 12 años de seguimiento. MESA fue diseñado para estudiar la progresión de la enfermedad subclínica a eventos cardiovasculares, donde los participantes estaban inicialmente libres de enfermedad cardiovascular. Se incluyeron 6.814 participantes de MESA, de 45 a 84 años, de 4 etnias y 6 centros de todo Estados Unidos. Se obtuvieron 735 variables de técnicas de imagen y pruebas no invasivas, cuestionarios y paneles de biomarcadores. Utilizamos la técnica RF para identificar los 20 predictores principales de cada resultado.
En cuanto a los resultados las técnicas de imagen, la electrocardiografía y los biomarcadores en suero se encontraban altamente representadas en la parte superior de las listas de 20 más importantes predictores, en comparación con los factores de riesgo cardiovascular tradicionales. La edad fue el predictor más importante para la mortalidad por todas las causas. Los niveles de glucosa en ayunas y las medidas de ecografía carotídea fueron predictores importantes del ictus. El score de calcio coronario fue el predictor más importante de la enfermedad coronaria y todos los resultados combinados de la enfermedad cardiovascular aterosclerótica. La estructura y la función ventricular izquierda y la troponina-T cardiaca se encuentran entre los principales predictores de la incidencia de insuficiencia cardiaca. La creatinina, la edad y el índice tobillo-brazo se encontraban entre los principales predictores de fibrilación auricular. El factor de necrosis tisular-α y los receptores solubles de interleuquina-2, y los niveles de NT-proBNP fueron importantes en todos los resultados. La técnica de RF se comportó mejor que las escalas de riesgo establecidas mostrando una mayor precisión de predicción (disminuyendo el Brier score en un 10-25%).
Conclusiones: el machine learning junto con el deep phenotyping (‘fenotipado profundo’) mejora la precisión predictiva de eventos cardiovasculares en una población inicialmente asintomática. Estos métodos pueden conducir a una mayor comprensión de los marcadores de enfermedad subclínica sin asunciones apriorísticas de causalidad.
Comentario
La predicción de eventos ha sido la piedra angular de la epidemiología cardiovascular, como ejemplifica el estudio de Framingham y otros estudios prospectivos que funcionan como pilares para gran parte de lo que incluye la medicina cardiovascular actual. Un objetivo fundamental de tales esfuerzos ha sido la predicción de eventos durante periodos de tiempo relativamente largos tales como como diez años o toda la vida restante. Estos esfuerzos nos han permitido caracterizar procesos de enfermedades subclínicas y objetivos de factores de riesgo clave para su modificación (por ejemplo, dejar de fumar, terapia con estatinas, control de la presión arterial). Los estudios epidemiológicos utilizados para derivar tales modelos predictivos con frecuencia contienen cientos o miles de variables. Es en este contexto que los métodos de machine learning pueden ser útiles como un medio para identificar los mejores predictores de resultados entre millones de puntos de datos fenotípicos.
Las técnicas de machine learning, como las técnicas aleatorias de supervivencia, pueden ser una metodología estadística efectiva para manejar datos biomédicos de mayor volumen, velocidad y variedad. Estos métodos no requieren suposiciones a priori con respecto a la causalidad y pueden ser adecuados definiendo el papel de los nuevos biomarcadores en la predicción de las enfermedades cardiovasculares.
Este artículo añade nueva información de gran interés, destacando:
- Los métodos de machine learning pueden ser más adecuados para una predicción de riesgo significativa en estudios epidemiológicos fenotípicamente extensos a gran escala respecto a los modelos de riesgos proporcionales de Cox o las escalas de riesgo.
- Los RF pueden ser una estrategia efectiva de machine learning para la predicción incidental de eventos cardiovasculares y la estratificación de riesgo en poblaciones grandes con grandes conjuntos de datos fenotípicos.
En breve tendremos más estudios similares ya que el big data está invadiendo nuestras vidas y también la cardiología con toda seguridad.
Referencia
Cardiovascular Event Prediction by Machine Learning: The Multi-Ethnic Study of Atherosclerosis
- Bharath Ambale-Venkatesh, Xiaoying Yang, Colin O. Wu, Kiang Liu, W. Gregory Hundley, Robyn McClelland, Antoinette S. Gomes, Aaron R. Folsom, Steven Shea, Eliseo Guallar, David A.Bluemke, João A. C. Lima.
- Circ Res. 2017 Aug 9. doi:10.1161/CIRCRESAHA.117.311312.