banner
Hogar / Blog / Un modelo de aprendizaje profundo que incorpora información espacial y temporal detecta con éxito el empeoramiento del campo visual mediante un enfoque basado en el consenso
Blog

Un modelo de aprendizaje profundo que incorpora información espacial y temporal detecta con éxito el empeoramiento del campo visual mediante un enfoque basado en el consenso

Aug 23, 2023Aug 23, 2023

Scientific Reports volumen 13, número de artículo: 1041 (2023) Citar este artículo

688 Accesos

11 altmétrico

Detalles de métricas

El glaucoma es una de las principales causas de ceguera irreversible y su empeoramiento suele controlarse mediante pruebas de campo visual (VF). Los modelos de aprendizaje profundo (DLM) pueden ayudar a identificar el empeoramiento de la FV de manera consistente y reproducible. En este estudio, desarrollamos e investigamos el desempeño de un DLM en una gran población de pacientes con glaucoma. Incluimos 5099 pacientes (8705 ojos) atendidos en un instituto desde junio de 1990 hasta junio de 2020 a los que se les realizaron pruebas de FV, así como una evaluación médica del empeoramiento de la FV. Dado que no existe un estándar de oro para identificar el empeoramiento de la FV, utilizamos un consenso de seis métodos algorítmicos comúnmente utilizados que incluyen regresiones globales así como cambios puntuales en las FV. Utilizamos la decisión de consenso como estándar de referencia para entrenar/probar el DLM y evaluar el desempeño del médico. El 80%, el 10% y el 10% de los pacientes se incluyeron en conjuntos de entrenamiento, validación y prueba, respectivamente. De los 873 ojos del conjunto de prueba, 309 [60,6 %] eran de mujeres y la edad media fue de 62,4 años; (RIC 54,8–68,9). El DLM alcanzó un AUC de 0,94 (IC del 95 %: 0,93–0,99). Incluso después de eliminar las 6 FV más recientes, proporcionando menos puntos de datos al modelo, el DLM identificó con éxito el empeoramiento con un AUC de 0,78 (IC del 95 %: 0,72–0,84). La evaluación del empeoramiento por parte del médico (basada en la documentación del registro médico en el momento de la FV final en cada ojo) tuvo un AUC de 0,64 (IC del 95 %: 0,63 a 0,66). Tanto el DLM como el médico obtuvieron peores resultados cuando la enfermedad inicial era más grave. Estos datos muestran que un DLM capacitado en un consenso de métodos para definir el empeoramiento identificó con éxito el empeoramiento de la FV y podría ayudar a guiar a los médicos durante la atención clínica de rutina.

El glaucoma es la principal causa de ceguera irreversible en todo el mundo y la identificación temprana del empeoramiento es fundamental para la prevención1,2. La prueba del campo visual (VF) es una de las estrategias más críticas para controlar el empeoramiento de la enfermedad3. Identificar el empeoramiento de las FV es difícil debido a la presencia de rendimiento fluctuante, variabilidad y falta de un estándar de oro4,5,6,7. Un enfoque para abordar este problema incluye pruebas más frecuentes, aunque esto puede presentar una carga significativa para los pacientes y al mismo tiempo requerir varios años para identificar la progresión8,9,10,11,12.

Se han desarrollado varios métodos objetivos para ayudar a determinar la progresión de la FV; Estos se pueden dividir en términos generales en métodos basados ​​en eventos y tendencias. Los métodos basados ​​en eventos identifican la progresión puntuando las FV con varias reglas basadas en la densidad y la profundidad del defecto en comparación con la FV inicial y se han utilizado en importantes ensayos clínicos como EMGT, CIGTS y AGIS13,14,15. El análisis de progresión guiada (GPA), que es similar a los criterios EMGT, se utiliza comúnmente en la práctica clínica y estudios previos han encontrado que identifica la progresión antes pero con menos especificidad16,17. Los métodos basados ​​en tendencias utilizan regresión lineal que se puede aplicar a parámetros globales de FV o datos puntuales. Trabajos anteriores han sugerido que los métodos basados ​​en eventos podrían identificar la progresión antes que los métodos basados ​​en tendencias18,19. Dos estudios compararon todos estos métodos en un gran conjunto de FV longitudinales y mostraron un acuerdo débil, lo que sugiere la necesidad de un consenso entre los distintos algoritmos para identificar la progresión20,21.

El uso de inteligencia artificial representa un enfoque potencial para identificar el empeoramiento antes y de manera más consistente22,23,24,25,26. Incluso se ha utilizado para predecir FV futura o identificar pacientes con mayor riesgo de empeoramiento27,28. Los enfoques tradicionales de aprendizaje automático utilizan la transformación preespecificada de subcomponentes de los datos, mientras que los enfoques de aprendizaje profundo permiten entrenar modelos con datos sin procesar29. El aprendizaje profundo tiene una variedad de enfoques que pueden resultar útiles según la estructura de los datos. En un artículo reciente, un tipo específico de modelo de aprendizaje profundo (DLM), un modelo convolucional de memoria a corto plazo (LSTM), mostró éxito en la identificación del empeoramiento de la FV30. Este modelo es único porque permite la extracción de características espaciotemporales que son críticas para evaluar las FV.

El objetivo del trabajo actual fue evaluar el rendimiento de un LSTM convolucional para detectar el empeoramiento de la FV cuando se entrena con un consenso de eventos y algoritmos basados ​​en tendencias comúnmente utilizados para detectar el empeoramiento. Para evaluar más a fondo la solidez del DLM, evaluamos su desempeño para identificar el empeoramiento cuando se entrenó con menos VF. También comparamos la concordancia entre los diversos algoritmos utilizados para detectar el empeoramiento para enfatizar la importancia de la necesidad de una medida consensuada del empeoramiento. Según los datos presentados aquí, un DLM podría ayudar a los médicos a identificar el empeoramiento de la FV.

Se incluyeron 8.705 ojos de 5.099 pacientes (Fig. 1). La mediana de edad de todos los pacientes en su primera FV fue de 62,3 años y el 56,2% eran mujeres (Tabla 1). La desviación media (MD) inicial de la FV en todos los ojos fue de −2,5 dB con una disminución longitudinal media de 0,19 dB/año. La distribución de la DM inicial se muestra en el histograma (Figura 1 complementaria). A cada ojo se le realizaron alrededor de 12 campos visuales (VF) aproximadamente una vez al año. Los pacientes se dividieron en conjuntos de entrenamiento (80%), validación (10%) y pruebas (10%). La Tabla 1 muestra estas y otras características adicionales para ojos de entrenamiento, validación y prueba. No hubo diferencias estadísticamente significativas entre los tres grupos (p > 0,05, ANOVA). El uso de solo un ojo de cada paciente en el conjunto de prueba (n = 510) no cambió los resultados (datos no mostrados).

Criterios de inclusión del estudio. El diagrama de flujo muestra el número total de pacientes, ojos y exámenes de FV que estaban presentes al inicio. Se excluyeron los ojos que no tenían datos completos de FV y no tenían al menos 7 campos confiables. El criterio final de inclusión fue la decisión de los médicos de empeoramiento en el momento de la prueba de FV, que fue retrospectiva.

Para cada ojo, se calcularon todos los métodos para evaluar la progresión y los resultados se muestran en la Fig. 2. Este gráfico muestra el número total de ojos en progresión a la izquierda de las filas cerca de cada método; CIGTS tuvo el mayor número de ojos en progreso con 2411 (27,7%), seguido de GPA con 2192 (25,2%). La pendiente VFI y AGIS identificaron la menor cantidad de ojos progresando con 643 (7,4%) y 784 (9,0%), respectivamente. Los médicos estaban en el medio identificando 1353 (15,6%) ojos en progresión. Las columnas muestran la cantidad de ojos que tuvieron progresión según varias combinaciones de métodos en cada fila; en total, se encontró que 126 ojos estaban progresando según todos los métodos y médicos (columna más a la derecha).

Parcela molesta con todos los métodos para detectar el empeoramiento. Cada fila de la tabla corresponde a un método diferente para detectar el empeoramiento. El gráfico de barras de la izquierda indica el número total de ojos identificados como empeoramiento mediante el método indicado con las líneas grises que identifican 1000 y 2000. Las columnas indican, con puntos y líneas, la combinación de métodos que se están evaluando. El gráfico de barras encima de la columna muestra la cantidad de ojos que progresan para esa combinación específica de métodos. Las primeras siete columnas muestran cuántos ojos se identificaron como progresando solo con cada método, mientras que la columna de la derecha muestra cuántos ojos se identificaron como progresando con cada método.

Los coeficientes kappa para comparar la concordancia entre cada método se muestran en la Tabla 2. Se calculó la concordancia entre todos los métodos para detectar el empeoramiento de la FV y el kappa de Fleiss (IC del 95%) fue 0,34 (0,33, 0,36) cuando se incluyeron las evaluaciones del empeoramiento de los médicos y 0,41 (0,39, 0,42) cuando no se incluyeron las evaluaciones de los médicos. Los métodos basados ​​en tendencias (pendiente MD, pendiente PLR ​​y pendiente VFI) en general tuvieron una mayor concordancia entre sí (sombra más oscura). De los métodos basados ​​en eventos (AGIS, GPA y CIGTS), CIGTS tuvo el menor acuerdo con otros métodos basados ​​en tendencias y eventos. La evaluación del empeoramiento por parte de los médicos tuvo una débil concordancia con todos los demás métodos.

El modelo de aprendizaje profundo (DLM) se entrenó para detectar el empeoramiento de los campos visuales según el estándar de referencia 4 de 6 (Fig. 3). El DLM tuvo un AUC (IC del 95%) de 0,94 (0,93, 0,99) (línea azul, Fig. 4). En el gráfico ROC (Fig. 3), se demuestra que la evaluación médica del empeoramiento tiene una tasa de verdaderos positivos (TPR) más baja y una tasa de falsos positivos (FPR) más alta que el DLM. La evaluación del médico tuvo un TPR (IC del 95%) de 0,42 (0,32, 0,54) y un FPR (IC del 95%) de 0,16 (0,06, 0,37). En el TPR del médico (0,42), el DLM totalmente VF tuvo un FPR (IC del 95%) de 0,024 (0,00, 0,062). En la FPR del médico (0,16), el DLM totalmente VF tuvo una TPR de 0,93 (0,87, 0,99). El AUC estimado para los médicos fue 0,63 (0,62, 0,64). Un beneficio de aplicar un DLM es que el rendimiento del modelo se puede evaluar con menos puntos de datos. Para cada ojo, se eliminaron hasta los 6 VF más recientes y se evaluó el rendimiento del modelo (líneas multicolores). El AUC disminuyó con la eliminación de más FV, ​​pero todos los AUC siguieron siendo significativamente mayores que la evaluación del médico utilizando todos los datos de FV (p <0,001 para todos los modelos en comparación con el médico). El DLM tuvo un AUC significativamente mayor independientemente de cuántas pruebas (1 de 6 a 6 de 6) se requirieron para el estándar de referencia (Tabla complementaria 1). El modelo de efectos mixtos también tuvo un AUC más bajo que el DLM con un AUC de 0,82 (0,77–0,86, datos no mostrados).

Diagrama del modelo de aprendizaje profundo. Arquitectura de aprendizaje profundo que incorpora datos de los campos visuales y sus 8 métricas globales.

Conjunto de pruebas de rendimiento del modelo de aprendizaje profundo y evaluación médica del empeoramiento de la FV. La línea azul muestra el rendimiento del modelo con los datos completos. Se puede observar una disminución del AUC con la eliminación de más VF (desplazamiento hacia la derecha de la curva ROC) hacia el rosa, donde se eliminaron 6 de los últimos VF. El AUC disminuyó de 0,94 (0,91, 0,98) a 0,78 (0,72, 0,84) al comparar los datos completos y la eliminación de 6 VF, respectivamente. El punto cian y los bigotes de IC del 95 % muestran la sensibilidad y especificidad de los médicos a la hora de detectar el empeoramiento en el mismo par de ojos durante la práctica clínica habitual. El AUC estimado para los médicos fue 0,63 (0,62, 0,64).

La Tabla 3 muestra la sensibilidad y especificidad para el DLM y los médicos después de subdividir los datos según la gravedad inicial de la enfermedad. El desempeño es significativamente peor tanto para el DLM como para los médicos cuando los pacientes tenían una enfermedad más grave al inicio del estudio (p <0,05 para ambas comparaciones).

Se realizó un análisis similar utilizando la evaluación médica del empeoramiento como estándar de referencia y el DLM también pudo identificar con éxito el empeoramiento con un AUC de 0,79 (Figura complementaria 2). También se muestra la comparación del AUC para la gravedad de la enfermedad (Tabla complementaria 2).

En esta gran población de pacientes, hubo una variabilidad significativa en el acuerdo entre los diversos métodos para identificar el empeoramiento de la FV. Mostramos que un DLM entrenado para identificar el empeoramiento de la FV basándose en un consenso de estos métodos tuvo un buen desempeño. Además, el DLM fue sólido y tuvo un AUC significativamente mayor que el desempeño del médico y el modelo de efectos mixtos cuando se le proporcionó menos datos de FV que los disponibles para el médico. Tanto el DLM como los médicos tuvieron más dificultades para evaluar el empeoramiento cuando la enfermedad al inicio estaba más avanzada. El DLM puede ayudar a los médicos a evaluar mejor cuándo empeora la FV.

Múltiples estudios han comparado la concordancia entre los algoritmos para identificar el empeoramiento de la FV. Los estudios iniciales mostraron que los métodos basados ​​en eventos, concretamente el GPA, tenían más sensibilidad y una detección más temprana del empeoramiento en comparación con los basados ​​en tendencias, concretamente la regresión VFI y MD18,19. Varios estudios que comparan métodos basados ​​en eventos y tendencias muestran una variación en la concordancia que va de pobre a moderada con coeficientes kappa que oscilan entre 0,22 y 0,5118,19,20,21. La concordancia dentro de los métodos basados ​​en eventos es mejor, oscilando entre 0,48 y 0,55. Los métodos basados ​​en tendencias también tienen una alta concordancia de hasta 0,67 entre MD y VFI, pero también tan baja como 0,2 entre MD y PLR20,21. Nuestro estudio también mostró una concordancia moderada entre el GPA y tanto AGIS (0,45) como CIGTS (0,48). Encontramos una mayor concordancia entre distintos métodos basados ​​en tendencias, que oscilaron entre 0,57 y 0,72. Una fortaleza única de nuestro estudio fue evaluar la concordancia del GPA en una muestra grande. El otro estudio con una muestra grande (~ 13.000 ojos) no evaluó el GPA20. Curiosamente, el porcentaje de ojos identificados con empeoramiento ha variado según los estudios. Nuestros resultados contrastan con un informe reciente que encontró que PLR ​​tenía la mayor proporción de FV que progresaban con casi un 50% y CIGTS era la más baja con un 10%20. Otro informe encontró que CIGTS/GPA/PLR identificó un empeoramiento en la mayor cantidad de ojos, mientras que la tasa de VFI fue la más baja, lo que es más similar a nuestros hallazgos21. Es importante destacar que las diferencias aquí podrían surgir de la variabilidad en la población de pacientes y los patrones de práctica. Los ojos en este estudio tenían una enfermedad más leve al inicio del estudio con una DM media de −2,5 dB en comparación con aproximadamente −5 dB en los otros estudios. La demografía de los pacientes en este estudio es comparable a la de otros estudios, aunque hay un porcentaje mayor de pacientes mujeres y negros que el observado en los estudios de población31.

Una variedad de factores pueden subyacer cuando los algoritmos coinciden. Con más pruebas de FV, los métodos basados ​​en tendencias pudieron encontrar progresión en comparación con el GPA18. Para evaluar específicamente la discordancia, un estudio identificó ojos en los que 3/6 algoritmos identificaron un empeoramiento y los otros 3 no mostraron ningún empeoramiento y encontraron que la discordancia se asociaba con una peor DM inicial, mayor edad, más FV, ​​mayor duración del seguimiento e institución de la que se obtuvieron los datos. era de 20. Estos hallazgos resaltan la dificultad de identificar un método único como estándar de referencia objetivo. Incluso la decisión de los expertos clínicos muestra una variación significativa32,33. En este estudio, combinamos métricas objetivas para identificar un consenso. Exigir el consenso de demasiados algoritmos crearía demasiada rigurosidad; por ejemplo, la concordancia de los algoritmos 5/6 y 6/6 en un estudio encontró un empeoramiento en sólo el 3,1% y el 2,5%, respectivamente20. En este estudio, el porcentaje de pacientes identificados con empeoramiento con 4, 5 y 6 algoritmos que identificaron el empeoramiento fue del 10,0%, 6,8% y 3,8%. Aplicamos la definición de consenso como acuerdo 4/6 o más. Una ventaja de requerir cuatro algoritmos fue que cualquier ojo identificado con empeoramiento requería al menos un método basado en eventos y tendencias para estar de acuerdo. Aunque nuestro enfoque principal aquí utiliza la decisión de consenso como estándar de referencia, también realizamos un análisis complementario utilizando la decisión del médico como estándar de referencia. El DLM se entrenó con éxito con un AUC de 0,79. Este peor rendimiento, en comparación con el consenso como estándar de referencia, podría deberse a numerosas razones, como un enfoque menos algorítmico por parte de los médicos o la inclusión de factores clínicos que no están disponibles para el modelo.

El aprendizaje automático tradicional se ha aplicado al glaucoma durante muchos años y los avances más recientes en informática han permitido modelos más complejos29. Dado que los cambios de FV tienen un componente espaciotemporal significativo, un artículo reciente demostró el éxito al utilizar un modelo LSTM convolucional (cLSTM) que conserva características espaciales y temporales. En ese estudio, los cambios en la FV se definieron mediante métodos basados ​​en tendencias y se demostró que cLSTM identificó el empeoramiento con éxito con valores de AUC de hasta 0,93930. Estos valores son más altos que los observados en los enfoques tradicionales de aprendizaje automático; por ejemplo, el modelo de mezcla gaussiana tenía una sensibilidad y especificidad del 89,9 % y del 93,8 % con un AUC de 0,8622. Sin embargo, todos estos estudios son difíciles de comparar debido a los diversos estándares de referencia. Este estudio es único porque cLSTM se utiliza para identificar el empeoramiento de la FV según el consenso de múltiples algoritmos. También comparamos el DLM con un modelo de efectos mixtos y mostramos un rendimiento superior. Otra comparación en este estudio es el desempeño médico que demuestra el valor potencial del DLM en la atención clínica de rutina. Aunque el desempeño del médico aquí tiene limitaciones, hasta donde sabemos, este es el primer estudio que muestra el desempeño del médico en un gran conjunto de datos y lo compara con un DLM34. Estudios anteriores de aprendizaje profundo han mostrado resultados excelentes, como una excelente precisión30, capacidad para predecir FV futuras27,28 e identificación más temprana de la progresión35. Sin embargo, la comparación del desempeño del aprendizaje profundo con el de los médicos será fundamental si dichos modelos se implementarán en un entorno clínico para evaluar el empeoramiento. Dado que otros estudios habían demostrado la capacidad exitosa del aprendizaje profundo para pronosticar futuros VF, evaluamos el rendimiento del modelo después de eliminar los VF finales. La eliminación de cada VF adicional provocó un peor rendimiento del modelo, pero incluso después de eliminar 5 de los VF más recientes, el DLM funciona tan bien como un modelo de efectos mixtos. Estos hallazgos muestran que el aprendizaje profundo no solo sirve para la identificación precisa del diagnóstico de la enfermedad o la detección de la progresión, sino que también puede identificar marcadores tempranos para pacientes de mayor riesgo.

Este estudio tiene algunas limitaciones. Los datos son retrospectivos y de un centro de referencia terciario. Además, se filtraron algunos datos para incluir solo aquellos ojos con datos longitudinales y VF confiables para permitir una identificación precisa del empeoramiento. Esto podría crear sesgos en pacientes seleccionados y limitar la generalización de los resultados. Aunque es importante señalar que en el estudio se incluyeron pacientes de todo el espectro de gravedad de la enfermedad. Se requerirá una validación externa de nuestro modo cLSTM antes de que este modelo pueda implementarse para uso clínico. Los datos de VF en este estudio se basaron en las pruebas SITA 24-2 del analizador de campo Zeiss Humphrey; la utilización de otros datos de VF (por ejemplo, Haag-Streit Octopus Perimeter) requeriría datos de entrenamiento representativos de otras pruebas. Otra limitación es que la evaluación médica del empeoramiento se realizó retrospectivamente y en un único momento en el último campo visual y los médicos no recibieron instrucciones específicas sobre cómo calificar esta evaluación. Sin embargo, los médicos representan especialistas en glaucoma durante la atención clínica de rutina y tenían acceso a todos los campos visuales, así como a diagramas de progresión que contienen pendientes GPA y MD/VFI. Algunas direcciones futuras incluyen más comparaciones entre el aprendizaje profundo y el desempeño clínico en entornos más controlados y prospectivos, así como el papel de incluir parámetros adicionales como datos clínicos o pruebas estructurales en la evaluación del empeoramiento.

En conclusión, mostramos que existe una variabilidad significativa entre los métodos objetivos para clasificar el empeoramiento de la FV y que el consenso de estos métodos representa un método para crear un estándar de referencia. Utilizando este estándar de referencia, mostramos que un DLM, específicamente cLSTM, puede identificar con éxito el empeoramiento de la FV y ayudaría a los médicos durante la atención clínica de rutina. Después de una cuidadosa validación externa, dichos modelos pueden implementarse para identificar el empeoramiento de la FV de forma precisa y automática en clínicas de glaucoma.

Este estudio fue revisado y aprobado por la Junta de Revisión Institucional de la Facultad de Medicina de la Universidad Johns Hopkins y se adhirió a los principios de la Declaración de Helsinki. Se eximió del requisito de consentimiento informado debido a la naturaleza retrospectiva del estudio.

Los datos demográficos y clínicos se obtuvieron de pacientes atendidos en el Johns Hopkins Wilmer Eye Institute desde junio de 1990 hasta junio de 2020. La evaluación clínica del empeoramiento en el último campo visual (VF) se extrajo de Epic (Verona, Wisconsin). Los médicos que calificaron los ojos con posible o probable empeoramiento en las pruebas de FV se etiquetaron como empeoramiento, mientras que otras opciones (estables, posiblemente o probablemente mejorando) se etiquetaron como sin empeoramiento. Los datos de FV fueron estudios HVF 24-2 extraídos de FORUM (Zeiss, Dublin, CA). La mayoría de ellos eran SITA-Standard, pero también incluían SITA-Fast, umbral completo y SITA-Faster.

Los FV se incluyeron solo si se consideraban confiables con menos del 15 % de falsos positivos y menos del 25 % de falsos negativos para la enfermedad leve/moderada o del 50 % para la enfermedad grave36. Solo incluimos ojos con al menos 7 VF confiables para poder realizar una determinación precisa del cambio longitudinal. Se requirió que la última FV de la serie para cada ojo tuviera una evaluación médica del empeoramiento o no empeoramiento de la FV registrada en los gráficos. El número de pruebas de FV excluidas en cada paso se muestra en el diagrama de flujo (Fig. 1).

No existe un estándar de oro para evaluar el empeoramiento de la FV, pero existen numerosos algoritmos que se han empleado comúnmente en este campo. Utilizamos seis de estos métodos automatizados. Esto incluye tres métodos basados ​​en eventos: Análisis de progresión guiada (GPA), sistema de puntuación del Estudio avanzado de intervención en glaucoma (AGIS) y sistema de puntuación del Estudio colaborativo de tratamiento inicial del glaucoma (CIGTS). También utilizamos tres métodos basados ​​en tendencias: tasa de cambio de desviación media (MD) (pendiente MD), tasa de cambio (pendiente VFI) del índice VF (VFI) y regresión lineal puntual (PLR). Además de estos algoritmos, también tuvimos acceso a la evaluación médica del empeoramiento de la última FV de cada serie. La descripción de cada uno de estos métodos se describe a continuación. En todos los métodos basados ​​en eventos, se necesitaba una línea de base que se calculaba como el promedio de las dos primeras FV.

El GPA generalmente se calcula mediante software propietario y se basa en el Análisis de probabilidad de cambio de glaucoma 3,21,37. Los valores de desviación en cada punto del VF se comparan con el promedio de los valores en los dos primeros VF. Se identifican los puntos con una diferencia significativamente mayor que la variabilidad test-retest en p < 0,05. Como no teníamos acceso a la base de datos del GPA para los umbrales de variabilidad test-retest, determinamos umbrales para α <0,05 con base en una base de datos normativa empírica de la Universidad de Iowa. También utilizamos valores de desviación total en lugar de la desviación del patrón que utiliza clásicamente el GPA, ya que estudios previos han demostrado que la desviación total tiene más probabilidades de detectar la progresión38. Definimos el empeoramiento como tres o más puntos de empeoramiento más allá del nivel umbral en tres campos consecutivos en comparación con el promedio de los dos primeros exámenes de FV.

La puntuación AGIS se calculó para cada FV como se describe en el ensayo AGIS13. Brevemente, cada VF se clasifica según la profundidad y la cantidad de defectos en ubicaciones preespecificadas en la VF. Estas ubicaciones preespecificadas incluyen los hemicampos nasal, superior e inferior. La puntuación varía de 0 a 20 y las puntuaciones de cada FV se comparan con las puntuaciones iniciales. Se utilizó un programa informático para calcular la puntuación39. Un aumento en la puntuación AGIS de al menos cuatro puntos que se mantiene en tres FV consecutivas se clasificó como empeoramiento.

El cálculo de la puntuación CIGTS se describió previamente en el ensayo CIGTS15. Esta puntuación utiliza el mapa de probabilidad de desviación total y se calcula en función de la densidad y profundidad de los defectos en todo el VF. Las FV con múltiples puntos aislados con defectos recibirían una puntuación más baja que cuando había grupos de puntos con defectos. La puntuación CIGTS también varía de 0 a 20 y un aumento de tres o más puntos de prueba que se mantiene durante tres FV consecutivas se clasificó como empeoramiento.

La pendiente MD se calculó como la regresión lineal simple de los valores MD para las FV. El empeoramiento de la FV se definió como una pendiente negativa ≤ − 0,5 dB/año con un valor p de regresión inferior a 0,05. De manera similar, la pendiente del VFI se calculó como la regresión lineal de los valores del VFI. El empeoramiento de la FV se definió como una pendiente negativa ≤ − 1,8%/año con un valor de p inferior a 0,0521.

Para PLR, se realizó una regresión lineal para los valores de desviación total de cada uno de los 52 puntos de VF por separado. El empeoramiento de la FV se definió como la presencia de tres puntos cualesquiera con una pendiente negativa ≤ − 1 dB/año con un valor de p ≤ 0,0121.

La evaluación clínica del empeoramiento fue determinada para cada ojo por el médico en el momento del último campo visual y registrada en Epic. El médico podía elegir entre casillas de verificación que indicaban probable empeoramiento, posible empeoramiento, estable, posible mejora o probable mejora. Una decisión de progresión probable o posible se clasificó como empeoramiento, mientras que todas las demás opciones se clasificaron como sin empeoramiento.

Se definió un estándar de referencia para el empeoramiento de la FV como al menos cuatro de seis algoritmos (GPA, AGIS, CIGTS, pendiente MD, pendiente VFI y PLR) que identificaban el empeoramiento. Esto se utilizó como etiqueta de empeoramiento para entrenar/probar el modelo de aprendizaje profundo (DLM) y sirve como base de datos para el empeoramiento de la FV en este estudio. Esta referencia también se utilizó como referencia para la curva de características operativas del receptor (ROC) en la Fig. 4. Se realizó un análisis complementario con la evaluación del médico de empeoramiento por empeoramiento utilizada como estándar de referencia para entrenar el DLM y generar la curva ROC. (Figura complementaria 2).

La arquitectura DLM se describe en la Fig. 1. La entrada a la red consta de dos partes: (1) un conjunto de 7 o más imágenes VF, cada imagen tiene 54 puntos que se difuminaron radialmente en una cuadrícula de 12 × 12 y se apilaron juntos ; (2) una pila de 7 o más conjuntos de 8 métricas globales de cada VF (edad, VFI en %, PSD en dB, MD en dB, falsos negativos en %, falsos positivos en %, duración de la prueba en segundos y pérdidas de fijación) ). La arquitectura DLM puede recibir datos temporales espaciados de manera desigual de cada serie VF. El conjunto de datos se dividió en 80 %, 10 % y 10 % para entrenamiento, validación y prueba, respectivamente. Los datos se dividieron a nivel de paciente, de modo que si se incluyeran ambos ojos, estarían dentro del mismo conjunto. Incluir solo un ojo de cada paciente no cambió los resultados del estudio. Los datos se distribuyeron aleatoriamente, por lo que todos los conjuntos de datos, entrenamiento, validación y pruebas consistieron en ojos en los que se determinó y en los que no se determinó que estaban empeorando. Para la arquitectura de aprendizaje profundo, implementamos un único LSTM convolucional 2D con un tamaño de kernel de 3 × 3. La normalización por lotes también se integró en el modelo para reducir el cambio de covariables interno. El resultado del modelo fue la probabilidad de que la FV empeore.

Se llevó a cabo un análisis adicional eliminando los VF del final de la serie de VF que se incluyeron para cada ojo y volviendo a entrenar el modelo con menos puntos de datos. Esto puso a prueba la capacidad del DLM para juzgar el empeoramiento antes de tener acceso a toda la información utilizada por el estándar de referencia de 4 de 6 algoritmos. Los VF se eliminaron secuencialmente desde el final (eliminando el VF final, eliminando los dos VF finales, eliminando los tres VF finales, etc.). Esto se hizo hasta un máximo de eliminación de los 6 VF finales, ya que todos los ojos incluidos requerían al menos 7 VF. Esto permitió que cada ojo tuviera al menos 1 VF ingresado al modelo como entrada, aunque alrededor del 87% de los ojos tenían más de este número mínimo. La etiqueta de empeoramiento y la evaluación del desempeño todavía se basaban en el consenso original de 4 de 6 utilizando todos los VF.

Dado que se utilizaron múltiples métodos para identificar el empeoramiento de la FV, quisimos calcular el nivel de acuerdo entre estos métodos. La concordancia por pares se identificó con base en el coeficiente kappa de Cohen. Según la literatura anterior, un coeficiente kappa de 0 a 0,2 indicó un acuerdo leve, de 0,2 a 0,4 un acuerdo regular, de 0,4 a 0,6 un acuerdo moderado y de 0,6 a 0,8 un acuerdo sustancial40. También se determinó la concordancia entre más de dos métodos calculando el coeficiente kappa de Fleiss41.

Se creó otro modelo para identificar el empeoramiento utilizando un modelo de efectos mixtos al que se le proporcionaron los mismos datos que el LSTM (Fig. 3), con "ID del paciente" y "ID del ojo" tratados como efectos aleatorios y todas las demás características tratadas como fijas. efectos.

Para la predicción del aprendizaje profundo, construimos una curva ROC, que puede visualizar el rendimiento del DLM en todos los umbrales de clasificación (Fig. 4). Se calcularon un valor de AUC y su intervalo de confianza del 95 % como medida del rendimiento de la predicción. Se utilizó el método Clopper-Pearson para calcular el intervalo de confianza del 95% de las tasas de falsos positivos y las tasas de verdaderos positivos42. Se utilizó el mismo enfoque para identificar un AUC para el enfoque del modelo de efectos mixtos. Para la evaluación médica del empeoramiento, se calculó una tasa fija de verdaderos positivos y una tasa de falsos positivos. No se puede calcular una curva ROC exacta para la evaluación médica del empeoramiento, ya que es una clasificación discreta y binaria. Para evaluar el rendimiento de la predicción del médico, se calculó la mejor puntuación AUC minmax y sus límites superior e inferior, asumiendo que la curva ROC del médico es cóncava o monótona43.

A menos que se especifique lo contrario, todas las comparaciones y análisis de rendimiento se calcularon únicamente sobre el conjunto de datos de prueba. El DLM se desarrolló utilizando Python (Python Software Foundation, Wilmington, Delaware). Se utilizó SPSS para comparaciones estadísticas (IBM Corp, Armonk, NY).

Sociedad Estadounidense de Glaucoma, presentación de artículo, Nashville, TN, 2022.

Los conjuntos de datos generados y/o analizados durante el estudio actual no están disponibles públicamente debido a que son información de salud protegida. Los datos sin procesar no estarían disponibles para compartir.

McKean-Cowdin, R. et al. Impacto de la pérdida del campo visual en la calidad de vida relacionada con la salud en el glaucoma: The Los Angeles Latino Eye Study. Oftalmología 115(6), 941-948.e1. https://doi.org/10.1016/j.ophtha.2007.08.037 (2008).

Artículo de Google Scholar

Tham, YC y cols. Prevalencia global del glaucoma y proyecciones de la carga del glaucoma hasta 2040: una revisión sistemática y un metanálisis. Oftalmología 121(11), 2081–2090. https://doi.org/10.1016/j.ophtha.2014.05.013 (2014).

Artículo de Google Scholar

Heijl, A. y col. Medición de la progresión del campo visual en el ensayo de glaucoma manifiesto temprano. Acta Oftalmol. Escanear. 81(3), 286–293. https://doi.org/10.1034/j.1600-0420.2003.00070.x (2003).

Artículo de Google Scholar

Russell, RA, Crabb, DP, Malik, R. y Garway-Heath, DF La relación entre variabilidad y sensibilidad en datos de campo visual longitudinal a gran escala. Investigando. Oftalmol. Vis. Ciencia. 53(10), 5985–5990. https://doi.org/10.1167/iovs.12-10428 (2012).

Artículo de Google Scholar

Heijl, A., Lindgren, A. y Lindgren, G. Variabilidad test-retest en campos visuales glaucomatosos. Soy. J. Oftalmol. 108(2), 130-135. https://doi.org/10.1016/0002-9394(89)90006-8 (1989).

Artículo CAS Google Scholar

Wall, M., Woodward, KR, Doyle, CK & Artes, PH Repetibilidad de la perimetría automatizada: una comparación entre la perimetría automatizada estándar con estímulo de tamaño III y V, matriz y perimetría de movimiento. Investigando. Oftalmol. Vis. Ciencia. 50(2), 974–979. https://doi.org/10.1167/iovs.08-1789 (2009).

Artículo de Google Scholar

Spry, PGD & Johnson, CA Identificación de la pérdida glaucomatosa progresiva del campo visual. Sobrevivir. Oftalmol. 47(2), 158–173. https://doi.org/10.1016/S0039-6257(01)00299-5 (2002).

Artículo de Google Scholar

Weinreb, RN, Aung, T. & Medeiros, FA Fisiopatología y tratamiento del glaucoma. JAMA 311(18), 1901. https://doi.org/10.1001/jama.2014.3192 (2014).

Artículo CAS Google Scholar

Chauhan, BC y col. Recomendaciones prácticas para medir las tasas de cambio del campo visual en el glaucoma. Hno. J. Oftalmol. 92(4), 569–573. https://doi.org/10.1136/bjo.2007.135012 (2008).

Artículo CAS Google Scholar

Nouri-Mahdavi, K., Zarei, R. y Caprioli, J. Influencia de la frecuencia de las pruebas del campo visual en la detección de la progresión del glaucoma con análisis de tendencias. Arco. Oftalmol. 129(12), 1521-1527. https://doi.org/10.1001/archophthalmol.2011.224 (2011).

Artículo de Google Scholar

Malik, R., Baker, H., Russell, RA y Crabb, DP Una encuesta sobre las actitudes de los subespecialistas en glaucoma en Inglaterra y Gales respecto de los intervalos de las pruebas de campo visual en relación con las directrices NICE. BMJ Abierto 3(5), e002067. https://doi.org/10.1136/bmjopen-2012-002067 (2013).

Artículo de Google Scholar

Wu, Z., Saunders, LJ, Daga, FB, Diniz-Filho, A. & Medeiros, FA Frecuencia de las pruebas para detectar la progresión del campo visual derivada de una cohorte longitudinal de pacientes con glaucoma. Oftalmología 124(6), 786–792. https://doi.org/10.1016/j.ophtha.2017.01.027 (2017).

Artículo de Google Scholar

Advanced, T., Intervention, G. & Investigators, S. Intervención avanzada en glaucoma. Estudio 2. Puntuación y fiabilidad de las pruebas de campo visual. Oftalmología 101 (8), 1445-1455. https://doi.org/10.1016/S0161-6420(94)31171-7 (1994).

Artículo de Google Scholar

Heijl, A., Leske, MC, Bengtsson, B., Bengtsson, B. y Hussein, M. Grupo de ensayo de glaucoma manifiesto temprano. Medición de la progresión del campo visual en el ensayo de glaucoma manifiesto temprano. Acta Oftalmol. Escanear. 81(3), 286–293. https://doi.org/10.1034/j.1600-0420.2003.00070.x (2003).

Artículo de Google Scholar

Musch, DC, Lichter, PR, Guire, KE y Standardi, CL El estudio colaborativo de tratamiento inicial del glaucoma: diseño del estudio, métodos y características iniciales de los pacientes inscritos. Oftalmología 106(4), 653–662. https://doi.org/10.1016/S0161-6420(99)90147-1 (1999).

Artículo CAS Google Scholar

Vesti, E., Johnson, CA y Chauhan, BC Comparación de diferentes métodos para detectar la progresión del campo visual glaucomatoso. Investigando. Oftalmol. Vis. Ciencia. 44(9), 3873–3879. https://doi.org/10.1167/iovs.02-1171 (2003).

Artículo de Google Scholar

Heijl, A. y col. Una comparación de los criterios de progresión del campo visual de 3 ensayos principales de glaucoma en pacientes de ensayos con glaucoma manifiesto temprano. Oftalmología 115 (9), 1557-1565. https://doi.org/10.1016/j.ophtha.2008.02.005 (2008).

Artículo de Google Scholar

Casas-Llera, P. et al. Tasa de índice de campo visual y análisis de progresión del glaucoma basado en eventos: comparación en una población con glaucoma. Hno. J. Oftalmol. 93(12), 1576-1579. https://doi.org/10.1136/bjo.2009.158097 (2009).

Artículo CAS Google Scholar

Rao, HL y cols. Concordancia entre los análisis de progresión del glaucoma basados ​​en eventos y en tendencias. Ojo 27(7), 803–808. https://doi.org/10.1038/eye.2013.77 (2013).

Artículo CAS Google Scholar

Saeedi, OJ y cols. Concordancia y predictores de discordancia de 6 algoritmos de progresión del campo visual. Oftalmología 126(6), 822–828. https://doi.org/10.1016/j.ophtha.2019.01.029 (2019).

Artículo de Google Scholar

Rabiolo, A. et al. Comparación de métodos para detectar y medir la progresión del campo visual glaucomatoso. Traducción Vis. Ciencia. Tecnología. https://doi.org/10.1167/tvst.8.5.2 (2019).

Artículo de Google Scholar

Yousefi, S. et al. Modelo de mezcla gaussiana no supervisada con maximización de expectativas para detectar la progresión glaucomatosa en campos visuales de perimetría automatizada estándar. Traducción Vis. Ciencia. Tecnología. https://doi.org/10.1167/tvst.5.3.2 (2016).

Artículo de Google Scholar

Yousefi, S. et al. Patrones asimétricos de defecto del campo visual en el glaucoma primario de ángulo abierto y de ángulo cerrado. Investigando. Oftalmol. Vis. Ciencia. 59(3), 1279–1287. https://doi.org/10.1167/iovs.17-22980 (2018).

Artículo de Google Scholar

Goldbaum, MH y cols. Progresión de patrones (POP): un algoritmo clasificador automático para identificar la progresión del glaucoma en los campos visuales. Investigando. Oftalmol. Vis. Ciencia. 53(10), 6557–6567. https://doi.org/10.1167/iovs.11-8363 (2012).

Artículo de Google Scholar

Park, K., Kim, J. y Lee, J. Predicción del campo visual utilizando una red neuronal recurrente. Ciencia. Rep. 9(1), 1-12. https://doi.org/10.1038/s41598-019-44852-6 (2019).

Artículo CAS Google Scholar

Wang, M. y col. Un enfoque de inteligencia artificial para detectar la progresión del campo visual en el glaucoma basado en el análisis de patrones espaciales. Investigando. Oftalmol. Vis. Ciencia. https://doi.org/10.1167/iovs.18-25568 (2019).

Artículo de Google Scholar

Wen, JC y cols. Predicción de futuros campos visuales de Humphrey mediante aprendizaje profundo. PLoS One 14(4), 1–14. https://doi.org/10.1371/journal.pone.0214875 (2019).

Artículo CAS Google Scholar

Shuldiner, SR y cols. Predecir ojos en riesgo de progresión rápida del glaucoma basándose en una prueba de campo visual inicial mediante aprendizaje automático. Más uno 16, 1–16. https://doi.org/10.1371/journal.pone.0249856 (2021).

Artículo CAS Google Scholar

Thompson, AC, Jammal, AA y Medeiros, FA Una revisión del aprendizaje profundo para la detección, el diagnóstico y la detección de la progresión del glaucoma. Traducción Vis. Ciencia. Tecnología. 9(2), 1–19. https://doi.org/10.1167/tvst.9.2.42 (2020).

Artículo de Google Scholar

Dixit, A., Yohannan, J. & Boland, MV Evaluación de la progresión del glaucoma mediante aprendizaje automático entrenado en el campo visual longitudinal y datos clínicos. Oftalmología 128(7), 1016–1026. https://doi.org/10.1016/j.ophtha.2020.12.020 (2021).

Artículo de Google Scholar

Gupta, P. y col. Prevalencia del glaucoma en los Estados Unidos: encuesta nacional de examen de salud y nutrición 2005-2008. Investigando. Oftalmol. Vis. Ciencia. 57(6), 2905–2913. https://doi.org/10.1167/iovs.15-18469 (2016).

Artículo de Google Scholar

Tanna, AP y cols. Acuerdo interobservador y reproducibilidad intraobservador de la determinación subjetiva de la progresión del campo visual glaucomatoso. Oftalmología 118(1), 60–65. https://doi.org/10.1016/j.ophtha.2010.04.038 (2011).

Artículo de Google Scholar

Viswanathan, AC y cols. Acuerdo interobservador sobre la progresión del campo visual en el glaucoma: una comparación de métodos. Hno. J. Oftalmol. 87(6), 726–730. https://doi.org/10.1136/bjo.87.6.726 (2003).

Artículo CAS Google Scholar

Brigatti, L., Nouri-Mahdavi, K., Weitzman, M. y Caprioli, J. Detección automática de la progresión del campo visual glaucomatoso con redes neuronales. Arco. Oftalmol. 115(6), 725–728. https://doi.org/10.1001/archopht.1997.01100150727005 (1997).

Artículo CAS Google Scholar

Yousefi, S. et al. Detección de la progresión longitudinal del campo visual en el glaucoma mediante aprendizaje automático. Soy. J. Oftalmol. 193, 71–79. https://doi.org/10.1016/j.ajo.2018.06.007 (2018).

Artículo de Google Scholar

Yohannan, J. et al. Criterios basados ​​en evidencia para la evaluación de la confiabilidad del campo visual. Oftalmología 124(11), 1612-1620. https://doi.org/10.1016/j.ophtha.2017.04.035 (2017).

Artículo de Google Scholar

Morgan, RK, Feuer, WJ y Anderson, DR Probabilidad de cambio de glaucoma en Statpac 2. Arco. Oftalmol. 109(12), 1690–1692. https://doi.org/10.1001/archopht.1991.01080120074029 (1991).

Artículo CAS Google Scholar

Artes, PH et al. Análisis longitudinales y transversales de la progresión del campo visual en participantes del Estudio de tratamiento de la hipertensión ocular. Arco. Oftalmol. 128(12), 1528-1532. https://doi.org/10.1001/archophthalmol.2010.292 (2010).

Artículo de Google Scholar

Tseng B. Subprograma web de puntuación de campo visual AGIS.

Landis, JR y Koch, GG La medición del acuerdo del observador para datos categóricos. Biometría 33(1), 159–174 (1977).

Artículo CAS MATH Google Scholar

Fleiss, JL Medición del acuerdo de escala nominal entre muchos evaluadores. Psicólogo. Toro. 76(5), 378–382. https://doi.org/10.1037/h0031619 (1971).

Artículo de Google Scholar

Sakakibara, I., Haramo, E., Muto, A., Miyajima, I. & Kawasaki, Y. Comparación de cinco intervalos de confianza exactos para la proporción binomial. Soy. J. Biostato. 4(1), 11-2 https://doi.org/10.3844/amjbsp.2014.11.20 (2014).

Artículo de Google Scholar

van den Hout, WB El área bajo una curva ROC con información limitada. Medicina. Decide. Mak. 23(2), 160–166. https://doi.org/10.1177/0272989X03251246 (2003).

Artículo de Google Scholar

Descargar referencias

La financiación fue apoyada por NIH 5 K23 EY032204-02 (JY) y Research to Prevent Blindness (RPB), NY: Subvención sin restricciones.

Estos autores contribuyeron igualmente: Jasdeep Sabharwal y Kaihua Hou.

Wilmer Eye Institute, Facultad de Medicina de la Universidad Johns Hopkins, Baltimore, MD, EE. UU.

Jasdeep Sabharwal, Chris Bradley, Pradeep Y. Ramulu y Jithin Yohannan

Centro Malone de Ingeniería, Universidad Johns Hopkins, Baltimore, MD, EE. UU.

Kaihua Hou, Patrick Herbert, Mathias Unberath y Jithin Yohannan

Departamento de Oftalmología y Ciencias Visuales, Universidad de Iowa, Iowa City, IA, EE. UU.

Chris A. Johnson y Michael Wall

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

JS y KH son coautores. Todos los autores contribuyeron a la metodología y los experimentos, KH, PH, JY desarrollaron el DLM, JS, KH, JY analizaron los resultados, JS, KH, JY escribieron el borrador original. Todos los autores revisaron, editaron y aprobaron el manuscrito.

Correspondencia a Jithin Yohannan.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Sabharwal, J., Hou, K., Herbert, P. et al. Un modelo de aprendizaje profundo que incorpora información espacial y temporal detecta con éxito el empeoramiento del campo visual mediante un enfoque basado en el consenso. Informe científico 13, 1041 (2023). https://doi.org/10.1038/s41598-023-28003-6

Descargar cita

Recibido: 29 de agosto de 2022

Aceptado: 11 de enero de 2023

Publicado: 19 de enero de 2023

DOI: https://doi.org/10.1038/s41598-023-28003-6

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.