banner
Hogar / Blog / Un modelo de regresión de aprendizaje profundo generalizable para la detección automatizada de glaucoma a partir de imágenes del fondo de ojo
Blog

Un modelo de regresión de aprendizaje profundo generalizable para la detección automatizada de glaucoma a partir de imágenes del fondo de ojo

Jun 29, 2023Jun 29, 2023

npj Digital Medicine volumen 6, Número de artículo: 112 (2023) Citar este artículo

2347 Accesos

5 altmétrico

Detalles de métricas

En los últimos años se ha propuesto una gran cantidad de modelos de clasificación para la detección de glaucoma a partir de imágenes del fondo de ojo. A menudo entrenados con datos de una única clínica de glaucoma, informan un rendimiento impresionante en conjuntos de pruebas internas, pero tienden a tener dificultades para generalizar a conjuntos externos. Esta caída del rendimiento se puede atribuir a cambios en los datos sobre la prevalencia del glaucoma, la cámara del fondo de ojo y la definición de la verdad básica del glaucoma. En este estudio, confirmamos que una red de regresión previamente descrita para la derivación de glaucoma (G-RISK) obtiene excelentes resultados en una variedad de entornos desafiantes. Se utilizaron trece fuentes de datos diferentes de imágenes de fondo de ojo etiquetadas. Las fuentes de datos incluyen dos grandes cohortes de población (Australian Blue Mountains Eye Study, BMES y German Gutenberg Health Study, GHS) y 11 conjuntos de datos disponibles públicamente (AIROGS, ORIGA, REFUGE1, LAG, ODIR, REFUGE2, GAMMA, RIM-ONEr3, RIM- UNO DL, ACRIMA, PAPILA). Para minimizar los cambios de datos en los datos de entrada, se desarrolló una estrategia de procesamiento de imágenes estandarizada para obtener imágenes centradas en el disco de 30° a partir de los datos originales. Se incluyeron un total de 149.455 imágenes para las pruebas del modelo. El área bajo la curva característica operativa del receptor (AUC) para las cohortes de población BMES y GHS fue de 0,976 [IC 95 %: 0,967–0,986] y 0,984 [IC 95 %: 0,980–0,991] a nivel de participante, respectivamente. Con una especificidad fija del 95 %, las sensibilidades fueron del 87,3 % y 90,3 %, respectivamente, superando el criterio mínimo de sensibilidad del 85 % recomendado por Prevent Blindness America. Los valores de AUC en los once conjuntos de datos disponibles públicamente oscilaron entre 0,854 y 0,988. Estos resultados confirman la excelente generalización de un modelo de regresión del riesgo de glaucoma entrenado con datos homogéneos de un único centro de referencia terciario. Se justifica una validación adicional mediante estudios de cohortes prospectivos.

El glaucoma es una de las principales causas de discapacidad visual irreversible y aumentará aún más debido al envejecimiento de la población mundial1. Este crecimiento sólo se sumará a la alta tasa actual de más del 50% de casos no detectados en los países desarrollados y en desarrollo2,3,4,5.

Los métodos actuales de detección del glaucoma primario de ángulo abierto (GPAA) no son rentables en entornos poblacionales, ya que generarían una gran cantidad de falsos positivos con una prevalencia de la enfermedad del 3,5% en poblaciones de 40 a 80 años6,7,8 . Esto sobrecargaría el sistema de salud, que actualmente funciona a su capacidad o por encima de ella. Actualmente, el diagnóstico se realiza de forma oportunista cada vez que un paciente es atendido por un profesional de la salud ocular. Este escenario no puede mejorar las tasas actuales de pacientes no diagnosticados y, al mismo tiempo, identificar a aquellos con mayor riesgo de ceguera. Las soluciones de detección en forma de mediciones de la presión intraocular (PIO) pasan por alto los casos de glaucoma con tensión normal, que pueden representar una alta proporción de GPAA7,9,10. Mientras tanto, las pruebas del campo visual son largas y producen resultados muy variables11. La derivación para glaucoma basada en el análisis de inteligencia artificial (IA) de imágenes digitales del fondo de ojo se ha propuesto como una solución potencial, dada la amplia disponibilidad de la modalidad, el bajo costo asociado y las características no invasivas12. Además, las redes neuronales convolucionales (CNN) pueden extraer información glaucomatosa de imágenes del fondo de ojo que exceden las capacidades de la mayoría de los expertos humanos, como la estimación cuantitativa del espesor de la capa de fibras nerviosas de la retina (RNFL)13 o la detección de glaucoma cuando se retira el disco óptico del imagen14.

Se ha informado que la detección de glaucoma basada en IA tiene un alto rendimiento en la validación interna, pero el rendimiento se degrada en condiciones de pruebas externas y, más específicamente, en entornos del mundo real15,16,17. Los modelos de IA efectivos entrenados en imágenes de fondo de ojo etiquetadas de un solo centro médico deben ser resistentes a los cambios de distribución cuando se implementan en nuevos entornos que cuentan con datos fuera de distribución (OoD)18. Este requisito trasciende el supuesto clásico del aprendizaje automático de que los datos de entrenamiento y de prueba provienen de la misma distribución19. Este cambio de datos puede surgir cuando el modelo se entrenó con imágenes capturadas con una cámara de fondo de ojo particular y se probó con imágenes de un segundo dispositivo. Esta heterogeneidad entre centros en las imágenes del fondo de ojo puede deberse a diferentes campos de visión (FOV), distribución del color, iluminación y área de interés (centrada en el disco o centrada en la mácula). Las diferencias en la población, como el origen étnico, la prevalencia de la miopía y la prevalencia del glaucoma, son otras causas comunes de cambios de datos que conducen a un rendimiento degradado. Además, existe una amplia variedad de definiciones de glaucoma, lo que exacerba los desafíos relacionados con los datos de OoD. Se han descrito soluciones para contrarrestar los cambios de datos, como la adaptación de dominios, en el contexto del análisis de imágenes de la retina, lo que lleva a una mejor generalización20,21. Sin embargo, estos enfoques a menudo dependen de la disponibilidad de imágenes etiquetadas del conjunto de objetivos durante el desarrollo del modelo. Por lo general, esto no se encuentra en aplicaciones del mundo real, ya que estos modelos deberían funcionar con datos prospectivos de nuevas fuentes.

Este trabajo amplía la validación de redes neuronales convolucionales (CNN) para la detección de glaucoma a partir de imágenes de fondo de ojo (Fig. 1). En lugar de una CNN que realiza una clasificación binaria (glaucoma o no), optamos por una CNN de regresión que genera una puntuación de riesgo continua. Esta puntuación de riesgo para el entrenamiento CNN fue la relación copa-disco vertical (VCDR) estimada por expertos, que aumenta junto con la gravedad del glaucoma. La estimación de otros biomarcadores continuos relacionados con el glaucoma utilizando CNN de regresión se ha descrito en trabajos relacionados, como el espesor promedio de la RNFL13 y el ancho mínimo del borde de apertura de la membrana de Bruch (BMO-MRW)22. Sin embargo, el análisis de establecer un umbral para esas variables estimadas por CNN frente a la verdad sobre el terreno del glaucoma es limitado.

Ambos modelos se describieron en nuestro trabajo anterior sobre IA explicable para la detección de glaucoma. La falta de coincidencia entre la prevalencia en un centro de referencia terciario (utilizado para el desarrollo del modelo) y los escasos datos del mundo real (pruebas externas) conduce a una predicción excesiva en este último. El histograma de predicción ilustra este fenómeno en el enfoque de clasificación binaria (a), con un número significativamente mayor de casos glaucomatosos que con G-RISK (b). Observe también el aumento en los casos con una predicción cercana a 1, frente a una disminución constante en los casos a medida que aumenta el valor de predicción para G-RISK. TV se refiere al valor umbral óptimo. TV normalmente se fija en 0,5 en los modelos de clasificación binaria debido a una función de activación sigmoidea/softmax aguda. En un enfoque de regresión con activación lineal, TV se puede establecer en un valor diferente, dependiendo de los costos asociados con FP y FN. c Ejemplos de imágenes de fondo de ojo con una puntuación G-RISK creciente.

La generalización y solidez de nuestro modelo de regresión de riesgo de glaucoma (G-RISK)14 descrito previamente se evaluaron en imágenes de fondo de ojo de dos grandes cohortes de población, el Blue Mountains Eye Study (BMES)2 y el Gutenberg Health Study (GHS)23, así como así como en once conjuntos de datos externos disponibles públicamente. El rendimiento del modelo se evaluó utilizando la verdad básica del glaucoma definida por los propietarios del conjunto de datos, que variaba ampliamente, proporcionando una evaluación integral de la capacidad del modelo para adaptarse a diferentes poblaciones, condiciones de imágenes y definiciones de verdad básica.

G-RISK se validó en trece conjuntos de datos independientes de seis países, incluidas tres grandes cohortes de detección. Del conjunto inicial de 151 145 imágenes en color del fondo de ojo, se incluyó un total de 149 455 imágenes de prueba después del control de calidad (tasa de eliminación del 1,12 %, consulte “Métodos”: control de calidad de la imagen). En la Fig. 2 se muestran ejemplos de preprocesamiento de imágenes, un par de antes y después por fuente de datos. La prevalencia del glaucoma osciló entre el 1,08% en GHS y ​​el 56,17% en los datos de ACRIMA.

Cada par muestra una imagen original sin procesar seleccionada al azar que presenta el daño inducido por el glaucoma (izquierda) y el resultado correspondiente centrado en el disco de 30° después de la manipulación de la imagen (derecha), preparado para la entrada de G-RISK.

En los dos estudios poblacionales (BMES y GHS), el G-RISK entrenado obtuvo puntuaciones AUC de 0,976 [IC 95 %: 0,967–0,986] y 0,984 [IC 95 %: 0,978–0,986] a nivel de participante, respectivamente. La sensibilidad y especificidad armonizadas fueron de ~92,2 % para BMES y ~94,2 % para GHS con un umbral de 0,70 en ambos conjuntos. Para BMES, el valor de AUC fue igual a 0,967 [IC del 95 %: 0,956–0,979] a la altura de los ojos. Al mantener una especificidad del 95 % a nivel de participante, los niveles de sensibilidad alcanzaron el 87,3 % y el 90,3 % en BMES y GHS, respectivamente.

El rendimiento del modelo CNN se mantuvo alto en los conjuntos de datos disponibles públicamente, aunque se caracterizó por una considerable heterogeneidad en la captura de imágenes y los procedimientos de verificación del glaucoma. El valor de AUC más bajo de 0,854 [IC del 95 %: 0,821–0,886] se registró en los datos completos de ORIGA (650 imágenes), con una especificidad y sensibilidad equilibradas del 78 %. En el otro lado del espectro, la evaluación con GAMMA arrojó un AUC de 0,987 [IC del 95 %: 0,971–1]. La CNN mantuvo el rendimiento (AUC de 0,917 [IC del 95 %: 0,900–0,933]) en el desafiante conjunto de datos ODIR, que presenta enfermedades oculares adicionales, incluida la retinopatía diabética y la degeneración macular relacionada con la edad. La prevalencia del glaucoma en este grupo también se acerca a las distribuciones del mundo real (4,70%). Los resultados detallados para todas las fuentes y subconjuntos de datos se encuentran en la Tabla 1.

Los valores de umbral óptimos (TV) para los conjuntos de datos disponibles públicamente oscilaron entre 0,58 (REFUGE1) y 0,75 (ODIR) a nivel de imagen. La TV fue más elevada en los conjuntos que contenían otras patologías (0,75 en el conjunto de enfermedades múltiples de ODIR y 0,74 en la población con diabetes de AIROGS), o cuando los sospechosos de glaucoma se consideraban no glaucomatosos (0,66 a 0,71 en RIM-ONE r3, 0,64 a 0,70 en PAPILA). TV también aumentó en la detección de glaucoma avanzado en comparación con el glaucoma temprano (0,67 frente a 0,64 en los subconjuntos GAMMA). Finalmente, la televisión aumentó del nivel de imagen (0,65) al nivel de participante (0,70) en los datos de BMES debido a que se tomó la predicción máxima de ambos ojos por individuo. La TV por conjunto de datos se puede recuperar de la última columna de la Tabla 1.

El uso de un valor de umbral fijo de 0,7 en todos los conjuntos de datos no afecta la puntuación AUC, pero altera los valores de sensibilidad y especificidad. La Tabla 2 muestra que los valores de especificidad oscilan entre 0,70 en PAPILA y 0,99 en los datos de REFUGE1. Los valores de sensibilidad oscilan entre 0,68 (ORIGA) y 0,94 (GHS, PAPILA, AIROGS).

La Figura 3 muestra 12 gráficos múltiples con curva ROC, curva de calibración e histograma de predicción de G-RISK por conjunto de datos. Las predicciones cayeron entre 0,2 y 1,0, con una moda normalmente de alrededor de 0,45 en conjuntos con más de 5.000 casos. Las curvas de calibración parecen seguir una forma sigmoidea, con una fracción constante de positivos hasta un valor medio previsto de 0,6 en los grandes conjuntos de datos. La evaluación en ACRIMA proporcionó las predicciones mejor calibradas, con su curva de calibración acercándose a la diagonal de puntos óptima.

El área superior del gráfico presenta (1) la curva ROC (verde claro) con una tasa de falsos positivos y una tasa de verdaderos positivos en los ejes x e y, (2) así como la curva de calibración (verde oscuro) con el valor medio predicho y la fracción. de positivos en los ejes x e y. Una línea negra punteada diagonal entre (0,0) y (1,1) indica la curva ROC de predicción aleatoria y calibración óptima. El histograma invertido verticalmente de las predicciones de G-RISK está alineado con la curva de calibración en el gráfico inferior, con el valor de predicción en el eje x y el recuento de predicción en el eje y. Mejor visto en color.

Para comprender mejor las diferencias entre la salida de G-RISK y la verdad fundamental del VCDR medida a partir de la imagen del fondo de ojo, se calcularon ambos valores de AUC para conjuntos que contenían un VCDR confiable. G-RISK superó a VCDR en los cinco (sub)conjuntos de datos, con una disparidad de AUC de 0,09 y 0,12 en los datos de REFUGE2 y RIM-ONE r3, respectivamente. El AUC obtenido con G-RISK no difirió significativamente con un alfa de 0,05 (intervalos de confianza superpuestos) en BMES y los datos completos de REFUGE1. Esta comparación se da en la Tabla 3.

La Tabla 4 proporciona una descripción general de los informes publicados sobre la detección de glaucoma con pruebas externas. En principio, se excluyeron de esta comparación los métodos que utilizaron parte del conjunto de datos para el entrenamiento, ya que esto presenta una ventaja injusta. Los resultados de los desafíos REFUGE son una excepción a esto. Estos conjuntos de datos representan un punto de referencia destacado en el tema de la detección de glaucoma a partir de imágenes del fondo de ojo. Por lo tanto, se hace una distinción entre (1) validación externa pura y (2) entrenamiento en otras partes del mismo conjunto de datos. G-RISK obtuvo los mejores resultados en datos ACRIMA (AUC = 0,88) y LAG (AUC = 0,93) como conjuntos de pruebas externas reportadas en la literatura. Para REFUGE1 y REFUGE2, limitamos la descripción general a los cinco primeros resultados. G-RISK habría obtenido el segundo lugar en el desafío REFUGE1 de 2018, con una diferencia insignificante en AUC con el mejor resultado presentado: solo 0,003. El método ganador se basó en tres modelos, mientras que G-RISK sólo consta de un modelo. La segunda edición de REFUGE (2020) habría resultado en el tercer lugar para G-RISK, con un AUC 0,016 inferior al de la presentación ganadora (no significativo).

El conjunto de datos PAPILA permitió evaluar la asociación entre las predicciones de G-RISK y los metadatos clínicos relevantes para el glaucoma. Como se muestra en la Tabla 5, solo se encontró que la edad y la desviación media (MD) del examen de campo visual 30-2 tenían una asociación significativa. Los resultados mostraron que a medida que aumentaba la edad o la DM se hacía más grave, las predicciones de G-RISK aumentaban (coeficiente de correlación de Pearson = 0,48 o −0,56, respectivamente). Sin embargo, no se encontró una asociación significativa entre las predicciones de G-RISK y otros metadatos como la presión intraocular, el grosor central de la córnea, el sexo y las características de las lentes ópticas.

Se evaluó un modelo de clasificación binaria previamente entrenado con una arquitectura de red similar a G-RISK en dos conjuntos de prueba seleccionados, REFUGE1 y BMES. Los resultados mostraron que el modelo de clasificación binaria obtuvo un AUC de 0,87 [IC 95%: 0,83–0,91] en REFUGE1, que fue significativamente menor que el AUC obtenido utilizando el modelo de regresión G-RISK (0,95 [IC 95%: 0,93–0,98 ]). De manera similar, en los datos de BMES, el modelo de clasificación binaria arrojó un AUC de 0,76 [IC del 95 %: 0,72–0,80], mientras que el modelo G-RISK logró un AUC de 0,97 [IC del 95 %: 0,96–0,98]. Estos resultados confirman que el modelo G-RISK funcionó mejor que el modelo de clasificación binaria.

La importancia del procedimiento de centrado del disco de 30° desarrollado en este manuscrito se investigó con datos de REFUGE1 y AIROGS. G-RISK tuvo un peor desempeño, pero todavía se considera bueno, en las imágenes originales centradas en la mácula de 45° en ambos conjuntos de datos: el AUC cayó de 0,952 a 0,937 en REFUGE1, y de 0,972 a 0,921 en un subconjunto del conjunto AIROGS. Este resultado indica que G-RISK es robusto y puede manejar imágenes centradas en la mácula con un FOV más grande, aunque nunca encontró esta modalidad durante el entrenamiento. Un zoom extremo en ONH (factor de cultivo de 0,4) provocó caídas drásticas en el rendimiento, cayendo a 0,840 y 0,764 en REFUGE1 y AIROGS, respectivamente. La diferencia absoluta en el valor de AUC después de la normalización de todas las imágenes para tener una relación de disco de 0,23 o la normalización por relación de disco calculada por dimensión de la imagen no fue significativa (diferencias de 0,003 y 0,004). Por lo tanto, es posible que la heterogeneidad natural en el tamaño del disco óptico no afecte el rendimiento de G-RISK. El análisis completo se encuentra en la Tabla 6.

Todos los FP y FN, o una selección aleatoria si existen más de 20 casos, de los dos conjuntos de estudios poblacionales fueron revisados ​​por tres expertos en glaucoma de tres países diferentes. El número de FN fue inferior a 20 cuando se estableció un umbral de 0,70 para ambos conjuntos. Como resultado, el número total de casos revisados ​​fue igual a 33 y 27 para los datos de BMES y GHS, respectivamente. La concordancia entre el estándar de referencia disponible en ambos conjuntos de datos y el voto mayoritario del panel independiente de expertos en glaucoma basado en la lectura de imágenes del fondo de ojo fue justa sólo por un ligero margen (κ = 0,217 y 0,229). El acuerdo entre evaluadores osciló entre 0,104 y 0,335, lo que indica que hubo poco consenso sobre estos casos mal clasificados. El consenso fue mayor en la puntuación de la calidad de la imagen, y la mitad de las comparaciones lograron un acuerdo sustancial (κ entre 0,61 y 0,80). El panel de revisión de expertos en glaucoma pareció favorecer la inclusión de imágenes preprocesadas en su análisis. Un experto incluso indicó que las imágenes preprocesadas eran mejores para el diagnóstico de glaucoma en todos los casos. Este análisis cuantitativo se comunica en la Tabla 7. La Figura 4 es una imagen compuesta que presenta los tres casos más extremos de FP y FN por conjunto de datos evaluados. La figura complementaria 3 muestra la misma información compuesta con mapas de prominencia superpuestos para el análisis de interpretabilidad. Las características recurrentes en casos extremos de FP fueron ventosas extensas (no) fisiológicas de ONH, lámina cribosa visible, bayoneta de vasos, vasos al descubierto, atrofia peripapilar y falta de haces de RNFL visibles. Para los casos de FN, el patrón más recurrente son defectos RNFL localizados notables en el sector inferotemporal y/o superotemporal, sin igualar el daño glaucomatoso de ONH en forma de ventosas/muescas. Un caso presentó una hemorragia discal en el sector inferior. El número de casos de FN fue muy limitado en todos los conjuntos de datos evaluados.

Los datos del GHS se omitieron porque no existe ninguna verdad sobre el terreno a nivel de imagen. La puntuación de riesgo prevista se encuentra en la parte inferior derecha de cada imagen. Se ve mejor en color y en alta resolución para una revisión óptima por parte del lector. Consulte la Fig. 3 complementaria para obtener una vista con un mapa de prominencia superpuesto.

Este estudio confirma el excelente rendimiento de una CNN entrenada para la detección de glaucoma14 cuando se aplica a trece conjuntos de datos externos. Hasta donde sabemos, esto representa el mayor esfuerzo hasta la fecha hacia el análisis de generalización mediante la validación con datos de dos grandes cohortes de población y once conjuntos de datos disponibles públicamente. Además, los resultados de este último permiten a otros investigadores comparar su enfoque, un aspecto importante que actualmente falta en la investigación que aborda la detección del glaucoma a partir de imágenes del fondo de ojo. Dada la amplia variedad de tipos de imágenes y estándares de referencia para el glaucoma, demostramos la solidez de G-RISK para la predicción del riesgo de glaucoma a partir de imágenes en color del fondo de ojo.

La evaluación de los datos de BMES y GHS dio como resultado un AUC de 0,976 y 0,984, respectivamente. Con una especificidad del 95%, se obtienen sensibilidades del 87,3% y del 90,3%. Este resultado satisface los criterios mínimos de 85% de sensibilidad y 95% de especificidad establecidos por Prevent Blindness America24. Para BMES, esto representa una mejora significativa con respecto a los resultados de detección obtenidos utilizando el tomógrafo de retina de Heidelberg (TRH), con una especificidad y sensibilidad del 85,7% y del 64,1% a nivel de participante25. Es de destacar que esta comparación no es exacta porque el último análisis se realizó con los datos de seguimiento de diez años de BMES, con menos participantes que la población incluida en el presente estudio. En los datos de AIROGS, que contienen una población de diabetes con una prevalencia realista de glaucoma, G-RISK obtuvo una sensibilidad del 80 % con una especificidad del 95 %, alcanzando los requisitos mínimos para los calificadores humanos establecidos por los propietarios de los datos. G-RISK podría haberse utilizado como un clasificador fiable durante el esfuerzo de etiquetado de más de 100.000 imágenes de fondo de ojo. Sólo unos pocos estudios describieron la validación externa de imágenes del fondo de ojo obtenidas de un conjunto de datos poblacionales26,27. La detección de glaucoma CNN de Liu y colegas26 obtuvo un AUC de 0,964 en imágenes de 6702 participantes en el Handan Eye Study, de los cuales el 2% tenía signos de glaucoma según los criterios ISGEO. La sensibilidad y especificidad informadas fueron del 91,0% y del 92,5%. Su CNN estuvo expuesta a imágenes capturadas por tres tipos diferentes de cámaras durante el entrenamiento, lo que facilitó la extracción de características invariantes de dominio importantes para la detección precisa del glaucoma. El modelo evaluado en el estudio actual no aprovechó datos de múltiples fuentes en el momento del entrenamiento, pero aún así tiene una excelente generalización.

G-RISK logró resultados de última generación en conjuntos de datos disponibles públicamente. Fan et al28. informaron un AUC de 0,79 [IC del 95%: 0,78–0,81] en datos de LAG utilizando una clasificación binaria CNN entrenada con imágenes del Estudio de tratamiento de hipertensión ocular29, que es considerablemente menor que el valor de 0,93 en el presente estudio. Christopher et al.30 informaron un AUC de 0,86 [IC 95%: 0,83-0,89] en los datos de ACRIMA, que es dos puntos porcentuales menor que el resultado de G-RISK. La regresión del riesgo de glaucoma CNN habría obtenido un segundo y tercer lugar en las dos ediciones del desafío internacional REFUGE17. Esto representa un gran logro, ya que G-RISK no entrenó con parte de esos datos, a diferencia de los participantes del desafío. El entrenamiento en parte de un conjunto de datos tiene la ventaja de que el modelo puede familiarizarse con las imágenes específicas de los datos y las características reales del terreno. Esta ventaja no existe en los datos de detección prospectivos.

La excelente generalización obtenida se debe principalmente a la naturaleza de regresión del modelo. Podría aprender más sobre el espectro continuo de gravedad de la enfermedad durante el entrenamiento que con un enfoque de clasificación binaria estándar. La investigación empírica señaló que el modelado profundo con etiquetas suaves supera a las CNN de clasificación convencionales en velocidad de generalización y convergencia31. Los enfoques de regresión han encontrado recientemente su camino en el campo de la segmentación semántica, una tarea que convencionalmente se logra utilizando clasificación basada en píxeles con etiquetas duras. En la segmentación semántica, las áreas más inciertas generalmente se encuentran en los bordes de la delineación del tejido, donde los expertos en múltiples dominios pueden tener diferentes interpretaciones. El enfoque SoftSeg32, introducido en 2020, abordó este problema abogando por el uso de etiquetas suaves (valores entre 0 y 1) en estos bordes para incorporar la incertidumbre de la etiqueta. Se ha demostrado que este enfoque mejora significativamente el estado del arte en tres conjuntos de datos de imágenes médicas mediante el uso de pérdida de regresión y activación lineal. En el presente estudio, G-RISK pudo seleccionar las características invariantes de dominio más relevantes para la detección de glaucoma debido a una rica etiqueta de verdad fundamental, así como a un marco de modelado que optimiza el aprendizaje de la información presente en la etiqueta. El rendimiento de G-RISK también se comparó directamente con un modelo binario de detección de glaucoma previamente entrenado, que presenta exactamente la misma arquitectura de red, excepto por la función de pérdida y activación final. Las caídas extremas de rendimiento en los datos de REFUGE1 y BMES de 0,08 y 0,21 en valores AUC proporcionan evidencia adicional de la mejora de la generalización cuando se entrena una CNN usando etiquetas suaves.

El aprendizaje de características invariantes de dominio en la cabeza del nervio óptico se destaca por el rendimiento en imágenes que presentaban un recorte severo de ONH en su formato original. Después de escalar a un tamaño de disco que se acerca al encontrado en imágenes de 30° FOV, G-RISK obtuvo un rendimiento excelente para la derivación de glaucoma. Otra prueba de la solidez del modelo debido a la regresión es el alto rendimiento con datos originales que presenta un campo de visión de 45°. El AUC de los datos originales de REFUGE1 de 45° no fue significativamente menor que el AUC obtenido en imágenes de 30° preprocesadas centradas en el disco. En los datos de AIROGS, la diferencia fue significativa, probablemente debido a la mayor heterogeneidad en los tipos de imágenes presentes en el conjunto de datos. Ahí es donde el proceso de procesamiento de imágenes propuesto puede mejorar aún más el rendimiento. Al minimizar el cambio entre imágenes de entrenamiento e imágenes de prueba externas, se reduce el riesgo de predicciones erróneas debido a valores atípicos o datos OoD.

Los enfoques de regresión en el contexto de las imágenes del glaucoma se han descrito previamente13,22,27. Medeiros et al.13 introdujeron Machine-to-Machine (M2M), un tipo de CNN de regresión que estima el espesor promedio de la CFNR circumpapilar medido por OCT a partir de imágenes del fondo de ojo centradas en el disco como indicador de la pérdida neuronal. El coeficiente de correlación de Pearson entre la verdad fundamental medida por OCT y la predicción fue de 0,83. En estudios de seguimiento, su grupo de investigación reveló que M2M podría discriminar el glaucoma en un programa de detección poblacional en Brasil. Puede superar a los expertos humanos en la detección de ojos con pérdida repetible del campo visual33,34. Sería interesante ver el desempeño de M2M en algunos datos disponibles públicamente, para tener una idea de cómo se compara con trabajos relacionados. Aunque el espesor promedio de la CFNR puede ser un parámetro objetivo para cuantificar el daño neuronal, también tiene sus imperfecciones. En primer lugar, una segmentación incorrecta de la RNFL o variantes anatómicas pueden llevar a que los exámenes se etiqueten como potencialmente anormales y a un diagnóstico erróneo de glaucoma. Este "fenómeno de la enfermedad roja" es bien conocido entre los usuarios de OCT y, por lo tanto, un experto en glaucoma debe revisar cuidadosamente los resultados de la OCT, lo que introduce la subjetividad humana. Además, el adelgazamiento de la CFNR no es un signo patognomónico de glaucoma únicamente35. Los defectos de la CFNR se han asociado con otras enfermedades oculares36,37 y sistémicas38. Aunque estos casos deben derivarse a un oftalmólogo de todos modos, puede no estar claro si los defectos de RNFL sin un daño de ONH coincidente indican la presencia de glaucoma o una afección diferente.

Investigaciones recientes también han investigado enfoques de aprendizaje profundo para la segmentación conjunta de la copa óptica y el disco a partir de imágenes del fondo de ojo. Esto incluye la implementación de varias modificaciones a la arquitectura U-Net39, que han arrojado resultados competitivos en ambas tareas. Al segmentar la copa y el disco ópticos, se pueden derivar y calcular los valores de VCDR. Sin embargo, relativamente pocos enfoques de segmentación publicados han evaluado específicamente la generalización de la detección del glaucoma. El equipo participante de REFUGE1, CUHKMED, obtuvo el tercer lugar al establecer el umbral del VCDR basado en segmentación frente a la verdad básica del glaucoma, como se indica en la Tabla 4. Además, Fu et al.40 probaron una predicción del VCDR a partir de una imagen del fondo de ojo transformada polarmente externamente en 1676 fotografías del fondo de ojo de el Estudio del Ojo Chino de Singapur (SCES), que reporta un AUC competitivo de 0,90. Sin embargo, dado que los datos de SCES no están disponibles públicamente, no fue posible realizar una evaluación comparativa en el estudio actual. Por el contrario, G-RISK adopta un enfoque diferente al estimar directamente el VCDR a partir de la imagen del fondo de ojo sin necesidad de segmentación, evitando la necesidad de segmentación conjunta de la copa óptica y el disco. De manera similar, Alipahani et al.27 desarrollaron recientemente una CNN de regresión que estima directamente la VCDR a partir de imágenes del fondo de ojo en el fenotipado de la morfología de la ONH basado en IA. El coeficiente de correlación de Pearson entre la verdad fundamental de VCDR y la predicción fue de 0,89 en un pequeño subconjunto de imágenes de fondo de ojo del Biobank del Reino Unido. Su enfoque obtuvo un AUC de 0,76 [IC 95 %: 0,74–0,78] al establecer un umbral de predicción del VCDR frente a una etiqueta de glaucoma basada en los informes del paciente y los códigos de la Clasificación Internacional de Enfermedades (CIE). Si bien no informamos sobre los datos del Biobanco del Reino Unido, vale la pena explorar cualquier diferencia de desempeño entre G-RISK y el modelo desarrollado por Alipahani et al. Los valores moderados de AUC para la detección de glaucoma podrían deberse a una realidad débil, ya que es probable que la autonotificación esté asociada con el límite inferior del 50 % de los casos no detectados presentes en la población general. La diferencia en la metodología reside en la verdad sobre el terreno durante el desarrollo del modelo, ya que G-RISK se basó en la estimación VCDR durante la oftalmoscopia, mientras que Alipahani et al. midió la verdad fundamental a partir de las imágenes directamente. Su investigación también identificó la fuerte asociación entre VCDR y el riesgo de glaucoma, reportando una correlación de 0,91. G-RISK comprende más que una estimación de VCDR, respaldado por un análisis de cinco conjuntos que demuestra objetivamente que las predicciones de G-RISK superan a VCDR medido por imágenes como indicador del riesgo de glaucoma. Además, el análisis de los datos clínicos de PAPILA sugiere que G-RISK se correlaciona bien con el glaucoma. Tanto G-RISK como el glaucoma exhiben una asociación significativa con la edad y los defectos del campo visual, mientras que sólo existen correlaciones débiles con factores como el sexo y el espesor central de la córnea fuera de las mediciones de la presión intraocular. Se sabe que las características de las lentes ópticas no tienen asociación con el glaucoma.

Los potentes algoritmos de detección de enfermedades deberían tener predicciones calibradas41, una característica en la que la predicción es representativa de la probabilidad de la enfermedad. Se sabe que las CNN de clasificación convencional con activación sigmoidea están mal calibradas42. El valor de predicción de G-RISK se puede interpretar como una puntuación de riesgo entre 0,2 y 1. Hasta valores cercanos a 0,7, G-RISK sobrepredice (curva de calibración por debajo de la línea de calibración óptima). Los conjuntos de datos con una prevalencia inferior al 10% siguen la misma curva de calibración. Una operación de calibración uniforme podría conducir a predicciones transformadas entre 0 y 1 que pueden interpretarse como riesgo de glaucoma calibrado en todos los datos de la población. Este ejercicio estuvo fuera del alcance del estudio actual pero se cubrirá en el futuro.

La explicabilidad del modelo G-RISK se evaluó mediante dos configuraciones. En primer lugar, un examen exhaustivo de los casos más extremos de falsos positivos (FP) y falsos negativos (FN) realizado por expertos en glaucoma reveló casos con grandes copas (no) fisiológicas de la cabeza del nervio óptico, atrofia peripapilar y falta de haces de CFNR para el grupo FP. Por otro lado, los casos de FN presentaban defectos repetidos de RNFL sin el correspondiente daño de ONH. Además del análisis manual de expertos, la figura complementaria 3 presenta las mismas imágenes de FP y FN, superpuestas por mapas destacados generados mediante análisis de gradiente. La inspección individual no reveló una región destacada recurrente. Para obtener más información sobre la detección de glaucoma basada en CNN a partir de imágenes del fondo de ojo y el análisis de explicabilidad objetiva, se remite al lector a nuestro trabajo anterior14. En este último, la Fig. 3, segunda fila, primera imagen de la izquierda, ilustra los patrones de prominencia recurrentes obtenidos promediando un conjunto de prueba de más de 4000 imágenes de fondo de ojo. La prominencia de G-RISK se concentra en las áreas infero y superotemporales dentro y fuera de la ONH.

Este estudio avanza en el área de investigación de las CNN de detección de glaucoma generalizable a través de pruebas externas en cohortes de población y datos heterogéneos disponibles públicamente. Todavía quedan importantes lagunas de conocimiento. El uso de un valor de umbral fijo no dio como resultado valores de especificidad consistentes en los 13 conjuntos de datos (que oscilan entre 0,70 y 0,99). Por lo tanto, es necesaria una mayor calibración del modelo para lograr niveles uniformes de sensibilidad y especificidad. Vale la pena señalar que la heterogeneidad de la definición fundamental del glaucoma también juega un papel importante en este comportamiento. A continuación, las dos cohortes de población presentan personas con ascendencia predominantemente europea (Alemania y Australia). Por lo tanto, se desconoce la generalización sobre la detección de poblaciones de otros orígenes étnicos. Aún así, el desempeño se mantuvo alto según los datos disponibles públicamente recopilados en países como China y Singapur, pero presentan niveles de prevalencia más altos que en la población general. Además, no se evaluó el rendimiento en función de la gravedad del glaucoma, ya que estas etiquetas no estaban disponibles en los conjuntos de datos. Una excepción es GAMMA, en el que G-RISK obtuvo un excelente AUC de 0,99 en la clase temprana de glaucoma. Finalmente, G-RISK falla en casos raros con defectos sutiles de RNFL o hemorragias discales sin un daño equivalente a ONH. Las actualizaciones futuras tienen como objetivo implementar cambios que reduzcan aún más la tasa de falsos negativos.

Las fortalezas de este estudio son significativas. En primer lugar, abordamos la cuestión de la generalización en los modelos de detección de glaucoma basados ​​en el fondo de ojo mediante una validación exhaustiva en trece conjuntos externos, con un total de 149.455 imágenes. Afrontamos un desafío importante porque los conjuntos de datos tienen una heterogeneidad considerable en la verdad sobre el terreno del glaucoma, el tipo de cámara y el tipo de población. A continuación, analizamos la influencia de factores como la variabilidad natural del tamaño de la ONH y la escala de la imagen. Los resultados se compararon con la literatura, destacando el desempeño de vanguardia de G-RISK. Demostramos que G-RISK fue entrenado en estimaciones de VCDR de oftalmoscopia, pero funciona mejor que VCDR medido por imágenes en la tarea de derivación de glaucoma.

En este trabajo se ha demostrado una excelente generalización de la detección de glaucoma basada en IA a partir de imágenes del fondo de ojo, tanto en grandes conjuntos de detección como en varios conjuntos de datos disponibles públicamente. En la detección retrospectiva de glaucoma, G-RISK cumple con los requisitos mínimos establecidos por Prevent Blindness America. Se justifica una mayor validación de G-RISK mediante estudios prospectivos.

Este estudio cumple con las pautas STARD 2015 para el informe estandarizado de evaluación de una prueba de diagnóstico, así como con los principios de la Declaración de Helsinki. El material de formación para G-RISK se recopiló retrospectivamente de los hospitales universitarios de Lovaina y fue aprobado por el Comité de Ética de Investigación UZ/KU Leuven con el número de estudio S60649. Se renunció al consentimiento informado debido a la naturaleza retrospectiva del proyecto de investigación, y todas las imágenes del fondo de ojo fueron desidentificadas antes de su uso. Para el consentimiento informado de los datos utilizados para pruebas externas, nos referimos a los administradores de los respectivos conjuntos de datos.

La detección de glaucoma se logró utilizando un modelo CNN ResNet-5043 personalizado descrito en nuestro trabajo anterior14 que se centró en la explicabilidad de la CNN en dos aplicaciones de glaucoma. En ese estudio, se seleccionaron 23.930 imágenes estereoscópicas del fondo de ojo (12.265 ojos, 6.486 individuos) para entrenamiento, validación y pruebas internas. Las imágenes del fondo de ojo se capturaron en el departamento de glaucoma de los hospitales universitarios de Lovaina (UZL), Bélgica, entre 2010 y 2018. Por lo tanto, la mayoría de las imágenes presentan signos de glaucoma. Los criterios de inclusión para este conjunto fueron la disponibilidad de una fotografía de fondo de ojo de 30° correspondiente (fotografiada con un Zeiss VISUCAM® a 1620 × 1444). El glaucoma se basó en la evaluación realizada por un experto en glaucoma mediante perimetría, PIO, fundoscopia e imágenes de la retina. Esta evaluación clínica incluyó la estimación de VCDR durante la fundoscopia, que fue seleccionada como etiqueta de riesgo de referencia durante el desarrollo de G-RISK. Este valor continuo entre 0 y 1 se estableció como umbral frente a una verdad binaria del glaucoma para obtener resultados de detección de glaucoma. Los beneficios de utilizar una variable objetivo continua versus binaria están bien estudiados en la literatura bajo etiquetas suaves. En la detección de glaucoma, un enfoque con etiquetas suaves permite que el modelo aproveche la información más rica de las anotaciones de expertos durante el entrenamiento. La CNN puede captar las diferencias en la gravedad de la enfermedad, desde no tener ventosas hasta un nervio óptico completamente ahuecado. En la detección binaria, tanto los síntomas tempranos (p. ej., defecto de RNFL, muescas, vasos al descubierto) como las ventosas extremas se agrupan en la categoría de glaucoma, que no se adapta al aprendizaje de gravedades intermedias. Para cuantificar la generalización mejorada cuando se utiliza un enfoque de regresión, también validamos una CNN de clasificación binaria para la detección de glaucoma en dos conjuntos de pruebas. Esta CNN fue entrenada en una configuración similar, con los únicos cambios en la verdad básica del glaucoma (definida por un experto en glaucoma basándose en un examen multimodal), entropía cruzada como función de pérdida en lugar de error cuadrático medio y activación sigmoidea en lugar de una activación lineal en El fin de la arquitectura ResNet-50. Fue descrito en detalle en nuestro trabajo anterior14.

Evaluamos nuestro modelo utilizando imágenes de fondo de ojo de dos importantes estudios de población y once conjuntos de datos disponibles públicamente. Los conjuntos de datos de imágenes de fondo de ojo externo fueron elegibles para la evaluación dadas las siguientes condiciones: (1) disponibilidad de una etiqueta de glaucoma (sospechada) y (2) la mayoría (>50%) de las imágenes que contienen la cabeza del nervio óptico (ONH). Tanto el protocolo de imágenes como la definición de glaucoma variaron considerablemente entre los conjuntos de prueba.

El Blue Mountains Eye Study (BMES) es un gran estudio poblacional sobre enfermedades oculares realizado hace tres décadas en una zona urbana de Australia2. 3.654 personas de 49 años o más participaron en el examen de la vista entre 1992 y 1994. Las imágenes del fondo de ojo se capturaron utilizando una cámara de película analógica Zeiss FF3 con posterior digitalización de las imágenes. El glaucoma de ángulo abierto (GAO) se diagnosticó en caso de (1) pérdida del campo visual en el examen Humphrey Field Analyzer 30-2, (2) adelgazamiento del borde neurorretiniano coincidente, (3) VCDR superior o igual a 0,7, (4) ventosas asimétricas entre ojos (>0,3), (5) y cuando los resultados gonioscópicos indicaron que no había cierre del ángulo.

El Estudio de Salud de Gutenberg (GHS) es un gran estudio poblacional realizado en el medio oeste de Alemania, con una línea de base que abarca 15.010 participantes de entre 35 y 74 años23. Se recogieron imágenes centradas en el disco óptico de 30° utilizando una cámara de fondo de ojo Zeiss VISUCAM. El diagnóstico de glaucoma se estableció mediante una modificación de las directrices de la Sociedad Internacional de Oftalmología Geográfica y Epidemiológica (ISGEO), incluido el ajuste del tamaño del disco44. La calificación final consideró VCDR, ventosas asimétricas entre los ojos y estrechamiento del borde (<10% del diámetro del disco correspondiente). La clasificación ISGEO estaba disponible para al menos un ojo de 12.089 personas examinadas al inicio del estudio.

El conjunto de datos Rotterdam EyePACS AIROGS consta de 113893 imágenes de fondo de ojo de 60357 personas que visitaron numerosos centros de la red EyePACS en los Estados Unidos45,46,47. El conjunto de entrenamiento de 101442 imágenes estuvo disponible a finales de 2021 en el contexto de un desafío internacional sobre la detección de glaucoma a partir de imágenes de fondo de ojo. Los discos ópticos en las imágenes del fondo de ojo fueron evaluados por un equipo de 22 expertos en glaucoma (al menos dos evaluadores por imagen), que tenían al menos una sensibilidad del 80 % y una especificidad del 95 %. El glaucoma referible se definió utilizando diez características estructurales o biomarcadores, y cuando el anotador esperaba el daño correspondiente en el campo visual.

La base de datos en línea de imágenes del fondo de retina para el análisis y la investigación del glaucoma (ORIGA) contiene 650 imágenes seleccionadas al azar del Singapore Malay Eye Study (SiMES), un estudio poblacional realizado entre 2004 y 200748. El procedimiento de etiquetado del glaucoma no estaba definido. Las imágenes se capturaron en un ángulo más amplio de 30° utilizando un dispositivo de cámara no especificado.

El Retinal Fundus Glaucoma Challenge (REFUGE) se llevó a cabo en MICCAI 2018, para proporcionar un marco de evaluación unificado para la comparación objetiva de modelos de detección de glaucoma utilizando imágenes de fondo de ojo49. 400 imágenes fueron capturadas con una Zeiss VISUCAM, las 800 restantes con una Canon CR-2 de una clínica de glaucoma ubicada en China. Todas las imágenes están centradas en la mácula en un ángulo de visión de 45°. El estándar de referencia para el glaucoma se obtuvo después de una evaluación multimodal de los registros clínicos, incluida la PIO, la OCT, los campos visuales y los exámenes de seguimiento. 120 casos del conjunto de datos son glaucomatosos (GPAA o NTG), lo que representa el 10% de los datos.

La base de datos de detección de glaucoma (LAG) basada en la atención a gran escala consta de 4.854 imágenes de fondo de ojo procedentes de un hospital chino16. El estándar de referencia se estableció mediante PIO, exámenes de campo visual y evaluación manual de ONH por parte de especialistas calificados. El glaucoma fue diagnosticado en 1.711 imágenes, lo que representa el 35% del conjunto de datos. Todas las imágenes contienen ONH visible y se capturaron utilizando una combinación no especificada de cámaras de fondo de ojo en diferentes ángulos. Dado el procedimiento inconsistente de alteración de imágenes que utilizaron los creadores del conjunto de datos, es imposible utilizar la proporción del disco como indicador para un recorte correcto de 30°.

El desafío de Reconocimiento Inteligente de Enfermedades Oculares (ODIR) se organizó en 2019 para estimular la investigación sobre la clasificación de múltiples enfermedades a partir de imágenes del fondo de ojo50. El conjunto completo incluye 10.000 imágenes de 5.000 pacientes (una imagen por ojo), de las cuales 7.000 están actualmente disponibles para descargar. Se capturaron imágenes centradas en la mácula utilizando diferentes dispositivos de fabricantes como Canon, Zeiss y Kowa. Además de los casos de glaucoma (4,7%), existen etiquetas comentadas por expertos para la retinopatía diabética, las cataratas, la degeneración macular relacionada con la edad, la hipertensión y la miopía.

Tras los éxitos del primer desafío REFUGE en 201817, los organizadores organizaron una segunda edición como parte de MICCAI 202049. En una configuración similar, se agregaron 800 imágenes adicionales al conjunto de datos. Las nuevas imágenes del fondo de ojo se adquirieron utilizando cámaras de fondo de ojo fabricadas por Kowa (validación) y Topcon (prueba).

El desafío Glaucoma Grading from Multi-Modality Images (GAMMA) invitó a los participantes a desarrollar y validar modelos para la detección de glaucoma utilizando imágenes de fondo de ojo y exploraciones OCT51. Los datos de entrenamiento disponibles contienen 50 casos sin glaucoma, 25 casos con glaucoma temprano y 25 casos con glaucoma leve o avanzado. De manera similar a los datos de REFUGE, los especialistas asignaron el estándar de referencia para el glaucoma basándose en la fotografía del fondo de ojo, la PIO, la FV y la OCT.

Las bases de datos de Retinal IMage para la evaluación del nervio óptico (RIM-ONE), compartidas por primera vez en 2011, inicialmente tenían como objetivo evaluar algoritmos para la segmentación del disco óptico52. La tercera revisión de 2015 contiene 85 imágenes de ojos sanos y 74 imágenes de pacientes con glaucoma. Las imágenes se capturaron utilizando una cámara de fondo de ojo estéreo Kowa WX 3D en un único centro en España. El campo de visión abarca 20° horizontalmente y 27° verticalmente.

Lanzado en 2020, los creadores de los conjuntos de datos RIM-ONE actualizaron sus imágenes del fondo de ojo para evaluar algoritmos de aprendizaje profundo para la detección de glaucoma53. Todas las imágenes fueron reevaluadas por dos expertos y procedían de diferentes hospitales y fueron capturadas con diferentes cámaras. El conjunto total abarca 313 imágenes de fondo de ojo sin glaucoma y 172 imágenes de fondo de ojo con glaucoma confirmado (evaluación fotográfica realizada por un experto en glaucoma). Las imágenes se caracterizan por una operación de recorte estandarizada alrededor del disco óptico.

En total, en 201954 se pusieron a disposición 705 imágenes del proyecto ACRIMA, fundado por el gobierno de España para la evaluación automatizada de enfermedades de la retina. Las imágenes se capturaron con una cámara de fondo de ojo Topcon TRC con un campo de visión de 35°. Dos expertos etiquetaron las imágenes para detectar glaucoma y las recortaron alrededor del disco óptico utilizando un cuadro delimitador de 1,5 veces el radio del disco óptico. En particular, las imágenes de glaucoma se caracterizan por un tamaño de imagen mayor que las imágenes sin glaucoma.

PAPILA, recientemente puesto a disposición de la comunidad de investigación, es el primer conjunto de datos que proporciona imágenes en color del fondo de ojo y datos clínicos de ambos ojos del mismo participante del estudio. Poder utilizar la información conjunta de ambos ojos para la detección del glaucoma se acerca a escenarios de detección de la vida real. PAPILA consta de 488 imágenes de fondo de ojo pertenecientes a 244 individuos, capturadas con un dispositivo no midriático Topcon TRC-NW400 con un FOV de 30°. La etiqueta de verdad sobre el glaucoma se presenta en tres categorías: glaucomatoso, no glaucomatoso y sospechoso, según la evaluación de datos clínicos realizada por oftalmólogos capacitados. Todas las imágenes contienen el disco óptico, y se proporciona una segmentación experta del disco y la copa.

La calidad de la imagen se evaluó mediante la segmentación de la ONH utilizando una CNN generalizable desarrollada y validada14. En caso de disponibilidad de una máscara de segmentación ONH real en el terreno en el conjunto de datos, se omitió este paso (ORIGA, REFUGE1, GAMMA, RIM-ONEr3 y PAPILA). La imagen de segmentación del disco óptico generada por CNN se probó según dos criterios para un disco óptico realista. Primero, el tamaño del disco óptico vertical por objeto candidato en la imagen de segmentación se dividió por la altura de la imagen para obtener una relación del disco. Esta relación de disco debe estar entre 0,10 y 0,40 para imágenes con un FOV de al menos 30°. A continuación, se seleccionó el candidato a disco óptico en base al primer momento Hu central55, valor invariante a la transformación que equivale a 0,159 cuando la forma es un círculo perfecto. Se seleccionó el candidato con el momento Hu más cercano a 0,159 para descartar objetos segmentados oblongos no circulares. La imagen fue descartada del análisis si ningún candidato cumplía los criterios. No hubo intervención humana en este proceso automatizado. La figura complementaria 1 describe la tasa de eliminación por conjunto de datos.

Cada imagen con un disco óptico detectado por CNN o verificado por humanos se sometió a múltiples pasos de procesamiento para minimizar el cambio de covariable entre los datos de entrenamiento externos y originales. Primero, la imagen se sometió a una operación de recorte/extensión de 30° centrada en el disco óptico localizado después de la segmentación ONH. El FOV original por conjunto de datos podría determinarse en función del tamaño del disco óptico con respecto a la dimensión vertical de la imagen (relación de disco) o mediante la información presente en la descripción del conjunto de datos. En el conjunto de revelado, que contiene exclusivamente imágenes centradas en el disco de 30°, la relación del disco fue igual a 0,23 en promedio sobre 23930 imágenes.

Las proporciones de los discos se promediaron por tamaño de imagen por conjunto de datos. Para un conjunto de datos con imágenes de fondo de ojo con un campo de visión de 45°, la relación promedio del disco será de alrededor de 0,15, lo que implicaría un factor de recorte de 0,65. Es esencial utilizar un factor de recorte uniforme por conjunto de datos, ya que el factor de recorte por imagen eliminaría la heterogeneidad natural en el tamaño del disco óptico. Dos conjuntos de datos (ACRIMA, LAG) hicieron imposible preservar esta variación normal debido al procedimiento de recorte ya presente en los datos originales. Por ello, están marcados con un asterisco en la tabla de resultados. En conjuntos de datos que presentan múltiples tamaños de imagen (AIROGS, ODIR, REFUGE1, REFUGE2), las proporciones de disco se promediaron por tamaño de imagen y se establecieron en el promedio del conjunto de datos global si había menos de diez casos de tamaño de imagen específico. El factor de recorte se multiplicó por el tamaño de la imagen vertical para obtener una imagen centrada en el disco de 30°. Se aplicó relleno cero a la imagen recortada si el recorte centrado en el disco excedía los límites de la imagen original en una dirección específica, como se puede esperar en imágenes centradas en la mácula donde el ONH está situado en el borde de la imagen. Analizamos la importancia del recorte de imagen centrado en el disco de 30 ° propuesto mediante un análisis de sensibilidad de los datos de REFUGE1 y un subconjunto aleatorio del 10% de datos de AIROGS. Estos conjuntos presentan múltiples dimensiones de imagen, junto a una etiqueta de glaucoma bien definida.

Algunos conjuntos de datos presentan imágenes con valores de FOV más pequeños (RIM-ONE r3, LAG) o fueron recortadas alrededor del disco óptico (ACRIMA, RIM-ONE DL). Se aplicó extensión o relleno de imagen para garantizar la escala del disco óptico y la corrección de iluminación correctas en este caso. Esto se hizo copiando el valor del borde de la imagen original en las direcciones de alto y ancho hasta que la proporción promedio del disco sea igual a 0,23. Después de la corrección de la iluminación, el área de la imagen con el valor copiado (información de la imagen sintética) fue reemplazada por píxeles negros antes de la evaluación de G-RISK. Consulte la figura complementaria 2 para ver un ejemplo del procedimiento de extensión de imagen propuesto.

Las imágenes procesadas fueron sometidas a una operación de filtrado para contrarrestar la iluminación desigual debida a la curvatura de la retina56. Finalmente, las imágenes se redimensionaron a 512 × 512 y 3 canales de color RGB, y se dividieron por 255 para cumplir con los requisitos de entrada del modelo G-RISK entrenado. Todas las operaciones de imágenes por conjunto de datos se explican y visualizan en detalle en la Figura complementaria 2.

Todas las predicciones del G-RISK se evaluaron con respecto a la etiqueta de glaucoma de referencia mediante umbrales. El área bajo la curva característica operativa del receptor (ROC) (AUC) se seleccionó como la métrica de rendimiento principal, acompañada de una sensibilidad y especificidad equilibradas al minimizar la diferencia entre las dos. Se seleccionó una sensibilidad y especificidad armonizadas ya que los costos asociados con FP y FN pueden variar según el entorno de implementación. Para los tres conjuntos de datos que presentaban una prevalencia que se aproxima a los escenarios de la población general (BMES, GHS y ​​AIROGS), se informaron sensibilidades adicionales con niveles de especificidad del 90 %, 95 % y 97,5 %. Esta elección estuvo motivada por la importancia de la especificidad en el contexto del cribado del glaucoma. Existe un consenso general de que la especificidad debe ser lo más alta posible para evitar una gran afluencia de personas que en realidad no padecen la enfermedad. Además, las predicciones se establecieron como umbral en un valor fijo de 0,7 para evaluar el rendimiento de la detección de glaucoma de manera uniforme en todos los conjuntos de datos. Se seleccionó 0,7 porque es un umbral VCDR común para la detección de glaucoma. También se realizó una evaluación a nivel de participante para las dos cohortes de población (BMES y GHS) y el conjunto PAPILA disponible públicamente, ya que el daño glaucomatoso puede ser unilateral en un paciente con glaucoma. Para imitar la derivación de expertos lo más fielmente posible, se evaluó la puntuación de riesgo máxima prevista de los dos ojos (cuando estaba disponible) con respecto al estándar de referencia. Los intervalos de confianza del 95% para el AUC se calcularon utilizando el algoritmo rápido de DeLong57. Todos los análisis estadísticos se realizaron utilizando la biblioteca SciPy Python58. Una excepción a esto es REFUGE2, cuyo estándar de referencia actualmente no es accesible para los investigadores. El valor AUC para este conjunto se obtuvo del servidor de evaluación en línea alojado por los organizadores del desafío y mediante comunicación directa por correo electrónico. Para los conjuntos de datos que contenían una etiqueta de verdad fundamental de VCDR (REFUGE1, BMES, RIM-ONEr3, conjunto de pruebas REFUGE2 y PAPILA), comparamos el rendimiento de G-RISK con VCDR estableciendo un umbral de la variable VCDR con la verdad fundamental del glaucoma. Además, informamos sobre la asociación entre las predicciones de G-RISK y los metadatos clínicos, incluida la PIO, la desviación media del campo visual (DM), la longitud axial, el error refractivo y el grosor de la córnea utilizando el conjunto de datos PAPILA. Las curvas ROC se complementaron con una curva de calibración (10 bins)59 y el histograma de predicciones en el mismo gráfico. Se incluyeron resultados de trabajos relacionados sobre detección y generalización del glaucoma basados ​​en el aprendizaje profundo para compararlos cuando fuera posible (LAG, ACRIMA, conjunto de pruebas REFUGE1, conjunto de pruebas REFUGE2). Para comprender mejor el proceso de toma de decisiones de G-RISK, tres expertos independientes en glaucoma evaluaron manualmente los falsos positivos (n = 20) y los falsos negativos (n = 20) seleccionados al azar de los datos de BMES y GHS. En caso de haber menos de 20 casos, se analizó el número total de FP o FN. Los evaluadores expertos evaluaron la calidad de la imagen (buena, mala, mala), el glaucoma (no, sospechoso, definitivo), enumeraron los motivos del diagnóstico de glaucoma e indicaron si la imagen procesada ayudó en su diagnóstico. El coeficiente kappa de Cohen (κ) evaluó la concordancia entre alumnos y la concordancia con la verdad básica del glaucoma. Se trazaron los tres FP y FN más extremos para todos los conjuntos de datos (con y sin mapa de prominencia superpuesto) con etiquetas e imágenes de verdad accesibles. Los mapas de prominencia se generaron utilizando el método de gradiente proporcionado por la biblioteca iNNvestigate v2.0.160.

Los datos utilizados se obtuvieron de conjuntos de datos disponibles tanto privados como públicamente. Los datos disponibles públicamente (AIROGS, ORIGA, REFUGE1, LAG, ODIR, REFUGE2, GAMMA, RIM-ONEr3, RIM-ONE DL, ACRIMA y PAPILA) se pueden recuperar del sitio web de origen. Para las pruebas con datos de BMES y GHS, los autores establecieron una colaboración de investigación científica con los propietarios de los datos en Sydney y Mainz, respectivamente. Los autores no pueden compartir directamente las imágenes y la verdad sobre el terreno; Invitamos a los científicos interesados ​​a ponerse en contacto con los propietarios originales de los distintos conjuntos de datos. Las predicciones generadas por G-RISK sobre los conjuntos de datos disponibles públicamente podrían compartirse previa solicitud razonable (correo electrónico: [email protected]). Datos del GHS: “El consentimiento informado por escrito de los participantes del estudio del GHS no permite el acceso público a los datos. El acceso a los datos de la base de datos local es posible en cualquier momento previa solicitud de acuerdo con el voto de ética. Este concepto se desarrolló con el responsable de protección de datos local y el comité de ética (comité de ética local de la Asociación Médica de Renania-Palatinado, Alemania). Los científicos interesados ​​pueden presentar sus solicitudes al Comité Directivo del Estudio de Salud de Gutenberg (correo electrónico: [email protected])”.

El código ResNet-50 estándar utilizado en este estudio está disponible en https://keras.io/api/applications/resnet/#resnet50-function. El guión de evaluación para obtener las predicciones sobre los diferentes conjuntos de datos está disponible previa solicitud académicamente razonable (correo electrónico: [email protected]). Todo el código fue desarrollado y ejecutado en un kernel con Python versión 3.8.12 en una máquina con Windows 10.

Tham, Y.-C. et al. Prevalencia global del glaucoma y proyecciones de la carga del glaucoma hasta 2040: una revisión sistemática y un metanálisis. Oftalmología 121, 2081–2090 (2014).

Artículo PubMed Google Scholar

Mitchell, P., Smith, W., Attebo, K. y Healey, PR Prevalencia del glaucoma de ángulo abierto en Australia: el estudio del ojo de las montañas azules. Oftalmología 103, 1661–1669 (1996).

Artículo CAS PubMed Google Scholar

Topouzis, F. y col. Prevalencia del glaucoma de ángulo abierto en Grecia: el estudio ocular de Salónica. Soy. J. Oftalmol. 144, 511–519 (2007).

Artículo PubMed Google Scholar

Budenz, DL et al. Prevalencia del glaucoma en una población urbana de África occidental: la encuesta ocular temática. JAMA Oftalmol. 131, 651–658 (2013).

Artículo PubMed PubMed Central Google Scholar

Liang, YB y cols. Prevalencia del glaucoma primario de ángulo abierto en una población adulta china de zonas rurales: el estudio ocular de Handan. Invertir. Oftalmol. Vis. Ciencia. 52, 8250–8257 (2011).

Artículo PubMed Google Scholar

Burr, JM y cols. La eficacia clínica y la rentabilidad del cribado del glaucoma de ángulo abierto: una revisión sistemática y una evaluación económica. Tecnología de la salud. Evaluar. Cabrestante. ingles. 11, 1–190 (2007).

Google Académico

Karvonen, E. y col. Prevalencia de glaucoma en el estudio ocular de cohorte de nacimientos del norte de Finlandia. Acta Oftalmol. (Copenhague) 97, 200–207.

Artículo de Google Scholar

Karvonen, E. y col. Rendimiento diagnóstico de los instrumentos de imagen modernos en el cribado del glaucoma. Hno. J. Oftalmol. 104, 1399-1405 (2020).

Artículo PubMed Google Scholar

Kim, C., Seong, GJ, Lee, N. y Song, K., Grupo de estudio Namil, Sociedad Coreana de Glaucoma. Prevalencia del glaucoma primario de ángulo abierto en el centro de Corea del Sur, según el estudio Namil. Oftalmología 118, 1024–1030 (2011).

Artículo PubMed Google Scholar

Founti, P. y col. Incidencia de doce años de glaucoma de ángulo abierto: el estudio ocular de Salónica. J. Glaucoma 30, 851–858 (2021).

Artículo PubMed Google Scholar

Keltner, JL y cols. Confirmación de anomalías del campo visual en el estudio de tratamiento de la hipertensión ocular. Grupo de estudio de tratamiento de la hipertensión ocular. Arco. Oftalmol. Elegante. Illinois, 1960 118, 1187-1194 (2000).

Artículo CAS Google Scholar

Schmidt-Erfurth, U., Sadeghipour, A., Gerendas, BS, Waldstein, SM y Bogunović, H. Inteligencia artificial en la retina. Prog. Retin. Res. ocular. 67, 1-29 (2018).

Artículo PubMed Google Scholar

Medeiros, FA, Jammal, AA y Thompson, AC De máquina a máquina: un algoritmo de aprendizaje profundo entrenado por OCT para la cuantificación objetiva del daño glaucomatoso en fotografías del fondo de ojo. Oftalmología 126, 513–521 (2019).

Artículo PubMed Google Scholar

Hemelings, R. y col. El aprendizaje profundo de las imágenes del fondo de ojo detecta el glaucoma más allá del disco óptico. Ciencia. Rep. 11, 20313 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Li, Z. y col. Eficacia de un sistema de aprendizaje profundo para detectar la neuropatía óptica glaucomatosa basado en fotografías en color del fondo de ojo. Oftalmología 125, 1199-1206 (2018).

Artículo PubMed Google Scholar

Li, L., Xu, M., Wang, X., Jiang, L. y Liu, H. Detección de glaucoma basada en la atención: una base de datos a gran escala y un modelo de CNN. Preimpresión en http://arxiv.org/abs/1903.10831 (2019).

Orlando, JI et al. Desafío REFUGE: un marco unificado para evaluar métodos automatizados para la evaluación del glaucoma a partir de fotografías del fondo de ojo. Medicina. Imagen Anal. 59, 101570 (2020).

Artículo PubMed Google Scholar

Beede, E. y col. Una evaluación centrada en el ser humano de un sistema de aprendizaje profundo implementado en clínicas para la detección de la retinopatía diabética. en Actas de la Conferencia CHI de 2020 sobre factores humanos en sistemas informáticos 1–12 (Asociación de Maquinaria de Computación, 2020).

Quiñonero-Candela, J., Sugiyama, M., Schwaighofer, A. y Lawrence, ND Cuando los conjuntos de entrenamiento y prueba son diferentes: caracterización de la transferencia del aprendizaje. en Cambio de conjunto de datos en el aprendizaje automático 3–28 (MIT Press, 2009).

Romo-Bucheli, D. et al. Reducir la variabilidad de la imagen entre dispositivos OCT con aprendizaje no emparejado y no supervisado para mejorar la segmentación de la retina. Biomédica. Optar. Expr. 11, 346–363 (2019).

Artículo de Google Scholar

Shen, Y. et al. Evaluación de la calidad de la imagen del fondo de ojo interpretable y sin variación de dominio. Medicina. Imagen Anal. 61, 101654 (2020).

Artículo PubMed Google Scholar

Thompson, AC, Jammal, AA y Medeiros, FA Un algoritmo de aprendizaje profundo para cuantificar la pérdida del borde neurorretiniano a partir de fotografías del disco óptico. Soy. J. Oftalmol. 201, 9-18 (2019).

Artículo PubMed PubMed Central Google Scholar

Höhn, R. y col. Prevalencia del glaucoma en Alemania: resultados del estudio de salud de Gutenberg. Arco de Graefes. Clínico. Exp. Oftalmol. Albrecht von. Arco de Graefes. Klín. Exp. Oftalmol. 256, 1695-1702 (2018).

Artículo de Google Scholar

Sponsel, WE et al. Estudio de detección del campo visual de Prevent Blindness America. El Comité Asesor sobre Glaucoma de Prevent Blindness America. Soy. J. Oftalmol. 120, 699–708 (1995).

Artículo CAS PubMed Google Scholar

Healey, PR, Lee, AJ, Aung, T., Wong, TY y Mitchell, P. Precisión diagnóstica del tomógrafo de retina de Heidelberg para el glaucoma: una evaluación basada en la población. Oftalmología 117, 1667–1673 (2010).

Artículo PubMed Google Scholar

Liu, H. y col. Desarrollo y validación de un sistema de aprendizaje profundo para detectar neuropatía óptica glaucomatosa mediante fotografías de fondo de ojo. JAMA Oftalmol. 137, 1353-1360 (2019).

Artículo PubMed PubMed Central Google Scholar

Alipanahi, B. et al. El fenotipado basado en aprendizaje automático a gran escala mejora significativamente el descubrimiento genómico de la morfología de la cabeza del nervio óptico. Soy. J. Hum. Gineta. 108, 1217-1230 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Fan, R. y col. Aprendizaje profundo para detectar glaucoma en el estudio de tratamiento de la hipertensión ocular: implicaciones para los criterios de valoración de los ensayos clínicos. Invertir. Oftalmol. Vis. Ciencia. 62, 1006 (2021).

Google Académico

Kass, MA y cols. El estudio de tratamiento de la hipertensión ocular: un ensayo aleatorizado determina que la medicación hipotensora ocular tópica retrasa o previene la aparición del glaucoma primario de ángulo abierto. Arco. Oftalmol. Elegante. Enfermo 1960 120, 701–713 (2002).

Artículo de Google Scholar

Christopher, M. y col. Efectos de la población de estudio, el etiquetado y el entrenamiento en la detección de glaucoma mediante algoritmos de aprendizaje profundo. Traducción Vis. Ciencia. Tecnología. 9, 27 (2020).

Artículo PubMed PubMed Central Google Scholar

Müller, R., Kornblith, S. y Hinton, G. ¿Cuándo ayuda el suavizado de etiquetas? En: Avances en sistemas de procesamiento de información neuronal, vol. 32 (eds. Wallach, H. et al.) (Curran Associates, Inc., 2019).

Gros, C., Lemay, A. y Cohen-Adad, J. SoftSeg: Ventajas del entrenamiento suave versus binario para la segmentación de imágenes. Medicina. Imagen Anal. 71, 102038 (2021).

Artículo PubMed Google Scholar

Estrela, T. et al. De la máquina al mundo real: evaluación de la precisión de un modelo de aprendizaje profundo máquina a máquina (M2M) para detectar el glaucoma durante un esfuerzo de detección poblacional en Brasil. Invertir. Oftalmol. Vis. Ciencia. 61, 4539 (2020).

Google Académico

Jammal, AA y cols. Humano versus máquina: comparación de un algoritmo de aprendizaje profundo con calificaciones humanas para detectar glaucoma en fotografías de fondo de ojo. Soy. J. Oftalmol. 211, 123-131 (2020).

Artículo PubMed Google Scholar

Lee, J., Kim, J. & Kee, C. Características de los pacientes con un defecto localizado de la capa de fibras nerviosas de la retina y apariencia normal del disco óptico. Ojo 26, 1473-1478 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Jonas, JB & Schiro, D. Defectos localizados de la capa de fibras nerviosas de la retina en la atrofia del nervio óptico no glaucomatoso. Arco de Graefes. Clínico. Exp. Oftalmol. Albrecht von. Arco de Graefes. Klín. Exp. Oftalmol. 232, 759–760 (1994).

Artículo CAS Google Scholar

Chihara, E., Matsuoka, T., Ogura, Y. y Matsumura, M. Defecto de la capa de fibras nerviosas de la retina como manifestación temprana de la retinopatía diabética. Oftalmología 100, 1147-1151 (1993).

Artículo CAS PubMed Google Scholar

Wang, D. y col. Defectos localizados de la capa de fibras nerviosas de la retina y accidente cerebrovascular. Accidente cerebrovascular 45, 1651-1656 (2014).

Artículo PubMed Google Scholar

Ronneberger, O., Fischer, P. & Brox, T. U-Net: Redes convolucionales para la segmentación de imágenes biomédicas. En Computación de imágenes médicas e intervención asistida por computadora - MICCAI 2015 (eds. Navab, N., Hornegger, J., Wells, WM & Frangi, AF) 234–241 (Springer International Publishing, 2015). https://doi.org/10.1007/978-3-319-24574-4_28.

Fu, H. y col. Segmentación conjunta de disco óptico y copa basada en red profunda de múltiples etiquetas y transformación polar. Traducción IEEE. Medicina. Imágenes 37, 1597-1605 (2018).

Artículo PubMed Google Scholar

D'Amour, A. et al. La subespecificación presenta desafíos para la credibilidad en el aprendizaje automático moderno. Preimpresión en http://arxiv.org/abs/2011.03395 (2020).

Guo, C., Pleiss, G., Sun, Y. y Weinberger, KQ Sobre la calibración de redes neuronales modernas. Preimpresión en http://arxiv.org/abs/1706.04599 (2017).

He, K., Zhang, X., Ren, S. & Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. Preimpresión en http://arxiv.org/abs/1512.03385 (2015).

Foster, PJ, Buhrmann, R., Quigley, HA y Johnson, GJ La definición y clasificación del glaucoma en encuestas de prevalencia. Hno. J. Oftalmol. 86, 238–242 (2002).

Artículo PubMed PubMed Central Google Scholar

Cuadros, J. & Bresnick, G. EyePACS: un sistema de telemedicina adaptable para la detección de retinopatía diabética. J. Ciencias de la diabetes. Tecnología. En línea 3, 509–516 (2009).

Artículo de Google Scholar

Lemij, HG, Kliffen, H. & Vermeer, K. Creación de un conjunto de datos etiquetados para entrenar un algoritmo de inteligencia artificial (IA) para la detección del glaucoma. Invertir. Oftalmol. Vis. Ciencia. 62, 1019-1019 (2021).

Google Académico

de Vente, C. et al. Tren Rotterdam EyePACS AIROGS. colocar. https://doi.org/10.5281/zenodo.5793241 (2021).

Artículo de Google Scholar

Zhang, Z. y col. ORIGA(-light): una base de datos de imágenes del fondo de ojo de la retina en línea para el análisis y la investigación del glaucoma. Conf. Proc. Año. En t. Conf. Ing. IEEE. Medicina. Biol. Soc. Ing. IEEE. Medicina. Biol. Soc. Año. Conf. 2010, 3065–3068 (2010).

Google Académico

Fang, H. y col. Desafío REFUGE2: Tesoro para el aprendizaje multidominio en la evaluación del glaucoma. (2022).

ODIR-2019. Concurso internacional de la Universidad de Pekín sobre reconocimiento inteligente de enfermedades oculares (ODIR-2019). (2019).

Wu, J. y col. Desafío GAMMA: clasificación del glaucoma a partir de imágenes multimodales. Preimpresión en http://arxiv.org/abs/2202.06511 (2022).

Fumero, F., Alayon, S., Sanchez, JL, Sigut, J. & Gonzalez-Hernandez, M. RIM-ONE: Una base de datos abierta de imágenes de retina para la evaluación del nervio óptico. en 2011, 24º Simposio internacional sobre sistemas médicos basados ​​en computadora (CBMS) 1–6 (2011). https://doi.org/10.1109/CBMS.2011.5999143.

Batista, FJF et al. RIM-ONE DL: una base de datos unificada de imágenes de retina para evaluar el glaucoma mediante aprendizaje profundo. Imagen Anal. Estereol. 39, 161-167 (2020).

Artículo de Google Scholar

Díaz-Pinto, A. et al. CNN para la evaluación automática del glaucoma mediante imágenes del fondo de ojo: una validación extensa. Biomédica. Ing. En Línea 18, 29 (2019).

Artículo PubMed PubMed Central Google Scholar

Hu, M.-K. Reconocimiento de patrones visuales por invariantes de momento. IRE Trans. inf. Teoría 8, 179–187 (1962).

Artículo de Google Scholar

Hemelings, R. y col. Segmentación de arterias y venas en imágenes de fondo de ojo utilizando una red totalmente convolucional. Computadora. Medicina. Gráfico de imágenes. 76, 101636 (2019).

Artículo PubMed Google Scholar

Sun, X. & Xu, W. Implementación rápida del algoritmo de DeLong para comparar las áreas bajo curvas características operativas del receptor correlacionadas. Proceso de señal IEEE. Letón. 21, 1389-1393 (2014).

Artículo de Google Scholar

Virtanen, P. y col. SciPy 1.0: algoritmos fundamentales para la computación científica en Python. Nat. Métodos 17, 261–272 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Niculescu-Mizil, A. & Caruana, R. Predecir buenas probabilidades con aprendizaje supervisado. en Actas de la 22ª conferencia internacional sobre aprendizaje automático 625–632 (Asociación de Maquinaria de Computación, 2005). https://doi.org/10.1145/1102351.1102430.

Alber, M. y col. ¡Investigue las redes neuronales! J. Mach. Aprender. Res. 20, 1–8 (2019).

Google Académico

Sun, Y. et al. Entrenamiento en tiempo de prueba con autosupervisión para generalización bajo turnos de distribución. en Actas de la 37ª Conferencia Internacional sobre Aprendizaje Automático 9229–9248 (PMLR, 2020).

Descargar referencias

El primer autor cuenta con el apoyo conjunto del Grupo de Investigación de Oftalmología, KU Leuven y VITO NV. Esta investigación recibió financiación del gobierno flamenco en el marco del programa "Onderzoeksprogramma Artificiële Intelligentie (AI) Vlaanderen". Agradecemos al prof. Erwin Bellon de los Hospitales Universitarios de Lovaina por su amplia ayuda para anonimizar todas las imágenes del fondo de ojo y los datos clínicos. Queremos expresar nuestro agradecimiento a todos los colaboradores que nos confiaron sus datos, lo que dio lugar a este trabajo de validación.

Grupo de Investigación en Oftalmología, Departamento de Neurociencias, KU Leuven, Herestraat 49, 3000, Lovaina, Bélgica

Rubén Hemelings, João Barbosa-Breda e Ingeborg Stalmans

Instituto Flamenco de Investigación Tecnológica (VITO), Boeretang 200, 2400, Mol, Bélgica

Rubén Hemelings y Bart Elen

Departamento de Oftalmología, Centro Médico Universitario de Mainz, Langenbeckstr. 1, 55131, Maguncia, Alemania

Alexander K. Schuster, Annika Junglas, Stefan Nickels y Norbert Pfeiffer

ESAT-PSI, KU Leuven, Kasteelpark Arenberg 10, 3001, Lovaina, Bélgica

Mateo B. Blaschko

Centro de I+D Cardiovascular, Facultad de Medicina de la Universidad de Oporto, Alameda Prof. Hernâni Monteiro, 4200-319, Oporto, Portugal

João Barbosa-Breda

Departamento de Oftalmología, Centro Hospitalar e Universitário São João, Alameda Prof. Hernâni Monteiro, 4200-319, Oporto, Portugal

João Barbosa-Breda

Tays Eye Centre, Hospital Universitario de Tampere, Tampere, Finlandia

Pekko Hujanen y Anja Tuulonen

Departamento de Oftalmología, Universidad de Sydney, Sydney, NSW, Australia

Andrew White y Paul Mitchell

Centro de Ciencias Ambientales, Universidad de Hasselt, Agoralaan edificio D, 3590, Diepenbeek, Bélgica

Patricio de Boever

Universidad de Amberes, Departamento de Biología, 2610, Wilrijk, Bélgica

Patricio de Boever

Departamento de Oftalmología, UZ Leuven, Herestraat 49, 3000, Lovaina, Bélgica

Ingeborg Stalmans

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

RH diseñó el estudio de prueba externo, escribió el código de evaluación, generó las principales medidas de resultado, analizó los resultados, escribió el manuscrito y diseñó sus figuras. BE codiseñó el estudio, revisó los resultados y el manuscrito. AS facilitó las pruebas con datos del GHS, revisó los resultados de los datos del GHS y ​​revisó el manuscrito completo. MBB codiseñó el estudio, revisó los resultados y el manuscrito. JB evaluó clínicamente los casos muestreados mal clasificados en datos de BMES y GHS, y revisó el manuscrito. PH analizó los resultados de los datos de BMES y revisó el manuscrito. AJ proporcionó la verdad básica de los datos del GHS y ​​revisó el manuscrito. SN facilitó las pruebas de datos del GHS y ​​revisó el manuscrito completo. AW proporcionó los datos de BMES para realizar pruebas, analizó los resultados y revisó el manuscrito. NP proporcionó acceso a los datos del GHS y ​​revisó el manuscrito. PM proporcionó acceso a los datos de BMES y revisó el manuscrito. PDB codiseñó el estudio, proporcionó financiación para la investigación, revisó los resultados y el manuscrito. AT facilitó el acceso a los datos de BMES, evaluó clínicamente los casos muestreados mal clasificados en datos de BMES y GHS y ​​revisó el manuscrito. IS codiseñó el estudio, proporcionó financiación para la investigación, revisó los resultados, evaluó clínicamente los casos muestreados mal clasificados en datos de BMES y GHS y ​​revisó el manuscrito.

Correspondencia a Rubén Hemelings.

Ninguna entidad externa ha participado en el diseño del estudio, en la recopilación, análisis e interpretación de datos, en la redacción del manuscrito ni en la decisión de enviar el manuscrito para su publicación. IS es cofundador, accionista y consultor de Mona.health, una spin-off de KU Leuven/VITO a la que se transfirió el modelo descrito. El diseño del estudio fue conceptualizado a la luz de la tesis doctoral de RH, previo a la transferencia del modelo. Según sus condiciones laborales en KU Leuven, RH y MBB tienen derecho a opciones sobre acciones en Mona.health. RH ha recibido honorarios de consultoría de Mona.health.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Hemelings, R., Elen, B., Schuster, AK et al. Un modelo de regresión de aprendizaje profundo generalizable para la detección automatizada de glaucoma a partir de imágenes del fondo de ojo. npj Dígito. Medicina. 6, 112 (2023). https://doi.org/10.1038/s41746-023-00857-0

Descargar cita

Recibido: 14 de agosto de 2022

Aceptado: 01 de junio de 2023

Publicado: 13 de junio de 2023

DOI: https://doi.org/10.1038/s41746-023-00857-0

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt