banner
Hogar / Noticias / Predicción del campo visual utilizando un modelo de red de unidad recurrente cerrada bidireccional profunda
Noticias

Predicción del campo visual utilizando un modelo de red de unidad recurrente cerrada bidireccional profunda

May 27, 2024May 27, 2024

Scientific Reports volumen 13, número de artículo: 11154 (2023) Citar este artículo

320 Accesos

2 altmétrico

Detalles de métricas

Aunque se ha utilizado una arquitectura de aprendizaje profundo para procesar datos secuenciales, sólo unos pocos estudios han explorado la utilidad de los algoritmos de aprendizaje profundo para detectar la progresión del glaucoma. Aquí, propusimos un algoritmo de unidad recurrente cerrada bidireccional (Bi-GRU) para predecir la pérdida del campo visual. En total, se incluyeron 5.413 ojos de 3.321 pacientes en el conjunto de entrenamiento, mientras que en el conjunto de prueba se incluyeron 1.272 ojos de 1.272 pacientes. Se utilizaron como entrada los datos de cinco exámenes consecutivos del campo visual; Los sextos exámenes del campo visual se compararon con las predicciones del Bi-GRU. El rendimiento de Bi-GRU se comparó con el rendimiento de los algoritmos convencionales de regresión lineal (LR) y de memoria a corto plazo (LSTM). El error de predicción general fue significativamente menor para Bi-GRU que para los algoritmos LR y LSTM. En la predicción puntual, Bi-GRU mostró el error de predicción más bajo entre los tres modelos en la mayoría de las ubicaciones de prueba. Además, Bi-GRU fue el modelo menos afectado en términos de empeoramiento de los índices de confiabilidad y gravedad del glaucoma. La predicción precisa de la pérdida del campo visual mediante el algoritmo Bi-GRU puede facilitar la toma de decisiones con respecto al tratamiento de pacientes con glaucoma.

El glaucoma, una de las principales causas de ceguera en todo el mundo, se caracteriza por la pérdida irreversible de células ganglionares de la retina1,2. Los cambios estructurales en las células ganglionares de la retina y en la cabeza del nervio óptico provocan un deterioro progresivo del campo visual2. La predicción del campo visual futuro es esencial para preservar la función visual. Sin embargo, los resultados de las pruebas del campo visual son susceptibles a errores y fluctuaciones aleatorias, particularmente en pacientes con glaucoma, lo que dificulta la predicción precisa de los cambios del campo visual3.

En los últimos años, los algoritmos de aprendizaje automático han demostrado un buen rendimiento en la predicción de la progresión del glaucoma. Wang et al.4 clasificaron y determinaron la progresión de 16 arquetipos de defectos del campo visual. Murata et al.5 encontraron una capacidad de predicción superior de la regresión lineal variacional de Bayes, un tipo de algoritmo de aprendizaje automático, en comparación con la regresión lineal puntual (LR). Debido al reciente desarrollo de la inteligencia artificial, se han utilizado algoritmos de aprendizaje profundo para diversas tareas con un rendimiento excelente. Sin embargo, sólo unos pocos estudios han predicho la progresión de los defectos del campo visual utilizando algoritmos de aprendizaje profundo. Wen et al.6 utilizaron una red neuronal convolucional para predecir campos visuales futuros, utilizando un único examen del campo visual como entrada. Berchuck et al.7 utilizaron un modelo de autocodificador variacional para estimar la tasa de progresión del campo visual.

La red neuronal recurrente (RNN), una red artificial con conexiones recurrentes, se ha utilizado para series temporales secuenciales con dependencia temporal y para modelado de secuencias8. Puede procesar datos actuales, utilizando datos anteriores para hacer predicciones, basadas en dependencias entre elementos secuenciales9,10. Las dos variantes principales de RNN, la memoria a corto plazo (LSTM)11 y la unidad recurrente cerrada (GRU)12, modelan la dependencia a largo plazo en secuencias largas. En un estudio anterior, descubrimos que LSTM tenía capacidades superiores para predecir campos visuales futuros, en comparación con el LR13 de mínimos cuadrados ordinario. Dixit et al.14 descubrieron que las redes LSTM pueden predecir las tendencias longitudinales locales y globales en los campos visuales.

GRU utiliza unidades de compuerta de manera más eficiente y a un ritmo similar, en comparación con los LSTM típicos15,16,17. Varios estudios han revelado que GRU tiene un rendimiento excelente para el análisis de datos secuenciales, en comparación con otros tipos de RNN12,15,18,19. Recientemente, se ha desarrollado un método RNN bidireccional mediante entrenamiento simultáneo con direcciones temporales positivas y negativas, lo que proporciona una mejor comprensión del contexto20. Lynn et al.15 compararon varios modelos basados ​​en RNN para la identificación humana utilizando biometría basada en electrocardiogramas a partir de datos de series temporales secuenciales. La red bidireccional con modelos LSTM y GRU fue más efectiva que los modelos RNN convencionales, y el modelo de unidad recurrente con activación bidireccional (Bi-GRU) exhibió un rendimiento superior al modelo LSTM bidireccional. Debido a que los exámenes del campo visual proporcionan datos secuenciales con interconexiones extensas, Bi-GRU puede lograr una mejor predicción de la progresión del campo visual, en comparación con el modelo RNN anterior basado en LSTM.

Hasta donde sabemos, este es el primer estudio que utiliza Bi-GRU para predecir el daño del campo visual. En un estudio anterior, evaluamos el desempeño de LSTM en la predicción de defectos del campo visual. Debido a que el presente estudio utilizó un conjunto de datos más grande que nuestro trabajo anterior, desarrollamos un modelo Bi-GRU basado en RNN computacionalmente eficiente. Comparamos el rendimiento del modelo Bi-GRU con el rendimiento de los modelos LR y LSTM convencionales.

Este estudio retrospectivo se realizó de acuerdo con los principios de la Declaración de Helsinki. Los datos del campo visual se recopilaron de clínicas de glaucoma en el Hospital Universitario Nacional de Pusan, el Hospital Universitario Gospel de Kosin, el Hospital Universitario Dong-A, el Hospital Paik de Busan y el Hospital Yangsan de la Universidad Nacional de Pusan ​​entre junio de 2004 y enero de 2021. El protocolo del estudio fue aprobado por la institución. juntas de revisión del Hospital Universitario Nacional de Pusan ​​(N.º de aprobación: 2203-018-113), Hospital Universitario del Evangelio de Kosin (N.º de aprobación: 2018-12-028), Hospital Universitario Dong-A (N.º de aprobación: 22-074), Hospital Busan Paik (N.º de aprobación: 2021-03-014-002) y Hospital Yangsan de la Universidad Nacional de Pusan ​​(N.º de aprobación: 05-2018-172). Las juntas de revisión institucional renunciaron al requisito del consentimiento del paciente debido al diseño del estudio retrospectivo. Los datos de sexo y diagnóstico se recopilaron retrospectivamente de los registros médicos.

Los participantes que completaron un mínimo de seis exámenes de campo visual consecutivos se incluyeron en los conjuntos de datos de entrenamiento y prueba. No hubo superposición de pacientes entre los dos conjuntos de datos. Se incluyeron ojos con un intervalo de ≥ 3 años entre el primer y el sexto examen del campo visual. Por ejemplo, en un ojo con 13 exámenes de campo visual consecutivos, los exámenes primero a sexto se consideraron el primer conjunto de datos, los exámenes séptimo a duodécimo se consideraron el segundo conjunto de datos y el decimotercer examen se excluyó del conjunto de datos. Los primeros cinco exámenes se utilizaron como datos de entrada para predecir el sexto examen, y los exámenes del séptimo al undécimo se utilizaron como datos de entrada para predecir el duodécimo examen (Fig. 1).

Secuencia representativa de desplazamiento temporal de un paciente que completó 13 pruebas de campo visual. Las fechas de las pruebas de campo visual indicadas en cuadros grises se usaron para el entrenamiento y las fechas en cuadros negros se usaron para la predicción.

Obtuvimos datos de 6 celdas de 8323 campos visuales de 6685 ojos y 4593 participantes. Se incluyeron conjuntos de datos de 7051 (85%) y 1272 (15%) individuos en los conjuntos de datos de entrenamiento y prueba, respectivamente. En total, 7051 registros del conjunto de datos de entrenamiento se dividieron aleatoriamente en conjuntos de datos de entrenamiento y validación en una proporción de 9:1. El conjunto de datos de validación se utilizó para determinar la aptitud de la red neuronal durante el entrenamiento para evitar el sobreajuste. Los 8323 conjuntos de datos incluyeron seis exámenes de campo visual, y la duración media del seguimiento de los seis exámenes fue de 4,39 \(\pm\) 1,69 años. La Tabla 1 presenta las características de cada conjunto de datos.

La perimetría automatizada se realizó utilizando un analizador de campo visual Humphrey 750i (Carl Zeiss Meditec, Inc., Dublin, CA, EE. UU.) y el algoritmo de umbral interactivo sueco 24-2 o 30-2. Entre los 54 puntos de prueba del patrón de prueba 24-2, se excluyeron los dos puntos de escotoma fisiológico; Se utilizaron los 52 puntos de prueba restantes. El patrón de prueba 30-2 se convirtió al patrón de prueba 24-2 utilizando los puntos de prueba superpuestos. Las pruebas de campo visual confiables se definieron como una tasa de falsos positivos <33%, una tasa de falsos negativos <33% y una pérdida de fijación <33%.

Utilizamos los modelos de redes neuronales LSTM y Bi-GRU. Se utilizó el software Python (versión 3.8) con TensorFlow 2.3 (Google, Mountain View, CA, EE. UU.) para predecir la pérdida del campo visual. La figura complementaria S1 ilustra las dos estructuras del modelo.

Construimos redes neuronales de una capa para aprender la información estructural de un conjunto de datos específico utilizando entradas preprocesadas. Las redes neuronales basadas en células LSTM se definieron de la siguiente manera:

donde \({W}_{f},{W}_{i}, {W}_{o} y {W}_{C}\) representan los pesos y \({b}_{f} , {b}_{i}, {b}_{o}, {y b}_{C}\) representan el sesgo en la red, respectivamente, de las tres puertas y una celda de memoria. ⨂ es el producto por elementos entre dos vectores. El sigmoide es la función de activación utilizada en la red, escrita de la siguiente manera:

Las puertas de entrada y salida regulan el flujo de entradas y salidas de las celdas de memoria a través de la red, mientras que la puerta de olvido se incorpora a la celda de memoria para transmitir información de salida con pesos elevados desde la neurona anterior a la siguiente. La información que reside en la memoria depende de los altos resultados de activación. Si la unidad de entrada tiene una activación alta, la información se almacena en la celda de memoria. Por otro lado, si la unidad de salida tiene una activación alta, pasa la información a la siguiente neurona. La información de entrada con un peso elevado reside en la celda de memoria. Sigmoide y tanh se emplean como funciones activas para las puertas. Aquí, h (t-1) representa las unidades de capa oculta anteriores que suman los pesos de las tres puertas de manera elemental. Después de procesar la Ec. (4), (C)t indica la unidad de celda de memoria actual. La ecuación (5) muestra la multiplicación por elementos de las salidas de la unidad oculta anterior y la unidad de celda de memoria anterior. La no linealidad se introduce a través de las funciones de activación tanh y sigmoidea como se muestra en las ecuaciones. (1–5). Aquí, t − 1 y t son los pasos de tiempo anterior y actual.

GRU es una variante simplificada de LSTM que solo tiene dos puertas: la puerta de actualización, que comprende las puertas de entrada y olvido, y la puerta de reinicio. No tiene una celda de memoria adicional para retener información y solo puede controlar información dentro de la unidad.

La puerta de actualización en la ecuación. (6) determina el alcance de la actualización de la información. En la ecuación. (7), la puerta de descanso es similar a la puerta de actualización; si la puerta se establece en cero, GRU lee las secuencias de entrada y olvida el estado calculado previamente. Además, \(\widetilde{{h}_{t}}\) exhibe una funcionalidad idéntica a la unidad recurrente, y ℎt del GRU en el momento t representa la interpolación lineal entre las \(\widetilde{{h}_{t) actuales }}\) y estados de activación anteriores \({h}_{t-1}\) en las ecuaciones. (8) y (9).

Se formó una capa Bi-GRU combinando un GRU directo con un GRU en dirección inversa. Ambos GRU reciben la misma entrada pero se entrenan en direcciones opuestas y sus resultados se concatenan para producir la salida. Las redes neuronales jerárquicas profundas capturan eficazmente funciones específicas y modelan dependencias de diferentes longitudes21. Nuestros experimentos revelaron que Bi-GRU superó a otros modelos en nuestros conjuntos de datos.

En nuestro método propuesto, el modelo de aprendizaje profundo comprende datos de entrada, una capa de red neuronal de serie única utilizada para predicciones secuenciales y una capa densa. Las estructuras de redes neuronales para LSTM y Bi-GRU se muestran en la Fig. 2.

Arquitecturas del (a) método de memoria a largo plazo (LSTM) y (b) método de unidad recurrente cerrada bidireccional (Bi-GRU). Las capas de entrada de ambos modelos consistieron en valores de desplazamiento temporal en días, datos de confiabilidad y datos del campo visual. Los datos de confiabilidad consistieron en la tasa de falsos positivos (FP), la tasa de falsos negativos (FN) y el porcentaje de pérdida de fijación (FL). Los datos del campo visual consistieron en 52 valores de desviación del patrón (PDV) y 52 valores de desviación total (TDV) en la prueba de campo visual 24-2 (se excluyeron dos puntos de escotoma fisiológico). La última celda contenía un valor de desplazamiento de tiempo positivo y 107 ceros como entrada porque todos los demás valores estaban establecidos en cero. Estas entradas únicas pueden especificar la fecha exacta que el usuario quiere predecir. LSTM = memoria a largo plazo; Bi-GRU = unidad recurrente cerrada bidireccional; TDV = valor de desviación total.

La red neuronal de serie temporal de una sola capa consta de seis células LSTM o Bi-GRU paralelas y conectadas. Las estructuras detalladas de las celdas LSTM y GRU se presentan en la figura complementaria S1a, b, respectivamente.

Cada una de las primeras cinco celdas utiliza 108 características como entrada, incluidos 52 valores de desviación total (TDV), 52 valores de desviación de patrón (PDV), datos de confiabilidad (como tasas de falsos negativos y falsos positivos, porcentaje de pérdida de fijación) y tiempo. valor de desplazamiento. Para mejorar el rendimiento del modelo de aprendizaje profundo, los datos de entrada se normalizaron a un rango razonable. Los valores de TDV, PDV y desplazamiento de tiempo se dividieron en conjuntos de 50, 50 y 1000, respectivamente. El desplazamiento temporal indicó el número de días desde el examen del campo visual más reciente. Por ejemplo, si el examen del campo visual más reciente tiene un desplazamiento temporal de "0", el examen del campo visual realizado 1 mes (- 31 días) antes de "0" tiene un desplazamiento temporal de "- 31". Un signo negativo en el valor del desplazamiento del tiempo indica que el examen se realizó en el pasado. Con respecto a los 6 elementos de datos de entrada del campo visual consecutivos, el último elemento de datos de entrada utilizó un formato único con desplazamiento de tiempo positivo (es decir, el punto en el futuro que el usuario desea predecir) y 107 ceros. Dado que los demás datos se establecieron en 0, estas entradas únicas pueden especificar la fecha exacta que el usuario desea predecir. Se organizó una serie de datos de entrada reduciendo el valor del desplazamiento temporal (es decir, del futuro al pasado) y luego suministrando esta información a la red neuronal. Posteriormente, la capa de red neuronal se conectó a la siguiente capa única completamente conectada (capa densa) con 52 neuronas. Estas neuronas generaron una salida final de 52 TDV, de modo que una neurona generó un único punto de prueba del campo visual.

Se utilizaron como métricas de precisión el error cuadrático medio (RMSE) y el error absoluto medio (MAE) del TDV. El RMSE se calculó para cada ojo mediante la siguiente ecuación:

El MAE se calculó para cada punto de prueba en el campo visual de todos los ojos utilizando la siguiente ecuación:

El RMSE y MAE de los modelos LR, LSTM y Bi-GRU se calcularon utilizando las fórmulas anteriores. Se realizó un análisis de varianza unidireccional de medidas repetidas para comparar métricas de precisión entre los modelos LR, LSTM y Bi-GRU. P <0,05 (comparación única) y p <0,017 (comparaciones múltiples) se consideraron indicativos de significación estadística. Se realizaron pruebas paramétricas y no paramétricas (correlación de Spearman y análisis LR simple) para comparar variables. Estas pruebas se utilizaron para investigar las tendencias de los errores de predicción según varios factores, incluida la tasa de falsos positivos, la tasa de falsos negativos, el porcentaje de pérdida de fijación y la desviación media del campo visual (DM).

La Tabla 2 muestra las características demográficas del conjunto de datos de prueba. El diagnóstico más frecuente fue glaucoma primario de ángulo abierto (47,68%). El tiempo medio de predicción (intervalo de tiempo entre la predicción y el examen final del campo visual) fue de 1,00 ± 0,84 años (Tabla 1). El RMSE medio y el error absoluto medio puntual (PMAE) se muestran en la Tabla 3. La Figura 3 presenta ejemplos representativos del PMAE en la prueba de campo visual.

Ejemplos representativos de predicción del campo visual según la desviación media (DM) del primer examen del campo visual. Se muestran cinco exámenes consecutivos del campo visual de entrada en orden cronológico de izquierda a derecha, seguidos del sexto examen (considerado como el valor verdadero). Las columnas 7 a 9 indican los resultados de predicción de los modelos LR, LSTM y Bi-GRU, respectivamente. LR = regresión lineal; LSTM = memoria a largo plazo; Bi-GRU = unidad recurrente cerrada bidireccional.

Bi-GRU mostró un mejor rendimiento de predicción en comparación con LR y LSTM. Los RMSE de Bi-GRU, LR y LSTM fueron 3,71 ± 2,42, 4,81 ± 3,89 y 4,06 ± 2,61 dB, respectivamente. Hubo diferencias estadísticamente significativas en los errores de predicción entre los tres modelos (F = 42,94, p <0,001). El RMSE fue significativamente menor para Bi-GRU que para los otros dos modelos (ambos p <0,001).

El número de ojos agrupados según el error de predicción RMSE se muestra en la Fig. 4. Más del 50 % de los ojos tuvieron errores de predicción Bi-GRU de ≤ 2 dB (530 ojos, 41,67 %) y 2–3 dB (175 ojos, 13,76 %). Los errores de predicción de LR correspondientes fueron ≤ 2 dB (329 ojos, 25,86%) y 2–3 dB (254 ojos, 19,97%), y los errores de predicción de LSTM correspondientes fueron ≤ 2 dB (505 ojos, 39,70%) y 2–3 dB (165 ojos, 12,97%).

Número de ojos agrupados según el error de predicción (RMSE, error cuadrático medio).

La Figura 5 muestra el PMAE en el campo visual. Con respecto a los 52 puntos TDV, Bi-GRU exhibió el error de predicción más bajo entre los tres modelos. Bi-GRU mostró un rendimiento significativamente mejor en 29 (puntos rojos) y 49 (puntos azules) en comparación con LR y LSTM, respectivamente.

Error absoluto medio puntual (PMAE) del valor de desviación total previsto (TDV). Bi-GRU tuvo el error de predicción más bajo (PMAE) para los 52 puntos. Los colores más oscuros indican un error mayor. Los puntos rojos indican diferencias significativas entre LR y Bi-GRU; Los puntos azules indican diferencias significativas entre LSTM y Bi-GRU (prueba t pareada). LR = regresión lineal; LSTM = memoria a largo plazo; Bi-GRU = unidad recurrente cerrada bidireccional.

En la tabla 4 se muestra el error medio de predicción (RMSE) según sectores del examen del campo visual (Fig. 6). El campo visual 24-2 se dividió en los seis sectores propuestos por Garway-Heath et al.22, basándose en la anatomía de la cabeza del nervio óptico (superotemporal, superonasal, temporal, nasal, inferotemporal e inferonasal) [Fig. 6b] y dos sectores (central y periférico) [Fig. 6c]. Los errores de predicción de Bi-GRU fueron significativamente menores que los errores de LR y LSTM para todos los sectores (p ≤ 0,001).

División de la cabeza del nervio óptico (a) y campo visual (b, c). (b) El campo visual se dividió en seis sectores propuestos por Garway-Heath et al.22 (c) El campo visual se dividió en las zonas central y periférica. ST = superotemporal; SN = superonasal; T = temporal; N = nasal; TI = inferotemporal; IN = inferonasal; P = periférico; C = central.

Los valores medios de RMSE agrupados según varios factores se enumeran en la Tabla 5 y la Fig. 7. El error de predicción fue significativamente menor para Bi-GRU que para los otros dos modelos en términos de tasa de falsos positivos, tasa de falsos negativos y porcentaje de pérdida de fijación (p ≤ 0,025). A medida que aumentó el MD del campo visual, disminuyeron los errores de predicción de RMSE de los tres modelos.

Error de predicción promedio (RMSE) agrupado según varios factores. RMSE frente a (a) tasa de falsos positivos, (b) tasa de falsos negativos, (c) porcentaje de pérdida de fijación y (d) desviación media del campo visual (DM). Bi-GRU mostró el error de predicción más bajo. LR = regresión lineal; LSTM = memoria a largo plazo; Bi-GRU = unidad recurrente cerrada bidireccional; RMSE = raíz del error cuadrático medio.

Los coeficientes de correlación y los análisis de LR entre el error de predicción y varios factores se presentan en la Tabla 6 y la Fig. 8. Para todos los modelos, el RMSE se correlacionó positivamente con la tasa de falsos negativos y el porcentaje de pérdida de fijación, mientras que se correlacionó negativamente con el campo visual. MD (todos p ≤ 0,029) (Fig. 8).

Análisis de regresión lineal entre error de predicción (RMSE) y diversos factores. RMSE frente a (a) tasa de falsos positivos, (b) tasa de falsos negativos, (c) porcentaje de pérdida de fijación y (d) desviación media del campo visual (DM). LR = regresión lineal; LSTM = memoria a largo plazo; Bi-GRU = unidad recurrente cerrada bidireccional; RMSE = raíz del error cuadrático medio.

Hasta donde sabemos, este estudio es el primero en utilizar la arquitectura Bi-GRU para predecir la pérdida del campo visual. Comparamos la predicción de la pérdida del campo visual utilizando los modelos Bi-GRU, LR y LSTM. El modelo Bi-GRU demostró la mayor precisión predictiva entre los tres modelos. Los errores de predicción generales (RMSE) de los modelos LR, LSTM y Bi-GRU fueron 4,81 ± 3,89, 4,06 ± 2,61 y 3,71 ± 2,42 dB, respectivamente. El RMSE difirió significativamente entre Bi-GRU y los otros modelos (p <0,001).

En los seis sectores de los campos visuales según la anatomía de la cabeza del nervio óptico, así como en las áreas del campo visual central y periférico, Bi-GRU exhibió un rendimiento superior en comparación con los otros dos modelos (todos p <0,001).

El rendimiento predictivo se correlacionó negativamente con la tasa de falsos negativos y el porcentaje de pérdida de fijación en los tres modelos; sin embargo, Bi-GRU fue el menos afectado por los índices de confiabilidad. Una disminución en la DM se asoció con un menor rendimiento de predicción en los tres modelos. El RMSE fue el más bajo para Bi-GRU entre los tres modelos; Bi-GRU tuvo mejores resultados incluso en pacientes con glaucoma avanzado.

Varios estudios han utilizado inteligencia artificial para detectar el glaucoma y su progresión. Asaoka et al.23 construyeron una red neuronal de retroalimentación profunda para detectar el glaucoma preperimétrico. El área bajo la curva característica operativa del receptor (AUROC) del modelo fue del 92,6 %, lo que indica un mejor rendimiento que otros métodos de aprendizaje automático (p. ej., bosque aleatorio, aumento de gradiente, máquina de vectores de soporte y red neuronal). Aunque ese estudio fue el primero en utilizar el aprendizaje profundo para la evaluación del glaucoma preperimétrico, solo se analizó una pequeña cantidad de datos de los campos visuales preperimétricos de pacientes con glaucoma (53 ojos). Elze et al.24 clasificaron los campos visuales en 16 arquetipos y encontraron que los arquetipos estaban estrechamente correlacionados con las características clínicas del glaucoma25. Sin embargo, estos estudios clasificaron los campos visuales, en lugar de predecir los cambios en el campo visual. Yousefi et al.26 compararon varios algoritmos de aprendizaje automático en términos de detección de la progresión del glaucoma, utilizando como entrada la capa de fibras nerviosas de la retina en la tomografía de coherencia óptica y la DM y la desviación estándar del patrón en el examen del campo visual. El clasificador de bosque aleatorio mostró el mejor desempeño, con un AUROC de 0,88. Wang et al.4 evaluaron la capacidad predictiva de cambios en el campo visual mediante arquetipos; encontraron que las tasas medias de acierto y rechazo correcto fueron 0,77 y 0,77, lo que sugiere que la capacidad predictiva del enfoque del arquetipo era mayor que las capacidades de otros métodos, como la pendiente MD, la puntuación del estudio de intervención avanzada en glaucoma, la puntuación del estudio colaborativo de tratamiento inicial del glaucoma. y la permutación de la regresión lineal puntual. Sin embargo, a diferencia de nuestro estudio, estudios anteriores no predijeron cambios en el campo visual.

Dixit et al.14 descubrieron que la progresión de los cambios del campo visual utilizando un algoritmo de aprendizaje profundo basado en la arquitectura LSTM podía predecirse con una precisión del 91 al 93%. El AUROC fue de 0,89 a 0,93 cuando se utilizaron múltiples exámenes de campo visual y datos clínicos iniciales como entrada. Además, el uso de datos clínicos para complementar los datos del campo visual mejoró el rendimiento del modelo. Murata et al.5 encontraron que la regresión lineal variacional de Bayes predijo con mayor precisión la progresión de los cambios del campo visual en pacientes con glaucoma, en comparación con la LR de mínimos cuadrados convencional. Wen et al.6 utilizaron Cascade-Net, un tipo de arquitectura de red neuronal convolucional, para predecir futuros hallazgos del campo visual de Humphrey utilizando una única entrada de campo visual. Los modelos mostraron excelentes capacidades predictivas; el PMAE y el RMSE generales fueron 2,47 y 3,47 dB, respectivamente. El PMAE y RMSE del modelo Bi-GRU fueron ligeramente superiores a los PMAE y RMSE del modelo Cascade-Net. Sin embargo, es posible que este modelo no refleje una progresión real porque los autores utilizaron un examen de campo visual único como entrada. Berchuck et al.7 utilizaron un algoritmo de autocodificación variacional generalizado para estimar las tasas de progresión y predecir campos visuales futuros. El MAE general fue de 1,89 a 2,33 dB, comparable con el MAE de nuestro modelo. Park et al.13 utilizaron un RNN para predecir el sexto examen del campo visual; Descubrieron que el RMSE era de 4,31 ± 2,4 dB, lo que indica que RNN predijo el campo visual futuro mejor que LR.

En un estudio anterior, utilizamos el modelo LSTM para analizar la entrada secuencial en el tiempo que consiste en exámenes del campo visual13. En el presente estudio, construimos una arquitectura de aprendizaje profundo basada en una red Bi-GRU. Tanto GRU como LSTM son variantes de RNN, una arquitectura de aprendizaje profundo de última generación que procesa datos secuenciales para el reconocimiento y la predicción de secuencias27. Cho et al.16 presentaron una arquitectura GRU que permitía a cada unidad recurrente capturar de forma adaptativa dependencias de diferentes escalas de tiempo. Tanto GRU como LSTM tienen unidades recurrentes en el modelado de secuencia. Sin embargo, GRU tiene unidades de activación que modulan el flujo de información dentro de la unidad sin celdas de memoria separadas8,12,16. Chung et al.12 informaron que GRU era comparable con LSTM para el modelado de música polifónica y el modelado de señales de voz. Khandelwal et al.17 descubrieron que GRU superó a LSTM en términos de tiempo de cálculo más corto y menor tasa de error de palabras para el reconocimiento automático de voz.

La RNN convencional solo considera el contexto anterior de los datos de entrenamiento. Para superar las limitaciones de un RNN convencional, Shuster et al.20 propusieron un RNN bidireccional que considera secuencias de entrada pasadas y futuras para estimar el vector de salida. Varios estudios han demostrado que Bi-GRU supera a LSTM15,17,18. Bi-GRU logró la mayor precisión de clasificación entre los modelos basados ​​en redes neuronales profundas para la identificación humana basada en biometría de electrocardiograma15.

En el presente estudio, Bi-GRU mostró un mejor rendimiento predictivo que LR y LSTM para todo el campo visual, así como para el área central; esta área es importante porque la preservación de la función visual central tiene un fuerte efecto en la calidad de vida de los pacientes con glaucoma28,29. Bi-GRU fue el menos afectado por los índices de confiabilidad. La tasa de falsos negativos y la pérdida de fijación afectaron la predicción del campo visual en todos los modelos. Sin embargo, hubo una correlación deficiente entre la pérdida de fijación y la predicción del campo visual, lo que indica un pequeño efecto de la pérdida de fijación. Estudios anteriores demostraron que las tasas de falsos negativos, pero no la pérdida de fijación, se asociaban con la evaluación del campo visual13,30,31. Además, estudios previos revelaron que las tasas de falsos negativos eran la causa más común de clasificación poco confiable del campo visual32,33.

Nuestro estudio tuvo varias limitaciones. En primer lugar, los resultados del estudio no se pueden generalizar completamente a pacientes con diferentes grados de gravedad del glaucoma. El estudio incluyó un mayor número de pacientes con glaucoma temprano (DM > −6 dB) en los conjuntos de datos de entrenamiento y prueba, en comparación con pacientes con glaucoma avanzado. Aunque esta diferencia puede haber afectado el rendimiento del aprendizaje del modelo Bi-GRU, refleja la distribución de la gravedad del glaucoma observada en la práctica clínica.

En segundo lugar, no incluimos datos clínicos para el entrenamiento, a diferencia del trabajo de Dixit et al.14 Los estudios futuros deberían mejorar la arquitectura del aprendizaje profundo agregando características clínicas a los datos de entrada.

En tercer lugar, entrenamos y probamos el modelo utilizando cinco elementos de datos de campo visual consecutivos como entrada. Los especialistas en glaucoma recomiendan que se utilicen al menos cinco exámenes seriados del campo visual para detectar la progresión del glaucoma. El análisis de progresión del glaucoma incluido en el analizador de campo visual Humphrey requiere al menos cinco exámenes fiables del campo visual y un período de seguimiento de 2 años34. Estudios anteriores también utilizaron cinco elementos de datos del campo visual como entrada para predecir la progresión del campo visual en el glaucoma35,36. Además, se realizó una LR secuencial puntual con al menos cuatro exámenes del campo visual porque es poco probable que el análisis de regresión detecte una tendencia cuando hay menos datos disponibles37. Predijimos el sexto examen del campo visual utilizando los cinco exámenes anteriores para comparar el rendimiento predictivo de los modelos Bi-GRU y LR. El glaucoma requiere exámenes periódicos del campo visual durante toda la vida38,39. Por lo tanto, cinco exámenes consecutivos del campo visual durante 3 años no son un número excesivamente frecuente, y la predicción de exámenes posteriores basándose en los cinco exámenes iniciales puede mejorar la comodidad del paciente.

En un análisis más detallado, predijimos el campo visual futuro basándose en cuatro elementos de datos de campo visual consecutivos utilizando el modelo Bi-GRU. Los errores de predicción medios fueron 3,84 ± 2,48 y 2,91 ± 1,96 dB para RMSE y PMAE, respectivamente. Aunque hubo diferencias estadísticamente significativas en los errores de predicción (ambos p <0,001) entre los modelos que utilizaron cinco y cuatro elementos de datos del campo visual, la diferencia no fue clínicamente significativa.

En cuarto lugar, el modelo sólo podía predecir los sextos exámenes del campo visual. Los estudios futuros deben recopilar datos adicionales de pacientes con una mayor cantidad de exámenes de campo visual y evaluar el rendimiento de nuestro modelo en términos de predicción del séptimo al décimo exámenes de campo visual, utilizando los primeros cinco exámenes de campo visual como entrada. Sin embargo, nuestro modelo puede pronosticar campos visuales en momentos futuros. Por ejemplo, el modelo puede predecir los campos visuales a los 4, 8 y 12 meses después del quinto examen del campo visual.

En resumen, una arquitectura de aprendizaje profundo que utiliza el modelo Bi-GRU, una variante de RNN, predice exámenes futuros del campo visual significativamente mejor que los modelos puntuales LR y LSTM. El modelo Bi-GRU se ve menos afectado por los índices de confiabilidad de los datos de entrada del campo visual. Este modelo puede facilitar la toma de decisiones al predecir con precisión futuros exámenes del campo visual en la práctica clínica, particularmente para pacientes que experimentan dificultades con exámenes repetidos.

Los datos generados o analizados durante este estudio están disponibles del autor correspondiente (JRP) previa solicitud razonable.

Resnikoff, S. y col. Datos globales sobre discapacidad visual en el año 2002. Bol. Organización Mundial de la Salud 9 (2004).

Weinreb, RN, Aung, T. & Medeiros, FA La fisiopatología y el tratamiento del glaucoma: una revisión. JAMA 311, 1901 (2014).

Artículo PubMed PubMed Central Google Scholar

Henson, DB, Chaudry, S., Artes, PH, Faragher, EB y Ansons, A. Variabilidad de la respuesta en el campo visual: comparación de neuritis óptica, glaucoma, hipertensión ocular y ojos normales. 41, 5 (2000).

Wang, M. y col. Un enfoque de inteligencia artificial para detectar la progresión del campo visual en el glaucoma basado en el análisis de patrones espaciales. Invertir. Oftalmol. Vis. Ciencia. 60, 365 (2019).

Artículo PubMed PubMed Central Google Scholar

Murata, H., Araie, M. y Asaoka, R. Un nuevo enfoque para medir la progresión del campo visual en pacientes con glaucoma mediante regresión lineal variacional de Bayes. Invertir. Oftalmol. Vis. Ciencia. 55, 8386–8392 (2014).

Artículo PubMed Google Scholar

Wen, JC y cols. Previsión de los futuros campos visuales de Humphrey mediante el aprendizaje profundo. MÁS UNO 14, e0214875 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Berchuck, SI, Mukherjee, S. & Medeiros, FA Estimación de tasas de progresión y predicción de campos visuales futuros en glaucoma utilizando un codificador automático variacional profundo. Representante científico 9, 18113 (2019).

Artículo CAS PubMed PubMed Central ADS Google Scholar

Salehinejad, H., Sankar, S., Barfett, J., Colak, E., Valaee, S. Avances recientes en redes neuronales recurrentes. 21.

Liu, S., Yang, N., Li, M. y Zhou, M. Una red neuronal recursiva recurrente para traducción automática estadística. En Actas de la 52ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Artículos extensos) 1491–1500 (Asociación de Lingüística Computacional, 2014). https://doi.org/10.3115/v1/P14-1140.

Young, T., Hazarika, D., Poria, S. y Cambria, E. Tendencias recientes en el procesamiento del lenguaje natural basado en el aprendizaje profundo. Computación IEEE. Intel. revista 13, 55–75 (2018).

Artículo de Google Scholar

Hochreiter, S. y Schmidhuber, J. Memoria larga y a corto plazo. Computación neuronal. 9, 1735-1780 (1997).

Artículo CAS PubMed Google Scholar

Chung, J., Gulcehre, C., Cho, K. y Bengio, Y. Evaluación empírica de redes neuronales recurrentes cerradas en modelado de secuencias. (2014) https://doi.org/10.48550/ARXIV.1412.3555.

Park, K., Kim, J. y Lee, J. Predicción del campo visual utilizando una red neuronal recurrente. Representante científico 9, 8385 (2019).

Artículo PubMed PubMed Central ADS Google Scholar

Dixit, A., Yohannan, J. & Boland, MV Evaluación de la progresión del glaucoma mediante aprendizaje automático entrenado en el campo visual longitudinal y datos clínicos. Oftalmología 128, 1016–1026 (2021).

Artículo PubMed Google Scholar

Lynn, HM, Pan, SB y Kim, P. Un modelo de red gru bidireccional profunda para la clasificación de electrocardiogramas biométricos basado en redes neuronales recurrentes. Acceso IEEE 7, 145395–145405 (2019).

Artículo de Google Scholar

Cho, K. y col. Aprendizaje de representaciones de frases utilizando codificador-decodificador RNN para traducción automática estadística. En Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP) 1724-1734 (Asociación de Lingüística Computacional, 2014). https://doi.org/10.3115/v1/D14-1179.

Khandelwal, S., Lecouteux, B. y Besacier, L. Comparación de GRU y LSTM para el reconocimiento automático de voz. 7.

Li, X. y col. Método de pronóstico de producción de series temporales basado en la integración de la red de Unidad Recurrente Cerrada Bidireccional (Bi-GRU) y el Algoritmo de Búsqueda de Gorriones (SSA). J. Gasolina. Ciencia. Ing. 208, 109309 (2022).

Artículo CAS Google Scholar

Darmawahyuni, A., Nurmaini, S., Rachmatullah, MN, Firdaus, F. y Tutuko, B. Redes recurrentes unidireccionales-bidireccionales para la clasificación de trastornos cardíacos. TELKOMNIKA 19, 902 (2021).

Artículo de Google Scholar

Schuster, M. & Paliwal, KK Redes neuronales recurrentes bidireccionales. Traducción IEEE. Proceso de señal. 45, 2673–2681 (1997).

ADS del artículo Google Scholar

Pascanu, R., Gulcehre, C., Cho, K. y Bengio, Y. Cómo construir redes neuronales recurrentes profundas. (2013). https://doi.org/10.48550/ARXIV.1312.6026.

Garway-Heath, DF, Poinoosawmy, D., Fitzke, FW y Hitchings, RA Mapeo del campo visual al disco óptico en ojos con glaucoma de tensión normal. 107, 7 (2000).

Asaoka, R., Murata, H., Iwase, A. y Araie, M. Detección de glaucoma preperimétrico con perimetría automatizada estándar utilizando un clasificador de aprendizaje profundo. Oftalmología 123, 1974-1980 (2016).

Artículo PubMed Google Scholar

Elze, T. y col. Patrones de pérdida funcional de la visión en el glaucoma determinados con análisis arquetípico. JR Soc. Interfaz. 12, 20141118 (2015).

Artículo PubMed PubMed Central Google Scholar

Cai, S. y col. Correlatos clínicos de arquetipos de defectos del campo visual derivados computacionalmente en pacientes de una clínica de glaucoma. actual. Res. ocular. 42, 568–574 (2017).

Artículo PubMed Google Scholar

Yousefi, S. et al. Detección de la progresión longitudinal del campo visual en el glaucoma mediante aprendizaje automático. Soy. J. Oftalmol. 193, 71–79 (2018).

Artículo PubMed Google Scholar

Bengio, Y., Simard, P. y Frasconi, P. Es difícil aprender dependencias a largo plazo con descenso de gradiente. Traducción IEEE. Red neuronal. 5, 157-166 (1994).

Artículo CAS PubMed Google Scholar

Johnson, CA y Nelson-Quigg, JM Un estudio prospectivo de tres años de duración sobre las propiedades de respuesta de sujetos normales y pacientes durante la perimetría automatizada. Oftalmología 100, 269–274 (1993).

Artículo CAS PubMed Google Scholar

Katz, J., Sommer, A. y Witt, K. Fiabilidad de los resultados del campo visual en pruebas repetidas. Oftalmología 98, 70–75 (1991).

Artículo CAS PubMed Google Scholar

Murata, H. y col. Identificar áreas del campo visual importantes para la calidad de vida en pacientes con glaucoma. MÁS UNO 8, e58695 (2013).

Artículo CAS PubMed PubMed Central ADS Google Scholar

Abe, RY et al. El impacto de la ubicación de la pérdida progresiva del campo visual en los cambios longitudinales en la calidad de vida de los pacientes con glaucoma. Oftalmología 123, 552–557 (2016).

Artículo PubMed Google Scholar

Rao, HL y cols. Papel de los índices de confiabilidad del campo visual para descartar el glaucoma. JAMA Oftalmol 133, 40 (2015).

Artículo PubMed Google Scholar

Raman, P., Khy Ching, Y., Sivagurunathan, PD, Ramli, N. y Mohd. Khalid, KH La asociación entre los índices de confiabilidad del campo visual y el deterioro cognitivo en pacientes con glaucoma. J. Glaucoma 28, 685–690 (2019).

Casas-Llera, P. et al. Tasa de índice de campo visual y análisis de progresión del glaucoma basado en eventos: comparación en una población con glaucoma. Hno. J. Oftalmol. 93, 1576-1579 (2009).

Artículo CAS PubMed Google Scholar

Crabb, DP, Fitzke, FW, McNaught, AI, Edgar, DF y Hitchings, RA Mejora de la predicción de la progresión del campo visual en el glaucoma mediante procesamiento espacial. Oftalmología 104, 517–524 (1997).

Artículo CAS PubMed Google Scholar

Bengtsson, B. Predicción de la pérdida del campo visual glaucomatosa mediante extrapolación de tendencias lineales. Arco Oftalmol 127, 1610 (2009).

Artículo PubMed Google Scholar

Nouri-Mahdavi, K. Comparación de métodos para predecir la progresión del campo visual en el glaucoma. Arco Oftalmol 125, 1176 (2007).

Artículo PubMed Google Scholar

Terminología y directrices para el glaucoma de la Sociedad Europea de Glaucoma, quinta edición. Hno. J. Oftalmol. 105, 1–169 (2021).

Prum, BE et al. Pautas del patrón de práctica preferido® para el glaucoma primario de ángulo abierto. Oftalmología 123, P41 – P111 (2016).

Artículo PubMed Google Scholar

Descargar referencias

Esta investigación fue apoyada por subvenciones de Medical Big Data; Detección temprana de disfunciones visuales basada en inteligencia artificial, financiada por Busan y gestionada por Busan Techno Park; Centro Coordinador de Investigación Clínica Centrado en el Paciente, financiado por el Ministerio de Salud y Bienestar de la República de Corea (Subvenciones Nos.: HI19C0481 y HC19C0276); y la Fundación Nacional de Investigación (NRF) de Corea, financiada por el gobierno coreano (Subvenciones Nos.: NRF-2021R1I1A1A01057767, NRF-2021R1A2B5B03087097, NRF-2017R1A5A1015722 y NRF-2022R1A5A1033624). Agradecemos a Textcheck (textcheck.com) por la edición en inglés.

Estos autores contribuyeron igualmente: Hwayeong Kim y Jiwoong Lee

Departamento de Oftalmología, Facultad de Medicina de la Universidad Nacional de Pusan, Busan, Corea

Hwayeong Kim, Jiwoong Lee y Sangwoo Moon

Instituto de Investigación Biomédica, Hospital Universitario Nacional de Pusan, Busan, Corea

Jiwoong Lee

Departamento de Matemáticas, Universidad Nacional de Pusan, Busan, República de Corea

Sangil Kim, Taehyeong Kim y Yuanmeng Hu

Departamento de Oftalmología, Facultad de Medicina de la Universidad Dong-A, Busan, Corea

Sang Wook Jin

Departamento de Oftalmología, Hospital Paik de Busan, Facultad de Medicina de la Universidad Inje, Busan, Corea

Jung Lim Kim

Departamento de Oftalmología, Hospital Yangsan de la Universidad Nacional de Pusan, Facultad de Medicina de la Universidad Nacional de Pusan, Yangsan, Corea

Jonghoon Shin

Departamento de Oftalmología, Facultad de Medicina de la Universidad de Kosin, Busan, Corea

Seung Uk Lee

Centro de Dinámica No Lineal y Aplicaciones Matemáticas, Universidad Nacional Kyungpook, Daegu, Corea

Geunsoo Jang

Departamento de Matemáticas, Universidad Nacional Kyungpook, 80, Daehak-ro, Buk-gu, Daegu, 41566, República de Corea

Parque Jeong Rye

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

JRP construyó la arquitectura de inteligencia artificial, analizó los datos y escribió el manuscrito. HYK y JWL también analizaron los datos y escribieron el manuscrito. THK y YU construyeron la arquitectura de inteligencia artificial y escribieron el manuscrito. SIK y GSJ analizaron los datos. SWJ, JLK, JHS, SUL y SWM recopilaron los datos. Todos los autores discutieron los resultados y comentaron el manuscrito.

Correspondencia al parque Jeong Rye.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Kim, H., Lee, J., Moon, S. et al. Predicción del campo visual utilizando un modelo de red de unidades recurrentes cerradas bidireccional profunda. Representante científico 13, 11154 (2023). https://doi.org/10.1038/s41598-023-37360-1

Descargar cita

Recibido: 15 de julio de 2022

Aceptado: 20 de junio de 2023

Publicado: 10 de julio de 2023

DOI: https://doi.org/10.1038/s41598-023-37360-1

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.