banner
Hogar / Blog / Codificación neuronal con red neuronal convolucional de picos no supervisados
Blog

Codificación neuronal con red neuronal convolucional de picos no supervisados

Dec 10, 2023Dec 10, 2023

Biología de las comunicaciones volumen 6, número de artículo: 880 (2023) Citar este artículo

2 altmétrico

Detalles de métricas

Predecir con precisión las respuestas del cerebro a diversos estímulos plantea un desafío importante en la neurociencia. A pesar de los recientes avances en la codificación neuronal mediante el uso de redes neuronales convolucionales (CNN) en estudios de resonancia magnética funcional, siguen existiendo brechas críticas entre las reglas computacionales de las neuronas artificiales tradicionales y las neuronas biológicas reales. Para abordar este problema, en este estudio se presenta un marco basado en CNN (SCNN) para lograr la codificación neuronal de una manera más biológicamente plausible. El marco utiliza SCNN no supervisado para extraer características visuales de estímulos de imágenes y emplea un algoritmo de regresión basado en campos receptivos para predecir respuestas de fMRI a partir de las características de SCNN. Los resultados experimentales con caracteres escritos a mano, dígitos escritos a mano e imágenes naturales demuestran que el enfoque propuesto puede lograr un rendimiento de codificación notablemente bueno y puede utilizarse para tareas de "lectura del cerebro", como la reconstrucción e identificación de imágenes. Este trabajo sugiere que SNN puede servir como una herramienta prometedora para la codificación neuronal.

El objetivo de la codificación neuronal es predecir la respuesta del cerebro a estímulos externos, proporcionando un medio eficaz para explorar el mecanismo del cerebro para procesar información sensorial y sirviendo como base para los sistemas de interfaz cerebro-computadora (BCI). La percepción visual, al ser una de las principales formas en que recibimos información externa, ha sido un foco importante de investigación sobre codificación neuronal. Con el avance de las técnicas de imágenes cerebrales no invasivas, como la resonancia magnética funcional (fMRI), los científicos han logrado avances notables en la codificación neuronal basada en la visión1,2,3,4 durante las últimas dos décadas, lo que lo convierte en un tema candente en neurociencia.

El proceso de codificación basada en visión normalmente implica dos pasos principales: extracción de características y predicción de respuestas5. La extracción de características tiene como objetivo producir características visuales de los estímulos estimulando la corteza visual. Un extractor de características preciso que se aproxime a los mecanismos visuales reales es crucial para una codificación exitosa. La predicción de la respuesta tiene como objetivo predecir las respuestas de la resonancia magnética funcional en función de los vóxeles en función de las características visuales extraídas. La regresión lineal6 se utiliza comúnmente para este paso, ya que la relación entre las características y las respuestas debe ser lo más simple posible. Estudios anteriores han demostrado que la corteza visual temprana procesa la información de manera similar a las ondas de Gabor7,8,9. A partir de este hallazgo, se han propuesto y aplicado con éxito modelos de codificación basados ​​en filtros de Gabor en tareas como la identificación de imágenes y la reconstrucción de películas1,3. En los últimos años, las redes neuronales convolucionales (CNN) han atraído una atención significativa debido a sus impresionantes logros en el campo de la visión por computadora. Varios estudios10,11 han utilizado análisis de similitud representacional12 para comparar los patrones de disimilitud de las representaciones de CNN y fMRI, revelando que la corteza visual humana comparte representaciones jerárquicas similares a las de CNN. Como resultado, los modelos de codificación basados ​​en CNN se han utilizado ampliamente y han demostrado un rendimiento excelente2,4,13,14. Sin embargo, es importante señalar que a pesar del éxito de las CNN en aplicaciones de codificación, no se pueden pasar por alto las diferencias entre las CNN y el cerebro en el procesamiento de información visual15.

En términos de mecanismos computacionales, existe una distinción fundamental entre las neuronas artificiales en las CNN y las neuronas biológicas, donde las primeras propagan valores digitales continuos, mientras que las segundas propagan potenciales de acción (picos). La introducción de redes neuronales de picos (SNN), consideradas la tercera generación de redes neuronales16, ha reducido significativamente esta diferencia. A diferencia de las redes neuronales artificiales (ANN) tradicionales, las SNN transmiten información mediante tiempos de pico. En los SNN, cada neurona integra picos de la capa anterior y emite picos a la siguiente capa cuando su voltaje interno supera el umbral. El algoritmo de plasticidad dependiente del tiempo de pico (STDP)17,18, que es un método no supervisado para la actualización del peso y se ha descubierto en la corteza visual de los mamíferos19,20,21, es el algoritmo de aprendizaje más utilizado para los SNN. Estudios recientes han aplicado SNN basados ​​en STDP al reconocimiento de objetos y han logrado un rendimiento considerable22,23,24. La plausibilidad biológica de los SNN les proporciona una ventaja en la codificación neuronal.

En este artículo, se propuso un marco de codificación basado en una red neuronal convolucional (SCNN) para cerrar la brecha entre las CNN y el sistema visual realista. El procedimiento de codificación comprendió tres pasos. En primer lugar, se entrenó un SCNN utilizando el algoritmo STDP para extraer las características visuales de las imágenes. En segundo lugar, las coordenadas del campo receptivo de cada vóxel en los mapas de características SNN se anotaron en función de las propiedades topológicas de la retina de la corteza visual, donde cada vóxel recibe información visual desde una sola ubicación fija del mapa de características. En tercer lugar, se construyeron modelos de regresión lineal para cada vóxel para predecir sus respuestas a partir de las características SNN correspondientes. El marco se evaluó utilizando cuatro conjuntos de datos de imágenes de resonancia magnética funcional disponibles públicamente, incluidos conjuntos de datos de caracteres escritos a mano25, dígitos escritos a mano26, imágenes naturales en escala de grises1 y conjuntos de datos de imágenes naturales coloridas27. Además, se realizaron dos tareas de decodificación posteriores, a saber, reconstrucción de imágenes e identificación de imágenes, basadas en los modelos de codificación. Se comparó el rendimiento de codificación y decodificación del método propuesto con el de métodos anteriores.

Construimos modelos de codificación basados ​​​​en SCNN (ver Fig. 1a) en cuatro conjuntos de datos de imágenes de resonancia magnética funcional y realizamos tareas de reconstrucción e identificación de imágenes basadas en los modelos de codificación previamente entrenados (ver Fig. 1b, c). La Tabla 1 proporciona la información básica sobre estos conjuntos de datos y los detalles se pueden encontrar en Métodos. Para predecir las respuestas de resonancia magnética funcional provocadas por caracteres escritos a mano, primero se construyó el SCNN utilizando las imágenes del conjunto de datos TICH (con la exclusión de imágenes en el conjunto de prueba y la inclusión de 14,854 imágenes para los 6 caracteres). Esto se hizo para maximizar la capacidad de representación de la SCNN. Posteriormente, se entrenaron modelos de regresión lineal voxel con los datos de fMRI en el conjunto de trenes para cada participante. El rendimiento de la codificación se midió utilizando los coeficientes de correlación de Pearson (PCC) entre las respuestas previstas y medidas a las imágenes del conjunto de prueba. Además, el modelo propuesto se comparó con un modelo de codificación basado en CNN, donde la arquitectura de red de CNN estaba restringida para ser consistente con la de SCNN (Tabla complementaria 1). La CNN se entrenó utilizando el optimizador Adam28 con una tasa de aprendizaje de 0,0001 durante 50 épocas en el conjunto de datos TICH, logrando una precisión de clasificación del 99 % en las imágenes del conjunto de prueba. Los procedimientos de codificación posteriores para CNN fueron idénticos a los de SCNN. Para eliminar la influencia de los vóxeles de ruido (no relacionados con la tarea visual) en el resultado, se seleccionaron para comparar 500 vóxeles con el rendimiento de codificación más alto para cada sujeto. La Figura 2a muestra las precisiones de predicción para los modelos de codificación basados ​​en SCNN y CNN. Los resultados indican que las precisiones de SCNN en los tres sujetos fueron significativamente mayores que las de CNN (p < \({10}^{-18}\), prueba t de dos muestras y una cola). Este hallazgo sugiere que SCNN tiene mayor potencial que CNN para tareas de codificación.

a La ilustración del modelo de codificación. El modelo propuesto utiliza un SCNN de dos capas para extraer características visuales de las imágenes de entrada y utiliza modelos de regresión lineal para predecir las respuestas de fMRI para cada vóxel. b El diagrama de la tarea de reconstrucción de imágenes, cuyo objetivo es reconstruir las imágenes percibidas a partir de la actividad cerebral. Las imágenes de personajes escritas a mano están adaptadas del conjunto de datos de personajes TICH47 con autorización. c El diagrama de la tarea de identificación de imágenes, cuyo objetivo es identificar qué imagen se percibe en función de las respuestas de la resonancia magnética funcional. Las imágenes naturales en escala de grises se reproducen con permiso de Kay et al.1.

a Las precisiones de codificación (n = 500) de diferentes temas en el conjunto de datos de caracteres escritos a mano. b Las intensidades medias de estímulo en el conjunto de trenes del conjunto de datos de caracteres escritos a mano. c Las ubicaciones de los campos receptivos de los 100 vóxeles más predecibles del conjunto de datos de caracteres escritos a mano. Una transparencia más pequeña representa una mayor cantidad de vóxeles. d Las precisiones de codificación (n = 500) del conjunto de datos de dígitos escritos a mano. e Las precisiones de codificación (n = 200) de diferentes áreas visuales en el conjunto de datos de imágenes naturales en escala de grises. f Las precisiones de codificación (n = 500) y los techos de ruido (media ± desviación estándar) de diferentes sujetos en el conjunto de datos de imágenes naturales coloridas. Los gráficos de barras representan la media ± SEM (error estándar de la media) de las precisiones de codificación, y * representa p < \({10}^{-12}\) para una prueba t de dos muestras de una cola.

El grado de implicación de un vóxel en la tarea visual es un factor determinante en su previsibilidad. Específicamente, si un vóxel recibe una cantidad sustancial de información de estímulo, sus actividades de resonancia magnética funcional serán más predecibles y viceversa. Para validar esta hipótesis, visualizamos las distribuciones de intensidades de estímulo y campos receptivos de vóxeles. Al anotar el campo receptivo para cada vóxel mediante una triple validación cruzada en los datos del conjunto de trenes, se seleccionaron para el análisis los 100 vóxeles superiores con el \({R}^{2}\) más alto de cada participante. Las intensidades medias de estímulo del conjunto de trenes y los campos receptivos de los vóxeles seleccionados se muestran en la Fig. 2b, c. Se encontró que sus patrones de distribución espacial, que seguían aproximadamente distribuciones gaussianas a lo largo del eje x y distribuciones uniformes a lo largo del eje y, eran bastante similares. Esto sugiere que los campos receptivos de estos vóxeles informativos tendían a ubicarse en áreas con mayor intensidad de estímulo. Este hallazgo proporciona evidencia adicional de la eficacia del algoritmo de selección de características basado en campos receptivos empleado en este estudio.

Para verificar el rendimiento de codificación del enfoque propuesto en estímulos de dígitos escritos a mano, entrenamos el SCNN utilizando 2000 imágenes anteriores que no se utilizaron en el experimento de resonancia magnética funcional. Luego se construyeron modelos de codificación de vóxeles en el conjunto de trenes de este conjunto de datos. De manera similar, se construyeron modelos de codificación basados ​​en CNN en el conjunto de datos de dígitos escritos a mano y se seleccionaron para comparar los 500 vóxeles principales con el mayor rendimiento de codificación. Los resultados de codificación se presentan en la Fig. 2d, y los resultados indican que las precisiones de codificación de SCNN fueron significativamente mayores que las de CNN (\({{{{{\rm{p}}}}}}=6.78\times { 10}^{-18}\), prueba t de dos muestras de una cola).

En comparación con los caracteres escritos a mano y las imágenes digitales, las imágenes naturales son más complejas y se parecen mucho a nuestras experiencias visuales cotidianas. Para evaluar la viabilidad del enfoque propuesto para codificar estímulos de imágenes naturales, entrenamos y probamos el modelo de codificación en conjuntos de datos de imágenes naturales coloridas y en escala de grises. Los SCNN utilizados para la codificación se entrenaron en las imágenes del conjunto de trenes de estos conjuntos de datos.

Para el conjunto de datos de imágenes naturales en escala de grises, la utilización de modelos de codificación basados ​​en CNN optimizados para tareas no es factible debido a la ausencia de etiquetas de categorías en los estímulos visuales. Se realizó una comparación entre nuestro enfoque y el modelo de pirámide wavelet de Gabor (GWP) propuesto por Kay et al.1, así como la CNN (GNet) optimizada para el cerebro13,29. En lugar de clasificar las imágenes de entrada, la CNN en GNet fue entrenada para predecir las respuestas de la resonancia magnética funcional de un extremo a otro. La arquitectura de GNet se puede encontrar en la Tabla complementaria 2. De forma independiente, entrenamos GNet para cada área visual en cada tema (se entrenaron un total de 6 modelos). Se realizó un análisis a nivel de regiones de interés (ROI) en este conjunto de datos y, para cada área visual, se seleccionaron para comparar 200 vóxeles con el rendimiento de codificación más alto (100 para cada sujeto). Los resultados de la codificación se presentan en la Fig. 2e. Se observó que las precisiones de codificación de V3 eran inferiores a las de V1 y V2, lo que puede atribuirse a su menor relación señal-ruido1. Se observaron diferencias significativas entre las precisiones de SCNN y GWP (p < \({10}^{-24}\), prueba t de dos muestras de una cola) para todas las áreas visuales, sin diferencias significativas entre SCNN y GNet (p > 0,12, prueba t de dos muestras y dos colas) para V2 y V3. Para el conjunto de datos de imágenes naturales coloridas, comparamos el rendimiento de codificación de SCNN con CNN y GWP y seleccionamos 500 vóxeles con el rendimiento de codificación más alto para cada sujeto para comparar. Como se muestra en la Fig. 2f, las precisiones de SCNN fueron significativamente más altas que las de CNN (p <\({10}^{-36}\), prueba t de dos muestras de una cola) para todos los sujetos. Además, SCNN demostró resultados comparables a GNet para el sujeto1 (SCNN mayor que GNet, \({{{{{\rm{p}}}}}}=1,58\times {10}^{-19}\), uno- prueba t de dos muestras de cola) y sujeto4 (sin diferencia significativa, p = 0,725, prueba t de dos muestras de dos colas).

En general, los resultados de codificación de los conjuntos de datos de imágenes naturales sugieren que el modelo de codificación basado en SCNN no supervisado supera a los modelos tradicionales basados ​​en GWP y CNN e incluso puede lograr un rendimiento comparable con redes neuronales optimizadas con la respuesta cerebral como objetivo.

La tarea de reconstrucción de imágenes tiene como objetivo reconstruir las imágenes percibidas por el participante a partir de las respuestas de la resonancia magnética funcional. Basándonos en los modelos de codificación previamente entrenados, realizamos esta tarea en caracteres escritos a mano, dígitos escritos a mano y conjuntos de datos de imágenes naturales coloridas. El conjunto de imágenes anterior para el conjunto de datos de caracteres escritos a mano constaba de imágenes de seis caracteres en el conjunto de datos TICH (excluidas las imágenes del conjunto de prueba). Para el conjunto de datos de dígitos escritos a mano, el conjunto de imágenes anterior comprendía 2000 imágenes 6 y 9 escritas a mano anteriores. Las imágenes del conjunto de validación de ImageNet se utilizaron como conjunto de imágenes anterior para el conjunto de datos de imágenes naturales coloridas. Es de destacar que para esta tarea sólo se utilizaron 200 vóxeles seleccionados de los datos del conjunto de trenes. Para reconstruir cada imagen en el conjunto de prueba, se promediaron las 15 imágenes principales del conjunto de imágenes anterior con la mayor probabilidad de respuestas observadas, lo que resultó en la imagen reconstruida.

Los resultados de la reconstrucción del conjunto de datos de caracteres escritos a mano demostraron que nuestras reconstrucciones pueden distinguir efectivamente diferentes caracteres y pueden reconstruir imágenes que pertenecen al mismo personaje con diferentes estilos de escritura (ver Fig. 3a, b). De manera similar, nuestro enfoque arrojó resultados de reconstrucción prometedores en el conjunto de datos de dígitos escritos a mano (ver Fig. 3c). Los resultados de la reconstrucción del conjunto de datos de imágenes naturales coloridas se presentan en la Fig. 3d. Aunque nuestro modelo solo puede manejar imágenes en escala de grises, lo que resultó en la pérdida de información de color en los resultados de la reconstrucción, las reconstrucciones retuvieron la información estructural, como la forma y la posición, de los estímulos originales. Además, observamos que las imágenes anteriores con mayor probabilidad exhibían altas similitudes estructurales con los estímulos reales (ver Fig. 3e). Los resultados de la reconstrucción se evaluaron cuantitativamente utilizando PCC y el índice de similitud estructural (SSIM)30 y se compararon con otros métodos de referencia, incluidos CNN, GNet, SMLR31, DCCAE32, DGMM+33 y Denoiser GAN34. Como se presenta en la Tabla 2, nuestro enfoque logró un rendimiento competitivo o superior en comparación con estos métodos.

a Las reconstrucciones de diferentes caracteres manuscritos (B, R, A, I, N y S). Las imágenes de la primera fila son las imágenes presentadas (verdad sobre el terreno) y las imágenes de la segunda a la cuarta fila son los resultados de la reconstrucción de los 3 sujetos. b Las reconstrucciones de un mismo personaje con diferentes estilos de escritura. c Las reconstrucciones de dígitos escritos a mano. Las imágenes de dígitos escritos a mano están adaptadas de la base de datos MNIST (http://yann.lecun.com/exdb/mnist/) con permiso. d Las reconstrucciones de imágenes naturales. e Ejemplos de imágenes anteriores con mayor probabilidad de conjuntos de datos de imágenes naturales coloridas. Las coloridas imágenes naturales en d y e están adaptadas de la base de datos ImageNet52 con autorización.

La tarea de identificación de imágenes tiene como objetivo identificar la imagen vista por el participante a partir de las respuestas de fMRI, y esta tarea se realizó en el conjunto de datos de imágenes naturales en escala de grises. El modelo de codificación se utilizó para generar respuestas de resonancia magnética funcional previstas para todas las imágenes del conjunto de prueba. Las imágenes percibidas por los participantes se identificaron haciendo coincidir las respuestas medidas con las respuestas previstas. Según un estudio anterior1, para esta tarea se emplearon 500 vóxeles con el mayor poder predictivo. Nuestro enfoque logró precisiones de identificación del 96,67 % (116/120) y 90,83 % (109/120) para los dos participantes, respectivamente, que fueron superiores a las del modelo GWP (92 % y 72 %) y GNet (90 % y 73,33%). Los mapas de correlación entre las respuestas medidas y predichas para los dos participantes se presentan en la Fig. 4. Para la mayoría de las filas en los mapas de correlación, los elementos en la diagonal fueron significativamente más grandes que los demás, lo que indica que nuestro enfoque exhibió una excelente capacidad de identificación.

Los mapas de correlación de las respuestas de fMRI medidas y previstas para probar imágenes del conjunto para los dos participantes. El elemento en la columna \({m}_{{th}}\) y la fila \({n}_{{th}}\) representa la correlación entre la respuesta medida por fMRI para \({m}_{ {th}}\) imagen y la respuesta de resonancia magnética funcional predicha para la imagen \({n}_{{th}}\).

La selección de hiperparámetros afecta directamente el rendimiento de las tareas de decodificación posteriores. Para evaluar el impacto de los hiperparámetros en la tarea de reconstrucción de imágenes, investigamos el rendimiento de la reconstrucción con dos hiperparámetros: el número de vóxeles seleccionados y el número de imágenes promediadas. Específicamente, examinamos el rendimiento de la reconstrucción utilizando 50, 100, 200 y 500 vóxeles y 1, 5, 10, 15, 20, 25 y 30 imágenes en el conjunto de datos de caracteres escritos a mano. Como se ilustra en la Fig. 5a, el índice PCC aumentó con el número de imágenes y alcanzó su máximo en el número de vóxeles de 200. Por el contrario, el índice SSIM disminuyó con el aumento en el número de imágenes y alcanzó su máximo en el número de vóxeles de 200. 200 y 500. Un mayor número de vóxeles contenía más información de estímulo pero también introducía más ruido. De manera similar, una mayor cantidad de imágenes hizo que la reconstrucción fuera más realista pero también la desdibujó. Para evaluar el impacto de los hiperparámetros en la tarea de identificación de imágenes, investigamos las precisiones de identificación con 100, 500, 1000 y 2000 vóxeles. Como se muestra en la Fig. 5b, nuestro enfoque logró las precisiones más altas cuando se utilizaron 500 vóxeles.

a El rendimiento de reconstrucción (PCC y SSIM) de diferentes hiperparámetros (número de vóxeles seleccionados y número de imágenes promediadas) en el conjunto de datos de caracteres escritos a mano, los puntos representan valores medios y las barras de error representan intervalos de confianza del 95%. b Las precisiones de identificación con diferentes números de vóxeles para los dos sujetos en el conjunto de datos de imágenes naturales en escala de grises.

En el modelo de codificación propuesto, se utilizó SCNN no supervisado para extraer características de los estímulos visuales, y el proceso de entrenamiento de SCNN estuvo influenciado por sus valores iniciales. Para investigar el impacto de los valores iniciales en el rendimiento de la codificación, entrenamos otro SCNN con diferentes valores iniciales en el conjunto de datos de imágenes naturales en escala de grises y comparamos su rendimiento de codificación con el original. Para cada sujeto, se seleccionaron para comparar los 500 vóxeles principales con el rendimiento de codificación más alto y no se observaron diferencias significativas entre los dos resultados de codificación (sujeto1: p = 0,1, sujeto2: p = 0,47, t-2 de dos colas y dos muestras). prueba).

En este trabajo, se propuso un modelo de codificación de percepción visual basado en SCNN, que comprende el extractor de características SCNN y predictores de respuesta de vóxel. A diferencia de los métodos convencionales basados ​​en Gabor y CNN que emplean computación de valor real, el modelo propuesto utilizó SCNN impulsado por picos para procesar información visual de una manera biológicamente más plausible. El modelo demostró un éxito notable en la predicción de la actividad cerebral evocada por caracteres escritos a mano, dígitos escritos a mano e imágenes naturales, utilizando un SCNN simple de dos capas no supervisado y cuatro conjuntos de datos disponibles públicamente como banco de pruebas. Además, se obtuvieron resultados prometedores en tareas de identificación y reconstrucción de imágenes utilizando nuestros modelos de codificación, lo que sugiere el potencial del modelo para abordar problemas prácticos de lectura del cerebro.

La codificación neuronal puede unir los modelos de inteligencia artificial y el cerebro humano. Al establecer un mapeo lineal desde las características del modelo hasta la actividad cerebral, se puede evaluar cuantitativamente la similitud del procesamiento de información entre el modelo y el cerebro. Por lo tanto, es razonable suponer que es más probable que un modelo con alta plausibilidad biológica logre un rendimiento de codificación superior. A la luz de esto, desarrollamos un modelo de codificación basado en SCNN para predecir las respuestas cerebrales provocadas por diversas entradas visuales. La arquitectura SCNN combina la estructura de red de CNN, que ha demostrado ser efectiva para la codificación neuronal2,4,13,14, con las reglas computacionales de SNN que son biológicamente más realistas. Para extraer características visuales significativas, empleamos una SCNN que consta de una capa DoG y una capa convolucional, que simulan el procesamiento de información en la retina y la corteza visual, respectivamente. Nuestro modelo superó a otros métodos de referencia (modelos de codificación basados ​​en Gabor y CNN) en términos de rendimiento de codificación en datos experimentales, destacando la superioridad de SCNN en la codificación de percepción visual.

A pesar de su plausibilidad biológica, SCNN simula el procesamiento de información a nivel de neuronas individuales, mientras que la fMRI mide la actividad cerebral a gran escala, donde la señal de cada vóxel representa la actividad conjunta de una gran cantidad de neuronas. Por lo tanto, los modelos de regresión son cruciales para la codificación a nivel de vóxeles, ya que asignan las activaciones de múltiples neuronas SCNN a las respuestas de vóxeles individuales. Estudios anteriores han demostrado las propiedades del campo receptivo de la población neuronal35,36 de los datos de fMRI, lo que indica que cada vóxel en la corteza visual (especialmente en V1-3) ​​solo recibe información visual de un rango fijo del campo visual. Con base en esta teoría, empleamos un algoritmo de selección de características que coincidía con la ubicación del campo receptivo para cada vóxel, lo que era más consistente con el mecanismo visual real y reducía el riesgo de sobreajuste.

La cuestión de si el cerebro funciona en condiciones supervisadas o no supervisadas ha sido un tema de debate. En lugar de utilizar CNN supervisadas, empleamos una SCNN no supervisada entrenada mediante STDP en nuestro modelo. Los hallazgos de este estudio sugieren que las áreas visuales tempranas de la corteza visual son más propensas a adquirir representaciones visuales sin supervisión. Además, el SCNN basado en STDP ofrece varias ventajas en términos de codificación neuronal. En primer lugar, es biológicamente plausible debido a la naturaleza bioinspirada del STDP como regla de aprendizaje. En segundo lugar, es capaz de manejar datos tanto etiquetados como no etiquetados. Por último, es particularmente adecuado para conjuntos de datos de muestras pequeñas, como los obtenidos mediante resonancia magnética funcional.

La realización de tareas de decodificación neuronal sirve como base para numerosas aplicaciones de lectura cerebral, como BCI37. Existen dos tipos de modelos de decodificación: los derivados de modelos de codificación y los construidos directamente de un extremo a otro. El primero ofrece descripciones funcionales a nivel de vóxel mientras completa tareas de decodificación5. Sin embargo, los avances recientes en la decodificación se han logrado principalmente utilizando estos últimos modelos33,38,39. En este estudio, completamos con éxito tareas de decodificación posteriores, incluida la reconstrucción e identificación de imágenes, basadas en el modelo de codificación. Los resultados demuestran que nuestro enfoque superó a otros modelos de un extremo a otro en ambas tareas de decodificación. Este hallazgo confirma aún más la efectividad de nuestro modelo de codificación y sugiere que los enfoques basados ​​en codificación tienen un potencial significativo para resolver tareas de decodificación.

A pesar de los avances realizados en la codificación neuronal mediante SCNN, siguen existiendo varias limitaciones. En primer lugar, las arquitecturas de las SNN suelen ser menos profundas que las de las redes de aprendizaje profundo, lo que restringe su capacidad para extraer características visuales complejas y jerárquicas. Estudios recientes han intentado abordar esta cuestión y han logrado algunos avances23,24,40. La incorporación de un SCNN más profundo en nuestro modelo mejoraría aún más el rendimiento de la codificación y permitiría la investigación de la estructura jerárquica de la corteza visual. En segundo lugar, la neurona Integrar y Disparar utilizada en nuestro estudio es una simplificación de las neuronas biológicas. El uso de neuronas más realistas, como las neuronas con fugas Integrate-and-Fire y Hodgkin-Huxley41, mejoraría aún más la plausibilidad biológica de nuestro modelo de codificación. En tercer lugar, los parámetros de STDP y la arquitectura de red se seleccionaron de trabajos anteriores23,24, y el impacto de diferentes parámetros en el rendimiento de la codificación requiere una mayor exploración.

En conclusión, este trabajo presenta una poderosa herramienta para la codificación neuronal. Por un lado, combinamos la estructura de las CNN y las reglas de cálculo de las SNN para modelar el sistema visual y construimos modelos de codificación de vóxeles basados ​​en el mecanismo del campo receptivo. Por otro lado, demostramos que nuestro modelo se puede utilizar para realizar tareas prácticas de decodificación, como la reconstrucción e identificación de imágenes. Anticipamos que los modelos de codificación basados ​​en SCNN proporcionarán información valiosa sobre el mecanismo visual y contribuirán a la resolución de tareas de visión por computadora y BCI. Además, planeamos ampliar el uso de SNN a tareas de codificación de otras funciones cognitivas (p. ej., imaginación y memoria) en el futuro.

En este estudio se propuso un modelo de codificación basado en SCNN para predecir las actividades de fMRI provocadas por estímulos visuales de entrada. El modelo de codificación estaba compuesto por modelos de regresión de vóxeles y un extractor de características SCNN. Inicialmente, se utilizó el SCNN no supervisado para extraer las características del estímulo para cada imagen de entrada. Posteriormente, se construyeron modelos de regresión lineal para proyectar las características de SCNN en respuestas de resonancia magnética funcional. La arquitectura del modelo de codificación se muestra en la Fig. 1a.

Para extraer características de los estímulos, en este estudio se empleó un SCNN simple de dos capas. La primera capa, conocida como capa de Diferencia de Gaussianos (DoG), fue diseñada para emular el procesamiento neuronal en las células ganglionares de la retina42,43. La configuración de los parámetros para esta capa se basó en investigaciones previas23,24. Tanto para los caracteres escritos a mano como para las imágenes naturales, cada imagen de entrada se sometió a una convolución con seis filtros DoG con relleno cero. Filtros DoG ON y OFF-center con tamaños de \(3\times 3\), \(7\times 7\) y \(13\times 13\), y desviaciones estándar de \((3/9, Se utilizaron \,6/9)\), \((7/9,\,14/9)\) y \((13/9,\,26/9)\). El tamaño del relleno se estableció en 6 para este estudio. Para los dígitos escritos a mano, cada imagen de entrada se sometió a una convolución con dos filtros DoG con relleno de ceros. Se utilizaron filtros DoG ON y OFF-center con un tamaño de \(7\times 7\) y desviaciones estándar de \((1,\,2)\). El tamaño del relleno se estableció en 3. Posteriormente, las características de DoG se transformaron en ondas de pico usando codificación de intensidad a latencia44 con una longitud de 30. Específicamente, los valores de características de DoG superiores a 50 se ordenaron en orden descendente y se distribuyeron equitativamente en 30 contenedores para generar las ondas de pico. Antes de pasar a la siguiente capa, los picos de salida se sometieron a una agrupación máxima con un tamaño de ventana de \(2\times 2\) y una zancada de 2.

La segunda capa del SCNN corresponde a la capa convolucional, que fue diseñada para emular el mecanismo de integración de información de la corteza visual. En esta capa, se utilizaron 64 núcleos convolucionales compuestos por neuronas Integrate-and-Fire (IF) para procesar los picos de entrada. El tamaño de la ventana de los núcleos convolucionales era de 5 × 5 y el tamaño del relleno era de 2. Cada neurona IF reunió picos de entrada de su campo receptivo y emitió un pico cuando su voltaje alcanzó el umbral. Esto se puede expresar matemáticamente de la siguiente manera:

donde \({v}_{i}\left(t\right)\) representa el voltaje de la neurona IF \({i}_{{th}}\) en el paso de tiempo t, mientras que \({w} _{{ij}}\) significa el peso sináptico entre la neurona \({i}_{{th}}\) y los picos de entrada \({j}_{{th}}\) dentro del campo receptivo de la neurona . El umbral de activación, indicado por \({v}_{{th}}\), se establece en 10. Para cada imagen, las neuronas pueden dispararse un máximo de una vez. El mecanismo de inhibición se emplea en la capa convolucional, lo que permite que solo la neurona con el tiempo de pico más temprano se active en cada posición en los mapas de características. Los pesos sinápticos se actualizan mediante la plasticidad dependiente de la sincronización de picos (STDP), que se puede expresar como:

donde \(\Delta {w}_{{ij}}\) denota la modificación del peso, \({a}^{+}\) y \({a}^{-}\) representan las tasas de aprendizaje (conjunto en 0.004 y −0.003, respectivamente)23, y \({t}_{i}\) y \({t}_{j}\) indican los tiempos de pico de \({i}_{{th} }\) neurona y \({j}_{{th}}\) picos de entrada, respectivamente. La convergencia del aprendizaje, tal como la definen Kheradpisheh et al.23, se calcula mediante la siguiente ecuación:

donde N representa el número total de pesos sinápticos. El entrenamiento de la capa convolucional cesa cuando C es inferior a 0,01. La implementación de SCNN se basa en la plataforma SpykeTorch45. Después de entrenar el SCNN, el umbral de activación \({v}_{{th}}\) se establece en infinito y el valor de voltaje en el paso de tiempo final en cada neurona se mide como la característica SCNN de los estímulos visuales. Como los voltajes en las neuronas convolucionales se acumulan con el tiempo y nunca se restablecen cuando \({v}_{{th}}\) es infinito, los valores de voltaje finales (característica SCNN) reflejan la activación del SCNN en respuesta a los estímulos visuales.

Con la característica SCNN obtenida \({{{{\rm{F}}}}}}\in {{{{{{\mathscr{R}}}}}}}^{64\times h\times w }\), se construye un modelo de regresión lineal para cada vóxel para predecir la respuesta Y de la resonancia magnética funcional. Para evitar el problema de sobreajuste, se introduce el mecanismo del campo receptivo en los modelos de regresión, donde cada vóxel solo recibe la entrada en una ubicación específica del Mapa de características SCNN. Para identificar la ubicación óptima del campo receptivo para cada vóxel (vóxeles diferentes pueden tener el mismo campo receptivo preferido), se examinan todas las ubicaciones en los mapas de características SCNN para ajustarse al modelo de regresión y se realiza una validación cruzada triple en los datos de entrenamiento. La expresión y la función objetivo del modelo de regresión se definen como:

donde \({y}_{v}\) representa la respuesta de fMRI del vóxel v, w denota los parámetros de peso en el modelo de regresión y \({f}_{{ij}}\in {{{{{{\ mathscr{R}}}}}}}^{64\times 1}\,(i={{{{\mathrm{1,2}}}}},\ldots ,h,{j}={{{ {\mathrm{1,2}}}}},\ldots ,w)\) significa el vector de características en la ubicación \((i,j)\) de los mapas de características SCNN. La precisión de la regresión se cuantifica utilizando el coeficiente de determinación (\({R}^{2}\)) de las respuestas predichas y observadas, y se elige la ubicación de la característica con el \({R}^{2}\) más alto. como la ubicación del campo receptivo para cada vóxel. Por último, el modelo de regresión para cada vóxel se vuelve a entrenar con todos los datos de entrenamiento en función de la ubicación del campo receptivo determinada.

Se realizaron dos tareas de decodificación posteriores basadas en los modelos de codificación, a saber, reconstrucción de imágenes e identificación de imágenes. El objetivo de la tarea de reconstrucción de imágenes es reconstruir la imagen percibida a partir de la respuesta de fMRI observada, mientras que la tarea de identificación de imágenes tiene como objetivo determinar la imagen que se vio. Las metodologías específicas empleadas para estas tareas se exponen a continuación.

Como se muestra en la Fig. 1b, la tarea de reconstrucción de imágenes se ejecutó utilizando un extenso conjunto de imágenes previas. Inicialmente, se empleó el modelo de codificación para generar las respuestas de fMRI anticipadas para todas las imágenes del conjunto de imágenes anterior. Posteriormente, se estimó la probabilidad de la respuesta observada en la resonancia magnética funcional r dada la imagen anterior s, que puede representarse matemáticamente como una distribución gaussiana multivariada:

Donde \(\hat {{{{{\rm{r}}}}}}({{\mbox{s}}})\) representa la respuesta fMRI predicha de \({{{{{\rm{s }}}}}}\), y Σ significa la matriz de covarianza de ruido para muestras de trenes. Finalmente, se promediaron las imágenes anteriores que provocaron la mayor probabilidad de provocar la respuesta de resonancia magnética funcional observada para obtener el resultado de la reconstrucción.

La Figura 1c ilustra la metodología empleada para la tarea de identificación de imágenes. Las imágenes del conjunto de prueba se introdujeron en el modelo de codificación para generar las respuestas de resonancia magnética funcional predichas. Posteriormente, se calcularon los coeficientes de correlación de Pearson (PCC) entre las respuestas de fMRI predichas y la respuesta de fMRI observada. La imagen que exhibió la correlación más alta entre su respuesta fMRI prevista y la respuesta observada se consideró la imagen vista por el sujeto.

Para validar el modelo de codificación, se utilizaron cuatro conjuntos de datos disponibles públicamente que se han utilizado ampliamente en investigaciones anteriores1,25,26,27,33,38,46, a saber, conjuntos de datos de caracteres escritos a mano, dígitos escritos a mano, imágenes naturales en escala de grises e imágenes naturales coloridas. . Las características fundamentales de estos conjuntos de datos se presentan en la Tabla 1, y a continuación se proporciona una breve descripción general de cada conjunto de datos.

Este conjunto de datos comprende datos de resonancia magnética funcional obtenidos de tres participantes mientras veían imágenes de personajes escritas a mano. Se presentó a cada participante un total de 360 ​​imágenes que representan 6 caracteres (B, R, A, I, N y S) con un tamaño de \(56\times 56\), procedentes del conjunto de datos de caracteres TICH47. Se añadió un cuadrado blanco a cada imagen como punto de fijación. Durante el experimento, cada imagen se mostró durante 1 s (parpadeó a 2,5 Hz), seguida de un fondo negro de 3 s, y se recogieron simultáneamente datos de resonancia magnética funcional de 3 T (TR = 1,74 s, tamaño de vóxel = \(2\times 2 \veces 2\,{{{{{{\rm{mm}}}}}}}^{3}\)). Las respuestas de resonancia magnética funcional a nivel de vóxel de las áreas visuales V1 y V2 para cada estímulo visual se estimaron utilizando modelos lineales generales48. Se adoptó la misma división tren/conjunto de pruebas que en el trabajo original25, que comprendía 270 y 90 ejemplos de clases equilibradas, respectivamente.

Este conjunto de datos comprende datos de resonancia magnética funcional obtenidos de un participante mientras visualiza imágenes de dígitos escritos a mano26. Durante el experimento, se presentaron al participante 100 imágenes escritas a mano de 6 y 9 con un tamaño de \(28\times 28\), y cada imagen se mostró durante 12,5 segundos y destellaba a 6 Hz. Las respuestas de fMRI de V1, V2 y V3 se capturaron utilizando un sistema de MRI Siemens 3 T (TR = 2,5 s, tamaño de vóxel = \(2\times 2\times 2\,{{{{{{\rm{mm} }}}}}}^{3}\)). El tren y los conjuntos de prueba comprendían 90 y 10 ejemplares, respectivamente. Además, este conjunto de datos proporcionó 2000 imágenes 6 y 9 escritas a mano que no se utilizaron en el experimento de resonancia magnética funcional para la tarea de reconstrucción de imágenes.

Este conjunto de datos comprende datos de resonancia magnética funcional obtenidos de dos participantes mientras veían imágenes naturales en escala de grises1. El experimento se dividió en etapas de tren y prueba. Durante la etapa de entrenamiento, a los participantes se les presentaron 1750 imágenes, cada una de las cuales se mostró durante 1 s (parpadeó a 2 Hz), seguida de un fondo gris de 3 s. En la etapa de prueba, a los participantes se les mostraron 120 imágenes distintas de las utilizadas en la etapa de entrenamiento. Los datos de fMRI se adquirieron simultáneamente en ambas etapas del experimento utilizando un escáner de 3 T (TR = 1 s, tamaño de vóxel = \(2\times 2\times 2.5\,{{{{{{\rm{mm}}} }}}}^{3}\)). Se estimaron las respuestas de resonancia magnética funcional a nivel de vóxel de las áreas visuales V1-V3 para cada estímulo visual. Para mitigar la complejidad computacional, las imágenes naturales se redujeron de \(500\times 500\) a \(128\times 128\) píxeles.

Este conjunto de datos comprende datos de resonancia magnética funcional obtenidos de cinco participantes mientras veían imágenes naturales coloridas27. El experimento constaba de dos sesiones, a saber, la sesión de imágenes de entrenamiento y la sesión de imágenes de prueba. Durante la sesión de imágenes de entrenamiento, a cada participante se le presentaron 1200 imágenes de 150 categorías, y cada imagen se mostró solo una vez (parpadeó a 2 Hz durante 9 s). En la sesión de imágenes de prueba, a cada participante se le mostraron 50 imágenes de 50 categorías, y cada imagen se presentó 35 veces. Las respuestas de resonancia magnética funcional de múltiples áreas visuales en la vía visual ventral se recolectaron utilizando un escáner Siemens 3 T (TR = 3 s, tamaño de vóxel = \(3\times 3\times 3\,{{{{{{\rm{mm }}}}}}}^{3}\)), y V1, V2 y V3 fueron seleccionadas como regiones de interés para este estudio. Antes de ingresar al SCNN, las imágenes naturales se convirtieron del formato RGB al formato de escala de grises y se redujeron de \(500\times 500\) a \(128\times 128\) píxeles.

Las precisiones de codificación del conjunto de datos de imágenes naturales coloridas se compararon con los techos de ruido, que representan el límite superior de las precisiones en presencia de ruido. Para calcular el techo de ruido para cada vóxel, empleamos un método que se ha utilizado comúnmente en estudios previos13,49,50,51. Este método supone que el ruido sigue una distribución gaussiana con una media de cero y que la señal de resonancia magnética funcional observada es igual a la respuesta más el ruido. Inicialmente, estimamos la desviación estándar del ruido \({\hat{\sigma }}_{N}\) usando la siguiente fórmula:

Donde \({\sigma }_{R}^{2}\) representa la varianza de las respuestas en 35 sesiones repetidas de cada imagen de prueba. Posteriormente, calculamos la varianza de la respuesta restando la varianza del ruido a la varianza de la respuesta media:

Donde \({\mu }_{R}\) representa las respuestas medias en las sesiones repetidas de cada imagen de prueba. Finalmente, extrajimos muestras de las distribuciones de respuesta y ruido para obtener sus simulaciones y generamos la señal simulada sumando la respuesta y el ruido simulados. Realizamos 1000 simulaciones y calculamos el PCC entre la señal simulada y la respuesta en cada simulación. Se tomó como techo de ruido el valor medio de PCC.

En la Fig. 2, realizamos una prueba t de dos muestras de una cola para comparar las precisiones de codificación de diferentes métodos en cada conjunto de datos, y los tamaños de las muestras se describieron en los títulos de las figuras. En el análisis de reproducibilidad, realizamos una prueba t de dos muestras y dos colas para estimar si las precisiones de codificación (n = 500) entre los SCNN con diferentes valores iniciales mostraban diferencias estadísticas significativas; los valores de p correspondientes se informaron en la sección "Resultados".

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

El conjunto de datos de caracteres escritos a mano está disponible públicamente en http://sciencesanne.com/research/, el conjunto de datos de dígitos escritos a mano está disponible públicamente en http://hdl.handle.net/11633/di.dcc.DSC_2018.00112_485, la escala de grises natural El conjunto de datos de imágenes está disponible públicamente en https://crcns.org/datasets/vc/vim-1, el conjunto de datos de imágenes naturales coloridas está disponible públicamente en https://github.com/KamitaniLab/GenericObjectDecoding. Los datos fuente subyacentes a las Figs. 2, 4 y 5 se pueden encontrar en los Datos complementarios 1, 2, 3.

El código que respalda los hallazgos de este estudio está disponible en https://github.com/wang1239435478/Neural-encoding-with-unsupervised-spiking-convolutional-spiking-neural-networks.

Kay, KN, Naselaris, T., Prenger, RJ y Gallant, JL Identificación de imágenes naturales de la actividad del cerebro humano. Naturaleza 452, 352–355 (2008).

Artículo CAS PubMed PubMed Central Google Scholar

Güçlü, U. & van Gerven, MA Las redes neuronales profundas revelan un gradiente en la complejidad de las representaciones neuronales a lo largo de la corriente ventral. J. Neurosci. 35, 10005–10014 (2015).

Artículo PubMed PubMed Central Google Scholar

Nishimoto, S. y col. Reconstruir experiencias visuales a partir de la actividad cerebral evocada por películas naturales. actual. Biol. 21, 1641-1646 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Wen, H. y col. Codificación y decodificación neuronal con aprendizaje profundo para una visión natural dinámica. Cerebro. Corteza 28, 4136–4160 (2018).

Artículo PubMed Google Scholar

Naselaris, T., Kay, KN, Nishimoto, S. y Gallant, JL Codificación y decodificación en fMRI. NeuroImagen 56, 400–410 (2011).

Artículo PubMed Google Scholar

Wu, MCK, David, SV y Gallant, JL Caracterización funcional completa de neuronas sensoriales mediante identificación de sistemas. Año. Rev. Neurociencias. 29, 477–505 (2006).

Artículo CAS PubMed Google Scholar

Adelson, EH & Bergen, JR Modelos energéticos espaciotemporales para la percepción del movimiento. J. Optar. Soc. Soy. A 2, 284–299 (1985).

Artículo CAS PubMed Google Scholar

Jones, JP & Palmer, LA Una evaluación del modelo de filtro bidimensional de Gabor de campos receptivos simples en la corteza estriada de un gato. J. Neurofisiol. 58, 1233-1258 (1987).

Artículo CAS PubMed Google Scholar

Carandini, M. et al. ¿Sabemos qué hace el sistema visual temprano? J. Neurosci. 25, 10577–10597 (2005).

Artículo CAS PubMed PubMed Central Google Scholar

Khaligh-Razavi, SM & Kriegeskorte, N. Los modelos profundos supervisados, pero no sin supervisión, pueden explicar la representación cortical de TI. Computación PLoS. Biol. 10, e1003915 (2014).

Artículo PubMed PubMed Central Google Scholar

Cichy, RM, Khosla, A., Pantazis, D., Torralba, A. y Oliva, A. La comparación de redes neuronales profundas con la dinámica cortical espacio-temporal del reconocimiento de objetos visuales humanos revela una correspondencia jerárquica. Ciencia. Rep. 6, 27755 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Kriegeskorte, N. & Kievit, RA Geometría representacional: integrando la cognición, la computación y el cerebro. Tendencias Cogn. Ciencia. 17, 401–412 (2013).

Artículo PubMed PubMed Central Google Scholar

Allen, EJ y cols. Un conjunto masivo de datos de resonancia magnética funcional 7T para unir la neurociencia cognitiva y la inteligencia artificial. Nat. Neurociencias. 25, 116-126 (2022).

Artículo CAS PubMed Google Scholar

Khosla, M., Ngo, GH, Jamison, K., Kuceyeski, A. y Sabuncu, MR La respuesta cortical a estímulos naturalistas es en gran medida predecible con redes neuronales profundas. Ciencia. Adv. 7, eabe7547 (2021).

Artículo PubMed PubMed Central Google Scholar

Xu, Y. & Vaziri-Pashkam, M. Límites a la correspondencia representacional visual entre las redes neuronales convolucionales y el cerebro humano. Nat. Comunitario. 12, 2065 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Maass, W. Redes de neuronas con picos: la tercera generación de modelos de redes neuronales. Red neuronal. 10, 1659-1671 (1997).

Artículo de Google Scholar

Gerstner, W., Kempter, R., van Hemmen, JL y Wagner, H. Una regla de aprendizaje neuronal para la codificación temporal de submilisegundos. Naturaleza 383, 76–78 (1996).

Artículo CAS PubMed Google Scholar

Bi, G.-Q. y Poo, M.-M. Modificaciones sinápticas en neuronas cultivadas del hipocampo: dependencia del momento del pico, fuerza sináptica y tipo de célula postsináptica. J. Neurosci. 18, 10464 (1998).

Artículo CAS PubMed PubMed Central Google Scholar

Huang, S. y col. Plasticidad sináptica asociativa hebbiana en la corteza visual de primates. J. Neurosci. 34, 7575–7579 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

McMahon, David B. T. y Leopold, David A. Plasticidad dependiente del momento del estímulo en la visión de alto nivel. actual. Biol. 22, 332–337 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Meliza, CD y Dan, Y. Modificación del campo receptivo en la corteza visual de rata inducida por estimulación visual pareada y estimulación unicelular. Neurona 49, 183–189 (2006).

Artículo CAS PubMed Google Scholar

Diehl, P. & Cook, M. Aprendizaje no supervisado del reconocimiento de dígitos mediante plasticidad dependiente del tiempo de pico. Frente. Computadora. Neurociencias. https://doi.org/10.3389/fncom.2015.00099 (2015).

Kheradpisheh, SR, Ganjtabesh, M., Thorpe, SJ y Masquelier, T. Redes neuronales convolucionales profundas basadas en STDP para el reconocimiento de objetos. Red neuronal. 99, 56–67 (2018).

Artículo PubMed Google Scholar

Mozafari, M., Ganjtabesh, M., Nowzari-Dalini, A., Thorpe, SJ y Masquelier, T. Reconocimiento de dígitos bioinspirado utilizando plasticidad dependiente del tiempo de pico modulada por recompensa en redes convolucionales profundas. Reconocimiento de patrones. 94, 87–95 (2019).

Artículo de Google Scholar

Schoenmakers, S., Barth, M., Heskes, T. y van Gerven, M. Reconstrucción lineal de imágenes percibidas de la actividad cerebral humana. Neuroimagen 83, 951–961 (2013).

Artículo PubMed Google Scholar

Van Gerven, MA, De Lange, FP y Heskes, T. Decodificación neuronal con modelos generativos jerárquicos. Computación neuronal. 22, 3127–3142 (2010).

Artículo PubMed Google Scholar

Horikawa, T. & Kamitani, Y. Decodificación genérica de objetos vistos e imaginados utilizando características visuales jerárquicas. Nat. Comunitario. 8, 15037 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Kingma, DP & Ba, J. Adam: un método de optimización estocástica. Conferencia Internacional sobre Representaciones del Aprendizaje. https://doi.org/10.48550/arXiv.1412.6980 (2015).

Seeliger, K. y col. Identificación del sistema neuronal de un extremo a otro con flujo de información neuronal. Computación PLoS. Biol. 17, e1008558 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Zhou, W., Bovik, AC, Sheikh, HR y Simoncelli, EP Evaluación de la calidad de la imagen: de la visibilidad del error a la similitud estructural. Traducción IEEE. Proceso de imagen. 13, 600–612 (2004).

Artículo de Google Scholar

Miyawaki, Y. et al. Reconstrucción de imágenes visuales a partir de la actividad del cerebro humano mediante una combinación de decodificadores de imágenes locales multiescala. Neurona 60, 915–929 (2008).

Artículo CAS PubMed Google Scholar

Wang, W., Arora, R., Livescu, K. y Bilmes, J. Sobre el aprendizaje profundo de representación multivista. Proc. 32° Int. Conf. Mach. Aprender. 37, 1083-1092 (2015).

Du, C., Du, C., Huang, L. y He, H. Reconstrucción de imágenes percibidas a partir de actividades del cerebro humano con aprendizaje multivista profundo bayesiano. Traducción IEEE. Red neuronal. Aprender. Sistema. 30, 2310–2323 (2019).

Artículo PubMed Google Scholar

Seeliger, K., Güçlü, U., Ambrogioni, L., Güçlütürk, Y. & van Gerven, MAJ Redes generativas adversarias para reconstruir imágenes naturales a partir de la actividad cerebral. NeuroImagen 181, 775–785 (2018).

Artículo CAS PubMed Google Scholar

Victor, JD, Purpura, K., Katz, E. & Mao, B. Codificación poblacional de frecuencia espacial, orientación y color en macaco V1. J. Neurofisiol. 72, 2151–2166 (1994).

Artículo CAS PubMed Google Scholar

Dumoulin, SO y Wandell, BA Estimaciones del campo receptivo de la población en la corteza visual humana. NeuroImagen 39, 647–660 (2008).

Artículo PubMed Google Scholar

Gao, X., Wang, Y., Chen, X. y Gao, S. Interfaz, interacción e inteligencia en interfaces cerebro-computadora generalizadas. Tendencias Cogn. Ciencia. 25, 671–684 (2021).

Artículo PubMed Google Scholar

Ren, Z. y col. Reconstrucción de la imagen vista a partir de la actividad cerebral mediante representación cognitiva guiada visualmente y aprendizaje adversario. NeuroImagen 228, 117602 (2021).

Artículo PubMed Google Scholar

Wang, C. y col. Reconstrucción de una visión natural rápida con una red adversarial generativa de vídeo condicionada por resonancia magnética funcional. Corteza cerebral https://doi.org/10.1093/cercor/bhab498 (2022).

Wu, Y., Deng, L., Li, G., Zhu, J. & Shi, L. Retropropagación espacio-temporal para el entrenamiento de redes neuronales de alto rendimiento. Frente. Neurociencias. 12, 331 (2018).

Artículo PubMed PubMed Central Google Scholar

Izhikevich, EM Modelo simple de activación de neuronas. Traducción IEEE. Red neuronal. 14, 1569-1572 (2003).

Artículo CAS PubMed Google Scholar

Enroth-Cugell, C. & Robson, JG La sensibilidad al contraste de las células ganglionares de la retina del gato. J. Physiol. 187, 517–552 (1966).

Artículo CAS PubMed PubMed Central Google Scholar

McMahon, MJ, Packer, OS y Dacey, DM El campo receptivo clásico que rodea las células ganglionares del parasol de primates está mediado principalmente por una vía no GABAérgica. J. Neurosci. 24, 3736–3745 (2004).

Artículo CAS PubMed PubMed Central Google Scholar

Gautrais, J. & Thorpe, S. Codificación de tasas versus codificación de orden temporal: un enfoque teórico. Biosistemas 48, 57–65 (1998).

Artículo CAS PubMed Google Scholar

Mozafari, M., Ganjtabesh, M., Nowzari-Dalini, A. y Masquelier, T. SpykeTorch: simulación eficiente de redes neuronales convolucionales con picos con como máximo un pico por neurona. Frente. Neurociencias. https://doi.org/10.3389/fnins.2019.00625 (2019).

Du, C., Du, C., Huang, L. y He, H. Decodificación neuronal generativa condicional con predicción estructurada de características CNN. Proc. Conferencia AAAI. Artif. Intel. 34, 2629–2636 (2020).

Google Académico

Van der Maaten, L. Un nuevo conjunto de datos de referencia para el reconocimiento de caracteres escritos a mano. Universidad de Tilburg. 2–5 (2009).

Friston, KJ y cols. Mapas paramétricos estadísticos en imágenes funcionales: un enfoque lineal general. Tararear. Mapa cerebral. 2, 189–210 (1994).

Artículo de Google Scholar

Han, K. y col. Autocodificador variacional: un modelo no supervisado para codificar y decodificar la actividad de resonancia magnética funcional en la corteza visual. NeuroImagen 198, 125-136 (2019).

Artículo PubMed Google Scholar

Kay, KN, Winawer, J., Mezer, A. y Wandell, BA Suma espacial compresiva en la corteza visual humana. J. Neurofisiol. 110, 481–494 (2013).

Artículo PubMed PubMed Central Google Scholar

Lage-Castellanos, A., Valente, G., Formisano, E. y De Martino, F. Métodos para calcular el rendimiento máximo de modelos computacionales de respuestas de resonancia magnética funcional. Computación PLoS. Biol. 15, e1006397 (2019).

Artículo PubMed PubMed Central Google Scholar

Deng, J. y col. Imagenet: una base de datos de imágenes jerárquicas a gran escala. Conferencia IEEE. Computadora. Vis. Reconocimiento de patrones. https://doi.org/10.1109/CVPR.2009.5206848 (2009).

Descargar referencias

Este trabajo fue apoyado por STI 2030-Proyectos principales 2022ZD0208900 y la Fundación Nacional de Ciencias Naturales de China (Nos. 82121003, 62036003, 62276051 y 82072006), Fondos de Cooperación en Ingeniería Médica de la Universidad de Ciencia y Tecnología Electrónica de China (ZYGX2021YGLH201) , Equipo de Innovación y Programa de Cultivo de Talentos de la Administración Nacional de Medicina Tradicional China (No. ZYYCXTD-D-202003).

Centro de Medicina Psicosomática, Centro Provincial de Salud Mental de Sichuan, Hospital Popular Provincial de Sichuan, Universidad de Ciencia y Tecnología Electrónica de China, Chengdu, 611731, China

Chong Wang y Huafu Chen

Escuela de Ciencias de la Vida y Tecnología, Universidad de Ciencia y Tecnología Electrónica de China, Chengdu, 610054, China

Chong Wang, Hongmei Yan, Wei Huang, Wei Sheng, Yuting Wang, Yun-Shuang Fan, Tao Liu, Ting Zou, Rong Li y Huafu Chen

Laboratorio clave de neuroinformación del Ministerio de Educación; Laboratorio clave de imágenes cerebrales por resonancia magnética de alto campo de la provincia de Sichuan, Universidad de Ciencia y Tecnología Electrónica de China, Chengdu, 610054, China

Chong Wang, Hongmei Yan, Wei Huang, Wei Sheng, Yuting Wang, Yun-Shuang Fan, Rong Li y Huafu Chen

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

Chong Wang diseñó el proyecto y escribió el artículo; Yuting Wang, Yun-Shuang Fan y Ting Zou prepararon los datos; Wei Huang, Wei Sheng y Tao Liu analizaron datos y construyeron modelos; Hongmei Yan, Rong Li y Huafu Chen supervisaron el proyecto y revisaron el artículo.

Correspondencia a Hongmei Yan, Rong Li o Huafu Chen.

Los autores declaran no tener conflictos de intereses.

Communications Biology agradece a los revisores anónimos por su contribución a la revisión por pares de este trabajo. Editor principal: Joao Valente. Un archivo de revisión por pares está disponible.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Wang, C., Yan, H., Huang, W. et al. Codificación neuronal con red neuronal convolucional de picos no supervisados. Común Biol 6, 880 (2023). https://doi.org/10.1038/s42003-023-05257-4

Descargar cita

Recibido: 06 de febrero de 2023

Aceptado: 18 de agosto de 2023

Publicado: 28 de agosto de 2023

DOI: https://doi.org/10.1038/s42003-023-05257-4

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.