La visión artificial está más cerca gracias a la modelización humana
La visión humana es resultado de procesos neurológicos muy complejos construidos a través de una colección de módulos encefálicos especializados, pero relativamente simples, que actúan de manera conjunta. En los ordenadores, es posible duplicar algo parecido, otorgándoles así un tipo de visión. Esta aplicación no es nueva y se ha probado en varios sectores, desde sistemas de seguridad hasta vehículos espaciales y coches autónomos. Sin embargo, estos sistemas son limitados y pueden fallar en situaciones nuevas. Por ejemplo, si un coche autónomo no dispone de datos visuales sobre los desiertos, puede tener problemas para aplicar su conocimiento sobre los paisajes urbanos a ese entorno. En ese caso, el vehículo podría confundirse y cometer errores. Para conseguir una visión artificial verdaderamente fiable y autónoma aún falta mucho camino por recorrer. Aparte de las aplicaciones obvias en máquinas, el estudio de la visión artificial también mejora la comprensión del funcionamiento de la visión humana. El proyecto DEEPCEPTION, financiado con fondos europeos y realizado con el apoyo del programa Marie Skłodowska-Curie, ha abordado los dos aspectos del problema. Los investigadores del proyecto desarrollaron modelos de visión artificial que emulan e ilustran los procesos del encéfalo humano.
Redes neuronales profundas
Las redes neuronales se inspiran en sistemas biológicos, en los que una red de procesadores informáticos funciona de forma parecida a las neuronas (células cerebrales). Dichas redes utilizan algoritmos para reconocer patrones sin una programación específica para hacerlo. Una «red neuronal profunda», en la que se basa el concepto del proyecto, se parece a eso, pero implica muchas capas de procesamiento y está entrenada para esa tarea concreta. DEEPCEPTION enseñaba a los ordenadores a reconocer objetos a partir de fotografías. Los investigadores compararon las respuestas de la red neuronal profunda con las de los encéfalos reales de primates (de mono y humano) al ver las mismas imágenes. «Si el modelo informático representa el proceso biológico real con precisión, las respuestas de la red neuronal y el encéfalo deberían coincidir», explica Jonas Kubilius, jefe del proyecto. El equipo de la investigación creó un conjunto de pruebas de rendimiento que permitirían evaluar y cuantificar el nivel de coincidencia de estos procesos. La comparativa integradora neuronal y conductual del equipo, llamada Brain-Score, es el más grande del mundo hasta la fecha. Gracias a la información obtenida a partir de esta comparación, los investigadores construyeron un modelo informático, denominado CORnet, que tuvo una puntuación alta en las pruebas de rendimiento.
El modelo más preciso
En la actualidad, hay pocos modelos de visión humana que puedan predecir la respuesta neuronal o conductual con precisión. El modelo de DEEPCEPTION superó a los sistemas de visión artificial más complicados y se asemeja mucho a los conocimientos actuales más avanzados sobre cómo funciona el reconocimiento de objetos en el sistema visual de los primates. Kubilius añade: «Me enorgulleció mucho que nuestro modelo pudiese predecir respuestas neuronales en un conjunto de datos completamente nuevo. Estas pruebas en datos nuevos son un medio riguroso de falsificación de modelos». Si un modelo no puede predecir nada más allá de los datos para los que ha sido entrenado, significa que el modelo no representa una comprensión real. Sin embargo, si un modelo hace buenas predicciones en un conjunto de datos completamente nuevo, es una señal positiva de que el modelo es preciso. El proyecto produjo un modelo mejorado de la visión de los primates. Aunque DEEPCEPTION no tenía objetivos comerciales, las herramientas que desarrolló ayudarán a sus propios investigadores y a otros a desarrollar modelos aún más precisos.
Palabras clave
DEEPCEPTION, visión, red neuronal, máquina, red neuronal profunda, primate, visión artificial, modelización, encéfalo humano, Brain-Score, CORnet