Los cerebros humanos están dotados de los procesadores de datos más increíbles e incomparables que existen. Esto se debe en parte a que no separan el almacenamiento de información de su computación real y, por lo tanto, no tienen que gastar toneladas de energía extra transportando datos de un lado a otro. Inspirándose en este sorprendente engranaje, un grupo de investigadores de IBM en San José, California, diseñó un chip que podría potenciar la inteligencia artificial (IA) trabajando más rápido y con mucha menos energía.
La investigación lleva casi dos décadas en desarrollo y tiene el potencial de cambiar drásticamente la forma en que se pueda ampliar de manera eficiente los potentes sistemas de hardware de IA.
Desde el nacimiento de la industria de los semiconductores, los chips de computadora han seguido principalmente la misma estructura básica. Donde las unidades de procesamiento y la memoria que almacena la información a procesar se almacenan de manera discreta.
Si bien esta estructura ha permitido diseños más simples que han podido ampliarse a lo largo de los años, ha creado lo que se llama ‘el cuello de botella de Von Neumann’. En honor al matemático John Von Neumann, primero en concebir la arquitectura estándar de las computadoras basada en una unidad de procesamiento y una unidad de memoria separada.
Ese cuello de botella significa un rendimiento limitado (tasa de transferencia de datos) en el que se necesita tiempo y energía para barajar continuamente datos entre la memoria, el procesamiento y cualquier otro dispositivo dentro de un chip.
El trabajo de Dharmendra Modha, de IBM Research, y sus colegas pretende cambiar esta situación del chip actual, inspirándose en la forma en que computa el cerebro. «Esto abre un camino completamente diferente al de la arquitectura de von Neumann», dice Modha.
IBM desarrolla un chip rápido y con menos energía
Modha trabaja en un nuevo tipo de chip de IA digital para inferencia neuronal, al que llama NorthPole. Es una extensión de TrueNorth, el último chip inspirado en el cerebro en el que trabajó Modha antes de 2014. En pruebas en los populares modelos de reconocimiento de imágenes ResNet-50 y detección de objetos YOLOv4. El nuevo prototipo de dispositivo ha demostrado una mayor eficiencia energética, espacial, y latencia más baja que cualquier otro chip actualmente en el mercado. Y es aproximadamente 4000 veces más rápido que TrueNorth.
Los primeros resultados de los chips NorthPole se publicaron en la revista Science. Según Modha, NorthPole es un gran avance en la arquitectura de chips que ofrece mejoras masivas en la eficiencia energética, espacial y temporal. Utilizando el modelo ResNet-50 como punto de referencia, NorthPole es considerablemente más eficiente que las GPU de 12 nm y las CPU de 14 nm comunes. NorthPole también superó en latencia, así como en espacio requerido para computar, en términos de fotogramas interpretados por segundo por cada mil millones de transistores necesarios.
¿Cómo lo logra? Una de las mayores diferencias con NorthPole es que toda la memoria del dispositivo está en el propio chip, en lugar de estar conectada por separado. Sin ese cuello de botella de von Neumann, el chip puede realizar inferencias de IA considerablemente más rápido que otros chips que ya están en el mercado.
NorthPole se fabricó con un proceso de nodo de 12 nm y contiene 22 mil millones de transistores en 800 milímetros cuadrados. Tiene 256 núcleos y puede realizar 2048 operaciones por núcleo por ciclo con una precisión de 8 bits. Con potencial para duplicar y cuadriplicar el número de operaciones con precisión de 4 y 2 bits, respectivamente. «Es una red completa en un chip», comenta Modha.
Eficiencia energética alucinante
El chip desarrollado por IBM, en San José, California, ha desatado opiniones favorables. «Su eficiencia energética es simplemente alucinante», afirma Damien Querlioz, investigador de nanoelectrónica de la Universidad de París-Saclay en Palaiseau. Y agrega que el trabajo demuestra que la informática y la memoria pueden integrarse a gran escala.
«Siento que el documento sacudirá el pensamiento común en arquitectura de computadoras», subraya.
NorthPole ejecuta redes neuronales: conjuntos de múltiples capas de unidades computacionales simples programadas para reconocer patrones en los datos. Una capa inferior recibe datos, como los píxeles de una imagen; cada capa sucesiva detecta patrones de complejidad creciente y pasa información a la siguiente capa. La capa superior produce una salida que, por ejemplo, puede expresar la probabilidad de que una imagen contenga un gato, un automóvil u otros objetos.
Algunos chips de computadora pueden manejar estos cálculos de manera eficiente. Pero aún necesitan usar una memoria externa llamada RAM cada vez que calculan una capa. Transferir datos entre chips de esta manera ralentiza las cosas y surge el cuello de botella de Von Neumann.
Dharmendra Modha, ingeniero informático de IBM, dice que una vez estimó que simular un cerebro humano en este tipo de arquitectura de chip podría requerir el equivalente a la producción de 12 reactores nucleares. NorthPole está formado por 256 unidades informáticas o núcleos, cada uno de los cuales contiene su propia memoria.
«Se está mitigando el cuello de botella de Von Neumann dentro de un núcleo», explica el experto.
NorthPole supera a las máquinas de IA existentes
Los núcleos están conectados entre sí en una red inspirada en las conexiones de materia blanca entre partes de la corteza cerebral humana, ahonda Modha. Este y otros principios de diseño, la mayoría de los cuales existían antes del desarrollado por IBM, nunca se habían combinado en un solo chip. Hoy permiten a NorthPole superar a las máquinas de IA existentes por un margen en las pruebas estándar de reconocimiento de imágenes.
También utiliza una quinta parte de la energía de los chips de IA de última generación, a pesar de no utilizar los procesos de fabricación más recientes y miniaturizados. Si el diseño de NorthPole se implementara con el proceso de fabricación más moderno, su eficiencia sería 25 veces mejor que la de los diseños actuales, estiman los autores.
Pero ni siquiera los 224 megabytes de RAM de NorthPole son suficientes para modelos de lenguajes grandes, como los utilizados por el chatbot ChatGPT, que ocupan varios miles de megabytes de datos incluso en sus versiones más simplificadas. Y el chip sólo puede ejecutar redes neuronales preprogramadas que deben ser «entrenadas» de antemano en una máquina separada. Pero los investigadores argumentan que la arquitectura de NorthPole podría ser útil en aplicaciones en las que la velocidad es crítica, como los coches autónomos.
NorthPole acerca físicamente las unidades de memoria a los elementos informáticos del núcleo. En otros lugares, los investigadores han estado desarrollando innovaciones más radicales utilizando nuevos materiales y procesos de fabricación. Esto permite que las propias unidades de memoria realicen cálculos, lo que en principio podría aumentar aún más la velocidad y la eficiencia.