El 2024 fue el año de la democratización de la Inteligencia Artificial. Es decir, fue el año en el que la mayoría de las personas conectadas a internet oyeron y pudieron probar sobre IA, especialmente gracias a la Inteligencia Artificial Generativa. Durante el año vimos avances significativos en lo que los Large Language Models (LLMs) aprendieron a hacer.
El 2025 será diferente. Los LLMs seguirán evolucionando pero el foco, creo, estará más en las aplicaciones reales que la IA puede tener en el mundo físico. Y que es cuando le dimos a los LLMs la posibilidad de ver, oír, razonar y planear con modelos realmente Multi-modales abrimos una puerta interesantísima.
Es por eso que ya no solo hablamos de LLMs de de Visual-Language-Models (VLAs), modelos que unifican la percepción, el entendimiento de lenguaje y el control de dispositivos físicos.
Figure AI es, en mi humilde concepto, la compañía más interesante del momento. Sus robots humanoides ya se encuentran operando, mano a mano con humanos en varias plantas de manufactura y ensamblaje del mundo, entre ellas en varias de BMW. La compañía presentó esta semana Helix, su primer modelo VLA generalista, con una demostración interesante: 2 robots colaborando para cumplir un tarea.
Helix es el primer VLA en ofrecer control completo y unificado del cuerpo de un robot, permitir el control colaborativo entre robots, recoger cualquier objeto a pesar de no haberlo visto antes, y utilizar un solo set de redes variables y pesos al interior de una red neuronal para aprender a hacer tareas. Además, corre on-device utilizandoselo GPUs de bajo consumo lo que lo habilita para ser comercializado de forma inmediata.
Cool, ¿no?