La cuenta regresiva para el WWDC sigue (aunque por ahora estaremos concentrados en el evento del 7 de Mayo) y con el paso de cada día seguimos viendo anuncios interesantes relacionados con el tema de Inteligencia Artificial.
Esta semana la compañía ha presentado una familia de LLMs (Large Language Models) que asegura son más eficientes y requieren menos data para ser entrenados, lo que sería perfecto para un modelo de procesamiento on-device que minimice la cantidad de información requerida y por ende pueda proteger la privacidad de los usuarios.
La compañia los ha denominado OpenELM, Open-source Efficient Language Models y utilizan una estrategia de escalado por capas para asignar de manera eficiente los parámetros dentro de cada capa del modelo transformador, lo que conduce a una mayor precisión.
Con una base de parámetros de aproximadamente mil millones de parámetros, OpenELM exhibe una mejora del 2,36 % en precisión en comparación con OLMo, al tiempo que requiere 2 veces menos tokens de pre-entrenamiento.
Además de proporcionar los modelos la compañía ha publicado el marco completo para el entrenamiento y la evaluación del modelo de idioma utilizando conjuntos de datos disponibles públicamente, los registros de entrenamiento, múltiples puntos de control y configuraciones previas al entrenamiento, al igual que el código para convertir los modelos a la biblioteca MLX para la inferencia y el ajuste fino en los dispositivos Apple.
La compañía asegura que este tipo de publicaciones abiertas (que complementan otros que han hecho a lo largo del año), busca “empoderar y fortalecer a la comunidad de investigación, allanando el camino para futuros esfuerzos de investigación abierta”.