Aunque la “L” en los modelos grandes de lenguaje (LLM) sugiere una escala masiva, la realidad posee más matices. Algunos LLM contienen billones de parámetros, mientras otros son más pequeños y operan de forma eficaz con muchos menos. A continuación, le proporcionamos todo sobre el tamaño de los LLMs y mucho más. ¡No se lo puede perder!
Tamaños de LLM y clases de tamaño
Es crucial dar a conocer que el tamaño documentado de un modelo se refiere a la cantidad de parámetros. Los LLM pueden tener cientos de millones o incluso billones de parámetros. Los LLM más grandes poseen más parámetros que sus equivalentes más pequeños, lo que les permite capturar relaciones de lenguaje más complejas y manejar instrucciones condensadas. Frecuentemente, también se entrenan con conjuntos de datos más grandes.
Algunos tamaños de modelos, como 2,000 millones o 7,000 millones, son comunes. Las clases de tamaño de los modelos son agrupaciones aproximadas de los millones de parámetros. Es de resaltar que, las clases de tamaño de modelo proporcionan una forma práctica de medir el rendimiento de los LLM. Piense en ellos como en las ligas de fútbol (por ejemplo): los modelos dentro de la “A” (primera división profesional) son comparables. Los dos modelos participantes en la Copa América deberían brindar un rendimiento similar.
Dicho esto, es importante mencionar que, un modelo más pequeño tiene la capacidad de poder igualar el mismo rendimiento que un modelo más grande para tareas determinadas. Aunque no siempre se divulgan los tamaños de los modelos de los LLM de última generación más recientes, como GPT-4 y Gemini Pro o Ultra, se cree que cuentan con cientos de millas de millones o billones de parámetros.
Se debe tener en cuenta que no todos los modelos indican la cantidad de parámetros en su nombre (como lo hace GPT-4o mini). Algunos modelos se agregan con el número de versión. Por ejemplo: Gemini 1.5 Pro se refiere a la versión 1.5 del modelo (después de la versión 1).
Pero, ¿cuándo un modelo es demasiado pequeño para ser un LLM? La definición de LLM puede cambia según a quién se le pregunte de l comunidad de Inteligencia Artificial y AA. Algunos sólo consideran los modelos más grandes con miles de millones de parámetros como verdaderos LLM, mientras que los modelos más pequeños, se consideran modelos de PLN simples. Otros incluyen modelos más pequeños, pero potentes, en la definición del LLM.
LLMs más pequeños para casos de uso integrados en el dispositivo
Los LLMs más grandes demandan mucho espacio de almacenamiento y mucha potencia de procesamiento para la inferencia. Requerirán ejecutarse en servidores potentes dedicados con hardware específico (como TPU).
Algo interesantes es: si un modelo es lo suficientemente pequeño como para descargarlo y ejecutarse en el dispositivo de un usuario. Hoy por hoy, algunos modelos con unos pocos millones o miles de millones de parámetros se pueden ejecutar en el navegador y en dispositivos de consumo (no potentes y monumentales servidores).