fbpx

Phi-3: cuando el tamaño ya no importa

Microsoft lanzó Phi-3 y esto es lo que se debe conocer al respecto.

Microsoft lanzó la próxima versión de su modelo liviano de Inteligencia Artificial (IA) Phi-3 Mini, el primero de 3 modelos pequeños que la compañía planea lanzar. Según se informa, Phi-3 Mini mide 3.800 millones de parámetros y se encuentra entrenado en un conjunto de datos que es más pequeño en relación con modelos de lenguaje grandes como GPT-4. Ahora se encuentra disponible en Azure, así como en Hugging Face y así mismo, Ollama. Es de acotar que, Microsoft planea lanzar Phi-3 Small (parámetros 7B) y así mismo, Phi-3 Medium (parámetros 14B). Vale la pena recordar que los parámetros se refieren a cuántas instrucciones complejas tiene la capacidad de poder comprender un modelo.

Microsoft lanzó Phi-3 y esto es lo que se debe conocer al respecto

Vale la pena recordar que la compañía lanzó Phi-2 en el mes de diciembre, que funcionó tan bien como modelos más grandes como Llama 2. Microsoft ha señalado que Phi-3 funciona mejor que la versión anterior y tiene la capacidad de poder proporcionar respuestas cercanas a las de un modelo 10 veces más grande que él.

Eric Boyd, quien es vicepresidente corporativo de Microsoft Azure AI Platform, mencionó que Phi-3 Mini es tan capaz como LLM como GPT-3.5 solo que en un factor de forma más pequeño.

Es de resaltar que, en comparación con sus homólogos más grandes, los modelos pequeños de Inteligencia Artificial suelen ser más baratos de ejecutar y funcionan mejor en dispositivos personales como teléfonos y portátiles. The Information anunció a principios de este año que Microsoft estaba formando un equipo centrado concretamente en modelos de IA más livianos. Junto a Phi, la empresa también ha construido Orca-Math, el cual viene siendo un modelo centrado en la resolución de problemas matemáticos.

Por si no lo sabía, los competidores de Microsoft también tienen sus propios pequeños modelos de IA, la mayoría de los cuales apuntan a tareas más simples como resúmenes de documentos o asistencia de codificación. Los Gemma 2B y 7B de Google son bastante buenos para chatbots simples y trabajos concernidos con el idioma. Claude 3 Haiku de Anthropic por su parte, tiene la capacidad de poder leer artículos de investigación densos con gráficos y resumirlos rápidamente, mientras que el recientemente lanzado Llama 3 8B de Meta tiene la posibilidad de usarse para algunos chatbots y para asistencia de codificación.

Boyd ha indicado que los desarrolladores entrenaron a Phi-3 con un “plan de estudios”. según comenta, se inspiraron en cómo los niños aprendieron de los cuentos antes de dormir, los libros con palabras más simples y las estructuras de oraciones que hablan de temas más extensos.

Boyd ha manifestado, “No hay suficientes libros para niños, así que tomamos una lista de más de 3.000 palabras y le pedimos a un LLM que hiciera ‘libros para niños’ para enseñar Phi”. 

Así mismo, añadió que Phi-3 sencillamente se basó en lo aprendido en iteraciones anteriores. Mientras que Phi-1 se centró en la codificación y Phi-2 comenzó a aprender a razonar, por su parte, Phi-3 es mejor codificando y razonando. Es de acotar que, aunque la familia de modelos Phi-3 posee algunos conocimientos generales, no puede superar a un GPT-4 u otro LLM en amplitud; existe una gran diferencia en el tipo de respuestas que puede obtener de un LLM capacitado en Internet en comparación con un modelo más pequeño como Phi-3.

Boyd ha mencionado que las empresas frecuentemente descubren que los modelos más pequeños como Phi-3 funcionan mejor para sus aplicaciones personalizadas debido a que, para muchas empresas, sus conjuntos de datos internos serán más pequeños de todos modos. Y como estos modelos usan menos potencia informática, suelen ser mucho más asequibles.

Deja un comentario