fbpx

GPT-4 pierde terreno frente a Claude-3

Lo que ocurre entre GPT-4 y Claude-3.

Pareciera como si todos los que son alguien hubiesen invertido su sombrero y su dinero en desarrollar Modelos de Lenguaje Grandes (LLMs). Esta explosión de Inteligencia Artificial (IA) generó la necesidad de compararlos. Entonces, los investigadores de UC Berkley, UC San Diego y la Universidad Carnegie Mellon formaron la Organización de Grandes Sistemas Lingüísticos (LMSYS).  Es de resaltar que, es difícil calificar modelos de lenguaje grandes y los chatbots que los usan. Aparte de contar los casos de errores fácticos, alucinaciones, errores gramaticales o incluso, velocidad de procesamiento, no existen métricas objetivas aceptadas globalmente. Lo que quiere decir que, por ahora, nos encontramos estancados en mediciones subjetivas. A continuación le comentaremos cómo es que GPT-4 pierde terreno frente a Claude-3. ¡No se pierda ningún detalle al respecto!

 

Lo que ocurre entre GPT-4 y Claude-3

El Chatbot Arena de LMSYS, una tabla de clasificación colaborativa para clasificar los LLM “en la naturaleza”,  emplea el sistema de clasificación Elo, que se usa ampliamente para clasificar a los jugadores en juegos de suma cero como el ajedrez. Dos grandes modelos de lenguaje (LLM) compiten en partidos aleatorios frente a frente, y los humanos juzgan a ciegas qué robot prefieren en función de su desempeño.

 

Vale la pena señalar que, desde su lanzamiento el año pasado, GPT-4 ha ocupado la posición número uno de Chatbot Arena. Incluso se ha convertido en el estándar de oro, y los sistemas de mayor rango se describen como modelos de “clase GPT-4”. Pero, como siempre hay un “pero”… el LLM de OpenAI fue desplazado del primer puesto recientemente cuando Claude 3 Opus de Anthropic venció a GPT-4 por un estrecho margen, 1253 a 1251. Es de acotar que, la victoria fue tan cerrada que el margen de error coloca a Claude 3 y GPT-4 en un tres- Empate en primer lugar, con otra versión preliminar de GPT-4.

Posiblemente todavía más impresionante sea la entrada de Claude 3 Haiku entre los diez primeros. Haiku viene siendo el modelo de “tamaño local” de Anthropic, comparable al Gemini Nano de Google. Es exponencialmente más pequeño que Opus, que posee billones de parámetros, lo que lo hace mucho más rápido en comparación. Según LMSYS, ocupar el puesto número siete en la clasificación gradúa a Haiku a la clase GPT-4.

Anthropic posiblemente no mantendrá el primer puesto por mucho tiempo. Hace poco, expertos de OpenAI filtraron que GPT-5 está casi listo para su debut público y debería lanzarse “a mediados de año”. Según se ha podido conocer, el nuevo modelo LLM es mucho mejor que GPT-4. Las fuentes señalan que emplea múltiples “agentes de IA externos” para llevar a cabo tareas específicas, lo que significa que debería ser capaz de resolver problemas complejos de forma confiable y mucho más rápido

Deja un comentario