fbpx

¿Es posible que Gemini no analice tan bien los datos?

Gemini al parecer no analiza tan bien los datos.

Uno de los puntos fuertes de los modelos de Inteligencia Artificial Generativa estrella de Google, Gemini 1.5 Pro y 1.5 Flash, viene siendo la cantidad de datos que supuestamente tienen la capacidad de poder procesar y analizar. En conferencias de prensa y demostraciones, Google ha afirmado reiteradamente que los modelos pueden llevar a cabo tareas que antes eran imposibles gracias a su “largo contexto”, como resumir varios documentos de cientos de páginas o incluso, buscar en escenas de metraje de película. Pero, como siempre hay un pero… nuevas investigaciones sugieren que, de hecho, los modelos no son tan buenos en esas cosas.

2 estudios independientes investigaron cómo los modelos Gemini de Google y otros tienen la capacidad de poder interpretar una enorme cantidad de datos (por ejemplo, una extensión similar a la de “Guerra y paz”). Ambos estudios concluyeron que Gemini 1.5 Pro y 1.5 Flash tienen dificultades para responder correctamente a preguntas sobre grandes conjuntos de datos; en una serie de pruebas basadas en documentos, los modelos dieron la respuesta correcta solo entre el 40% y el 50% de las veces.

Gemini al parecer no analiza tan bien los datos

Vale la pena destacar que, en uno de los estudios antes mencionados que comparan estas capacidades, algunos investigadores del Instituto Allen de IA y Princeton, pidieron a los modelos que evaluaran afirmaciones verdaderas o falsas sobre libros de ficción escritos en inglés. Cabe acotar que, los investigadores eligieron obras recientes para que los modelos no pudieran “hacer trampa” confiando en el conocimiento previo, y acribillaron las afirmaciones con referencias a detalles determinados y puntos de la trama que serían imposibles de comprender sin leer los libros en su totalidad.

Los investigadores probaron un libro de alrededor de 260.000 palabras (que equivale a 520 páginas) de longitud y descubrieron que 1.5 Pro respondió correctamente las afirmaciones de verdadero/falso el 46,7 % de las veces, mientras que Flash respondió correctamente tan solo el 20 % de las veces. Es de resaltar que al promediar todos los resultados de referencia, ninguno de los modelos logró alcanzar una precisión ligeramente superior a la del azar en términos de respuesta a las preguntas.

Por su parte, el segundo de los 2 estudios, coescrito por investigadores de la UC Santa Bárbara, probó la capacidad de Gemini 1.5 Flash (pero no 1.5 Pro) para “razonar” sobre los videos, es decir, buscar y responder preguntas sobre su contenido.

Los coautores crearon un conjunto de imágenes (por ejemplo, una foto de una torta de cumpleaños) junto con preguntas para que el modelo respondiera acerca de los objetos representados en las imágenes (por ejemplo; “¿qué personaje de dibujos animados está en esta torta?”). Para evaluar los modelos, escogieron una de las imágenes al azar e insertaron imágenes “distractoras” antes y después de ella para crear secuencias de imágenes similares a una presentación de diapositivas.

Cabe destacar que, Flash no tuvo un buen desempeño. En una prueba en la que el modelo transcribió 6 dígitos escritos a mano de una “presentación de diapositivas” de 25 imágenes, Flash logró transcribir correctamente cerca del 50% de las transcripciones. La precisión se redujo a alrededor del 30% con 8 dígitos.

Será que esperamos demasiado con Gemini?

Es inherente mencionar que ninguno de los estudios ha sido revisado por pares, ni tampoco analizan las versiones de Gemini 1.5 Pro y 1.5 Flash con contextos de 2 millones de tokens (ambos probaron las versiones con contextos de 1 millón de tokens). Y Flash no está pensado para ser tan capaz como Pro en términos de rendimiento; desde Google lo publicitan como una alternativa de bajo costo.

Sin embargo, si hay algo que es necesario señalar es que ambos añaden leña al fuego de las promesas exageradas de Google (y de las insuficientes) con Gemini desde el principio. Ninguno de los modelos que probaron los investigadores, incluidos GPT-4o de OpenAI y así mismo, Claude 3.5 Sonnet de Anthropic, tuvo un buen desempeño. Pero Google viene siendo el único proveedor de modelos que le ha dado a la ventana de contexto un lugar destacado en sus anuncios.

Deja un comentario