fbpx
LLMs LLMs

La magia detrás de los LLMs

Los LLMs y la atención.

Cuando interactuó por primera vez con modelos de lenguaje de IA generativa como ChatGPT o Gemini, debe haber sentido asombro y sorpresa por lo extraordinarios que son y lo natural que se sintió la conversación. ¡Era como magia! realmente, pero, ¿cómo puede una máquina entender algo que a los humanos nos llevó años idear?Evidentemente, nada es un logro de la noche a la mañana. El viaje comenzó en el año de 1950, cuando Alan Turing acuñó el término Juego de Imitación, también conocido como “Prueba de Turing”. Resumidamente, si le hace una pregunta a una entidad, ¿podrá distinguir si esa entidad es una máquina o un humano a partir de la respuesta que reciba? Conozca todo sobre la magia detrás de los LLMs aquí en TECHcetera.

 

Los LLMs y la atención

Cuando ChatGPT de OpenAI se hizo público, rompió Internet y todo el mundo hablaba de Inteligencia Artificial. Y claramente si alguien le pregunta ¿qué es ChatGPT? tanto usted como todos, deben saber que es un punto crucial en la historia de la humanidad. Esta fue la primera vez que se entregó al público en general un modelo de IA funcional y realmente útil, y además de eso, ¡encantó!

Pero, es de resaltar que, la Inteligencia Artificial (IA) ha estado ahí desde hace mucho tiempo. Por si no lo sabía, la primera red neuronal (red neuronal es un método de IA que enseña a las computadoras a procesar datos de una manera inspirada en el cerebro humano), se creó en el año de 1957.

Entonces, seguramente se pregunta; ¿a qué se debe este repentino hype o bombo? ¿qué pasó en el campo de la IA que dio origen a una Inteligencia Artificial tan poderosa que podía entender el lenguaje tan bien? la respuesta es; enseñamos a las máquinas a prestar atención, ¡y lo hicieron!

Tradicionalmente, los modelos de secuencia a secuencia, como las redes neuronales recurrentes (RNN) y las redes de memoria a corto plazo (LSTM) que aprovechaban la arquitectura codificador-decodificador, tenían limitaciones como:

  1. Problema del gradiente de desaparición.
  2. Memoria limitada.
  3. Así como, complejidad computacional.
LLMs
LLMs

 

¿Capacidad de prestar atención?

Para entender un poco esto, debemos decirle: imagínese estar en un juego de fútbol bastante animado y lleno de ruido con un amigo suyo. Las conversaciones chasquean, suena la tribuna, el silbato, las vuvuzelas. Sin embargo, gracias al enorme poder del cerebro humano usted se concentra en las palabras de su amigo. Eso es obra y gracia de la atención que, consiste en filtrar información para llevar a cabo una tarea, como concentrarse en lo que dice su amigo, en un ambiente ruidoso. Entonces, para ser exactos, la atención es esencial para filtrar la información del ruido.

Por lo mismo, al enseñar a las máquinas cómo y dónde prestar atención, es posible resolver el problema de tener que procesar secuencias largas.

 

La atención es parte de la magia!

El mecanismo de atención se centra en partes concretas de los datos de entrada (palabras de una oración) y les asigna distintos grados de importancia. No define un conjunto completo de instrucciones, sino más bien una forma determinada de procesar la información, teniendo en cuenta el contexto proporcionado por otros elementos de la secuencia.

La propuesta: transformadores y atención

Llega al mercado una arquitectura denominada Transformer (en español Transformador o, GPT como todo el mundo lo conoce), que se basa exclusivamente en un mecanismo de atención. La atención permite que el modelo se centre en partes específicas de la secuencia de entrada que son relevantes para el paso de procesamiento actual. Se introducen dos tipos de atención:

  • Autoatención: la cual se centra en cómo se relacionan entre sí las diferentes partes de una sola secuencia.
  • Atención codificador-decodificador: que permite que el decodificador le de relevancia a ciertas partes de la secuencia de entrada codificada.

Ahí está la magia: al usar únicamente mecanismos de atención, los “Transformers” tienen la capacidad de poder capturar dependencias de largo alcance dentro de secuencias de manera más efectiva que los RNN.

 

Deja un comentario