Hace poco en TECHcetera hablamos sobre una herramienta asombrosa que usa la Inteligencia Artificial (AI) para transformar texto en imágenes, lo cual, aunque suena como el futuro, no lo es, es el presente! Tan avanzado está el tema que, ya hay polémica por casos como el de Jason M. Allen de Pueblo West que, para bien o para mal, ganó una competencia de arte usando Midjorney, una plataforma precisamente para convertir lineas de texto en imágenes hiperrealiastas dignas de un galardón.
La verdad sea dicha, los resultados de la conversión de texto en imágenes son bastante sorprendentes y el nivel de detalle ni se diga! Es increíble como los procesos de aprendizaje de máquina han sido capaces de recopilar la información de millones de personas que han cargado sus obras de arte a internet y, sin si quiera saberlo, han ayudado a entrenar a este tipo de Inteligencia Artificial para generar nuevas creaciones.
En realidad este tema de convertir de imagen a texto puede llegar a ser muy interesante y un tanto escalofriante.
Google responde nuestras preguntas sobre el modelo de conversión de texto en imágenes
Para entender un poco más cómo funciona este tipo de de modelo y la tecnología que hay detrás, le hicimos varias preguntas a la gente de Google y estas son las respuestas que nos dieron (acompañadas de algunos comentarios extra de nuestra parte en color azul y en itálica).
¿Cuáles son los principios básicos sobre este modelo de conversión de texto en imágenes?
Con los modelos de texto a imagen, las personas brindan una descripción de texto y los modelos producen imágenes que coinciden lo más posible con la descripción. Esto puede ser algo tan simple como “una manzana” o “un gato sentado en un sofá” hasta detalles más complejos, interacciones e indicadores descriptivos como: “un lindo perezoso sosteniendo un pequeño cofre del tesoro” o este mismo animal, pero con la descripción de “un brillo dorado brillante proviene del cofre”.
En los últimos años, los modelos de machine learning se han entrenado con grandes conjuntos de datos de imágenes y sus descripciones textuales correspondientes, lo que da como resultado imágenes de mayor calidad y una gama más amplia de descripciones.
¿Qué tipo de modelo de aprendizaje de máquina usa el modelo de conversión de texto en imágenes?
Imagen y Parti se basan en modelos anteriores. Los modelos de transformadores pueden procesar palabras en relación entre sí en una oración. Son fundamentales para la forma en que representamos el texto en nuestros modelos de texto a imagen. Ambos modelos también utilizan una nueva técnica que ayuda a generar imágenes que se asemejan más a la descripción del texto. Si bien Imagen y Parti utilizan una tecnología similar, persiguen estrategias diferentes pero complementarias.
Imagen es un modelo de difusión, que aprende a convertir un patrón de puntos aleatorios en imágenes. Estas imágenes comienzan primero como de baja resolución y luego aumentan progresivamente en resolución. Recientemente, los modelos de difusión han tenido éxito en tareas de imagen y audio, como mejorar la resolución de la imagen, cambiar el color de las fotos en blanco y negro, editar regiones de una imagen, desrecortar imágenes y síntesis de texto a voz.
Por su parte, el enfoque de Parti primero convierte una colección de imágenes en una secuencia de entradas de código, similar a las piezas de un rompecabezas. Luego, un mensaje de texto determinado se traduce en estas entradas de código y se crea una nueva imagen. Este enfoque aprovecha la investigación y la infraestructura existentes para modelos de lenguaje grandes como PaLM y es fundamental para manejar indicaciones de texto largas y complejas y producir imágenes de alta calidad.
Los modelos son variados y depende del momento de aprendizaje de los sistemas y las necesidades que tiene a medida que aprende a contextualizar solicitudes y diferentes evaluaciones realizadas por el equipo humano.
Dado que este tipo de respuesta puede llegar a ser complejo, recomendamos ver el siguiente video y visitar este artículo sobre el aprendizaje de máquina.
¿Puede usarse para convertir de texto a cualquier cosa como una imagen, audio o video?
Por ahora, tanto Imagen como Parti son sistemas para convertir texto en imágenes.
En estado salvaje (demos, betas y demás) ya existen otras plataformas de otros desarrolladores capaces de hacer la conversión de texto a video y otros formatos.
¿Este modelo de conversión de texto en imágenes es accesible a todo el mundo? ¿Cómo? ?Costos? ¿Limitaciones?
Cómo hemos mencionado son modelos que están en desarrollo e investigación para conocer más sobre ellos. Seguiremos trabajando para aprovechar lo mejor de ambos modelos y expandir sus posibilidades. De manera responsable y en línea con nuestros principios IA, tenemos el objetivo de ofrecer estas experiencias a nuestros usuarios en un ambiente seguro y responsable que pueda fomentar la creatividad.
Cabe aclarar que: existen varias opciones que no son de Google como Midjorney, otras plataformas y hasta algunas apps para móviles que están en Google Play y el AppStore.
¿Cuál es la ética detrás del modelo de conversión de texto en imágenes?
Imagen y Parti se alinean con nuestros principios responsables IA, para conocer más sobre estos puede visitar nuestro sitio. Además, ninguna de las dos inteligencias fueron creadas para recrear imágenes de humanos; sin embargo, entendemos que con el alto nivel de realismo y las mejoras rápidas que hay en este tipo de imágenes; por eso, cada imagen que crea el sistema tiene una marca de agua, no visible al ojo humano, con información de cuál sistema la creó para evitar la desinformación.
Para ampliar un poco más sobre el tema que está en juego en este terreno de la AI, vale la pena visitar el siguiente artículo sobre los DeepFakes!
¿Qué nivel de realismo puede lograr el modelo de conversión de texto en imágenes?
Imagen y Parti usan dos aproximaciones diferentes, pero se obtienen imágenes altamente realistas, gracias a su modelo de aprendizaje. Aún tiene algunas limitaciones. Ninguno de los dos puede contar objetos, por ejemplo, pedirle que dibuje 10 manzanas. Tampoco puede ubicar objetos basados en descripciones espaciales específicas. Seguiremos trabajando para superar estas pruebas.
¿Cómo aplican el modelo de propiedad intelectual a las imágenes generadas por la AI? ¿De quién son? ¿Qué usos son permitidos?
Ambas inteligencias son prototipos en desarrollo y seguiremos trabajando, teniendo en cuenta sus limitaciones. Por ahora, al no ser herramientas disponibles al público, no podemos discutir temas como propiedad intelectual.
Tal como lo comentábamos anteriormente en TECHCetera, recientemente un juzgado en Estados Unidos declaró que una Inteligencia Artificial no podía patentar o proteger vía un copyright una obra que hubiese creado.
Nota final para el lector: todas las imágenes de este artículo fueron generadas por medio del uso de varios modelos de conversión de texto en imágenes (ósea las hizo la Inteligencia Artificial)!