El pasado jueves, la startup de Inteligencia Artificial (IA) Black Forest Labs anunció el lanzamiento de su empresa y el lanzamiento de su primer conjunto de modelos de IA de texto a imagen, denominado “FLUX.1”. La compañía con sede en Alemania, fundada por investigadores que desarrollaron la tecnología detrás de Stable Diffusion e inventaron la técnica de difusión latente, tiene como objetivo crear una IA generativa avanzada para imágenes y videos.
Vale la pena destacar que, el lanzamiento de FLUX.1 se produce unas 7 semanas después del problemático lanzamiento de Stable Diffusion 3 Medium de Stability AI a mediados del mes de junio. La oferta de Stability AI enfrentó críticas generalizadas entre los aficionados a la síntesis de imágenes por su pobre desempeño en la generación de anatomía humana, y los usuarios compartieron ejemplos de miembros y cuerpos distorsionados en las redes sociales. Ese lanzamiento problemático siguió a la salida anterior de 3 ingenieros clave de Stability AI: Robin Rombach, así como Andreas Blattmann y Dominik Lorenz, quienes posteriormente fundaron Black Forest Labs junto con el codesarrollador de difusión latente Patrick Esser y otros.
Datos más destacados sobre “FLUX” el nuevo generador de imágenes
Black Forest Labs lanzó 3 modelos de conversión de texto a imagen FLUX.1: una versión comercial de gama alta “pro”, así como una versión de gama media “dev” para uso no comercial y una versión más rápida con pesos abiertos “schnell” (schnell significa rápido o veloz en alemán). Black Forest Labs ha afirmado que sus modelos superan a las opciones existentes como Midjourney y DALL-E en áreas como la calidad de la imagen y así mismo, la adherencia a las indicaciones de texto (habrá que comprobar eso).
Según dicen los que los han probado, los resultados de los 2 modelos FLUX.1 de gama alta son generalmente comparables con DALL-E 3 de OpenAI en fidelidad instantánea, con un fotorrealismo que parece cercano a Midjourney 6. Representan una mejora significativa con respecto a Stable Diffusion XL.
Es de resaltar que, los modelos FLUX.1 usan lo que la compañía denomina una “arquitectura híbrida” que combina técnicas de difusión y transformación, ampliadas hasta 12 mil millones de parámetros. Black Forest Labs aseveró que mejora los modelos de difusión anteriores al incorporar la adaptación del flujo y de igual forma, otras optimizaciones.
FLUX.1 parece competente en la generación de manos humanas, lo que era un punto débil en los modelos de síntesis de imágenes anteriores como Stable Diffusion 1.5 debido a la falta de imágenes de entrenamiento que se centraran en las manos. Desde aquellos primeros días, otros generadores de imágenes de IA como por ejemplo Midjourney también han dominado las manos, pero es notable percibir un modelo de pesos abiertos que representa las manos con relativa precisión en diversas poses.