fbpx

La IA siempre está sedienta de data

La IA requiere datos de entrenamiento, pero esos datos son limitados.

La IA siempre está sedienta de data y de energía. Y es que la Inteligencia Artificial requiere datos de entrenamiento, pero esos datos son limitados. Entonces, ¿de qué otra manera podemos entrenar a la IA para que siga creciendo y nos sea útil?

Se podría pensar que Internet y sus datos son recursos inagotables, sin embargo, las herramientas de IA se están quedando sin datos que extraer. Debe saber que esto no va a detener el desarrollo de la Inteligencia Artificial: todavía hay cuantiosos datos listos para entrenar sistemas de IA. ¡Conozca todo al respecto aquí!

 

IA sedienta de data: ¡conozca estas soluciones!

Es crucial mencionar que como bien lo dijimos al inicio del artículo, la IA siempre está sedienta de data pero ¡no se preocupe! que a continuación, le proporcionaremos algunas soluciones que son realmente útiles. ¡No se las puede perder!

  1. Siempre se añaden más datos en línea

Algunos investigadores preocupados han llegado a afirmar que los datos de alta calidad con los que se entrena la IA podrían agotarse en el año 2026. La palabra clave aquí es “podría”. La cantidad de datos que se añaden a Internet cada año aumenta, por lo que algo drástico podría cambiar antes del año 2026. Aun así, es una estimación bastante razonable; de cualquier forma, los sistemas de Inteligencia Artificial (IA) se quedarán sin datos de calidad en algún momento.

Sin embargo, debemos recordar que cada año se añaden a la red unos 147 zettabytes de datos (según Exploding Topics). Un solo zettabyte equivale a 1 000 000 000 000 000 000 000 bits de datos. En términos reales, eso equivale a más de 30 000 millones de películas en 4K (reales, pero inimaginables). Es una cantidad sorprendente de información para que la Inteligencia Artificial la filtre. Sin embargo, varios hechos parecen reforzar la idea de: la IA consume datos más rápido de lo que la humanidad puede crearlos.

  1. La IA podría olvidar los datos de baja calidad

Evidentemente, no todos esos 147 zettabytes de datos son datos de buena calidad. Hay mucho más de lo que parece a simple vista, pero se estima que, para el año 2050, la IA también habrá consumido datos lingüísticos de baja calidad.

Google recientemente llegó a un acuerdo con Reddit, lo que le permite al gigante de las búsquedas usar los datos de los usuarios de la plataforma de redes sociales en su entrenamiento de IA. Otras plataformas de redes sociales también están proporcionando datos de los usuarios para fines de entrenamiento de Inteligencia Artificial, incluso, algunas los están usando para entrenar modelos de IA internos, como Llama de Meta.

Sin embargo, aunque se tiene la capacidad de poder extraer cierta información de datos de baja calidad, Microsoft está desarrollando una forma para que la IA “desaprenda” datos de forma selectiva. Especialmente, esto se usaría para problemas de propiedad intelectual, pero también podría significar que las herramientas pueden olvidar lo que han aprendido de conjuntos de datos de baja calidad.

Podríamos alimentar a la Inteligencia Artificial con más datos sin ser demasiado selectivos, entonces, esos sistemas de IA podrían elegir qué es lo más beneficioso para aprender.

Por otro lado, compañías como Red Hat e IBM han desarrollado métodos para entrenar los Modelos de Lenguaje Grandes (LLMs) con menos datos.

  1. El reconocimiento de voz permite acceder a datos de video y podcasts

Hasta el momento, los datos que se suministran a las herramientas de Inteligencia Artificial consistían principalmente en texto y, en menor medida, en imágenes. Sin duda, eso cambiará (y posiblemente ya haya sucedido), debido a que el software de reconocimiento de voz permitirá que la gran cantidad de videos y podcasts disponibles también puedan entrenar a la IA.

Es de resaltar que OpenAI desarrolló la red neuronal de reconocimiento automático de voz (ASR) de código abierto Whisper, utilizando 680.000 horas de datos multilingües y multitarea. OpenAI luego incorporó más de un millón de horas de información de videos de YouTube a su gran modelo de lenguaje, GPT-4.

Cabe destacar que, esta es una plantilla ideal para otros sistemas de Inteligencia Artificial (IA), que utilizan el reconocimiento de voz para transcribir videos y audio de cuantiosas fuentes y ejecutar esos datos a través de sus modelos de IA.

  1. Las editoriales podrían ayudar a desarrollar la Inteligencia Artificial

Algunos editores podrían ayudar a desarrollar IA mediante acuerdos de licencia. Esto significaría suministrar a las herramientas datos de alta calidad, es decir, confiables, extraídos de libros, en vez de información potencialmente de baja calidad extraída de fuentes en línea.

  1. Los datos sintéticos son el futuro

Vale la pena señalar que, todas las demás soluciones son todavía limitadas, pero hay una opción que podría permitir que la IA prospere en el futuro y esta es; los datos sintéticos. Y lo cierto es que, ya se está investigando como una posibilidad muy real.

Ante esto, ¿qué son los datos sintéticos? se debe dejar claro que son datos creados por IA, de la misma manera que los humanos crean datos, este método permitiría que la Inteligencia Artificial genere datos para fines de entrenamiento.

El riesgo está en que este tipo de tecnologías hace más barato, rápido y fácil manipular a las masa al crear Medios Sintéticos con un nivel de realidad que puede llegar a confundir al cerebro de cualquiera, tan increíbles son los resultados, que en ocasiones es necesario usar un método de análisis digno de un forense, con la ayuda de una red neuronal para poder determinar la veracidad de ciertos contenidos multimedia.

Así mismo, podría dañar o limitar las IA, reforzando y difundiendo los errores cometidos por esas herramientas.

  1. La Inteligencia Artificial es controvertida

Sin lugar a dudas, y como ya lo hemos mencionado en otras ocasiones desde TECHcetera, la Inteligencia Artificial (IA) tiene sus aspectos positivos y negativos. Por lo que es realmente necesario encontrar un equilibrio y mantener la ética a través de toda la línea de entrenamiento para evitar los sesgos.

Deja un comentario