fbpx

¿Qué es eso del data labeling?

El etiquetado de datos es parte de la etapa del preprocesamiento al desarrollar un modelo de aprendizaje automático.

Hay diversidad de términos que en ocasiones no tenemos certeza de que es lo que significan con exactitud, probablemente uno de ellos es el “data labeling” (etiquetado de datos). Es necesario conocer que el mismo es parte de la etapa del preprocesamiento al desarrollar un modelo de aprendizaje automático (ML). Pero, ¡no se preocupe! que a continuación le diremos todo lo que tiene que conocer al respecto hasta incluso como funciona, entre otros datos.

 

Esto es todo lo que tiene que conocer sobre data labeling (etiquetado de datos)

 

El etiquetado de datos (data labeling) solicita la identificación de datos sin procesar (es decir, imágenes, así como archivos de texto, e incluso, videos) y posteriormente la adición de una o más etiquetas a esos datos para detallar su contexto para los modelos, lo que permite que el modelo de aprendizaje automático haga predicciones precisas.

Vale la pena señalar que el etiquetado de datos sustenta diferentes casos de uso de aprendizaje automático y aprendizaje profundo, incluida la visión por computadora y el procesamiento del lenguaje natural (PLN).

 

¿Cómo funciona el etiquetado de datos?

 

Las empresas integran software, procesos y así mismo, anotadores de datos para limpiar, estructurar y etiquetar datos. Estos datos de entrenamiento se convierten en la base de los modelos de aprendizaje automático. Estas etiquetas permiten a los analistas aislar variables dentro de conjuntos de datos y esto, a su vez, permite la selección de predictores de datos óptimos para los modelos de ML. Las etiquetas identifican los vectores de datos adecuados que se extraerán para el entrenamiento del modelo, donde el modelo aprende a hacer las mejores predicciones.

Es de resaltar que, además de la asistencia de la máquina, las tareas de etiquetado de datos requieren la participación de un “humano en el circuito (HITL)”. HITL aprovecha el juicio de los “etiquetadores de datos” humanos para poder crear, entrenar, al mismo tiempo que, ajustar y probar modelos de ML. Ayudan a guiar el proceso de etiquetado de datos al alimentar los conjuntos de datos de los modelos que son más aplicables a un proyecto determinado.

 

Enfoques de etiquetado de datos

 

Es crucial dar a conocer que, el etiquetado de datos es un paso realmente fundamental en el desarrollo de un modelo de aprendizaje automático de alto rendimiento. Aunque el etiquetado parece simple, hay que destacar que no siempre es sencillo de implementar. Como resultado, las empresas tienen que considerar múltiples factores y métodos para determinar el mejor enfoque de etiquetado. Dado que cada método de etiquetado de datos posee sus pros y sus contras, se recomienda una evaluación detallada de la complejidad de la tarea, así como también del tamaño, alcance y duración del proyecto.

A continuación se muestran algunas formas de etiquetar sus datos:

  • Primero que nada hay que mencionar al etiquetado interno: el uso de expertos internos en ciencia de datos facilita el seguimiento, brinda mayor precisión y aumenta la calidad. Sin embargo, es necesario aclarar que, este enfoque suele requerir más tiempo y favorece a las grandes empresas con amplios recursos.
  • El etiquetado sintético: este enfoque logra generar nuevos datos de proyectos a partir de conjuntos de datos preexistentes, lo que mejora la calidad de los datos y al mismo tiempo, la eficiencia del tiempo. Sin embargo, el etiquetado sintético solicita una gran potencia informática, lo que tiene la capacidad de poder aumentar los precios.
  • Etiquetado programático: por su parte, este proceso automatizado de etiquetado de datos usa scripts para disminuir el consumo de tiempo y la necesidad de anotaciones humanas. Sin embargo, la posibilidad de problemas técnicos requiere que HITL continúe siendo parte del proceso de garantía de calidad (QA).
  • Subcontratación: esta tiene la capacidad de poder ser una opción óptima para proyectos temporales de alto nivel, pero desarrollar y gestionar un flujo de trabajo orientado a autónomos también puede llevar mucho tiempo. Aunque las plataformas independientes proporcionan información completa sobre los candidatos para facilitar el proceso de investigación, la contratación de equipos de etiquetado de datos administrados brinda personal previamente examinado y herramientas de etiquetado de datos prediseñadas.
  • Crowdsourcing: es de acotar que, este enfoque es más rápido y al mismo tiempo, rentable debido a su capacidad de microtareas y distribución basada en la web. Sin embargo, la calidad de los trabajadores, el control de calidad y así mismo, la gestión de proyectos varían según las plataformas de crowdsourcing. Uno de los ejemplos más populares de etiquetado de datos de colaboración colectiva es Recaptcha. Este proyecto tenía 2 vertientes: controlaba los bots y al mismo tiempo mejoraba la anotación de datos de las imágenes. Por ejemplo, un mensaje de Recaptcha pediría al usuario que identificara todas las fotos que contienen un automóvil para demostrar que son humanos, y luego este programa podría verificarse a sí mismo en función de los resultados de otros usuarios. Las aportaciones de estos usuarios brindaron una base de datos de etiquetas para una serie de imágenes.

Casos de uso de etiquetado de datos (data labeling)

 

Es necesario señalar que, aunque el etiquetado de datos tiene la capacidad de poder mejorar la precisión, así como la calidad y la usabilidad en múltiples contextos en todas las industrias, sus casos de uso más destacados incluyen los siguientes:

  • Visión por computadora: un campo de la Inteligencia Artificial (IA) que usa datos de entrenamiento para construir un modelo de visión por computadora que permite la segmentación de imágenes y la automatización de categorías, identifica puntos clave en una imagen y detecta la ubicación de los objetos. De hecho, IBM proporciona una plataforma de visión por computadora, Maximo Visual Inspection, que permite a los expertos en la materia (PYME) etiquetar y entrenar modelos de visión de aprendizaje profundo que se pueden implementar en la nube, dispositivos perimetrales y así mismo, centros de datos locales. La visión por computadora se usa en múltiples industrias, desde la energía y los servicios públicos hasta incluso, la manufactura y la automoción.
  • Procesamiento del lenguaje natural (NLP): una rama de la Inteligencia Artificial que combina la lingüística computacional con modelos estadísticos, de aprendizaje automático y de aprendizaje profundo para identificar y así mismo, etiquetar secciones importantes de texto que generan datos de entrenamiento para el análisis de sentimientos, el reconocimiento de nombres de entidades y también el reconocimiento óptico de caracteres.

Vale la pena señalar que, la PNL se utiliza cada vez más en soluciones empresariales como detección de spam, traducción automática, así como el reconocimiento de voz, resumen de texto, e incluso, asistentes virtuales y chatbots, entre otros. Esto ha logrado convertir a la PNL en un componente crítico en la evolución de los procesos comerciales de misión crítica.

 

Deja un comentario