Imagina que estás haciendo una tarea de matemáticas. Si usas números incorrectos en tus cálculos, ¿qué crees que sucederá? Exactamente, obtendrás una respuesta incorrecta. En el mundo de la tecnología y la inteligencia artificial (IA) pasa lo mismo, de hecho, hay un principio denominado “Garbage In, Garbage Out” (GIGO) que significa lo mismo. Si alimentas a una computadora con datos malos o incorrectos (garbage in), la computadora te dará resultados malos o incorrectos (garbage out).
¿Por qué son importantes los datos en la IA?
La inteligencia artificial necesita aprender para poder hacer cosas asombrosas como reconocer voces, entender textos o incluso jugar videojuegos mejor cada vez mejor pero, para aprender, necesita datos, y no cualquier tipo de datos, sino datos de buena calidad.
Tal como se pude ver en el video relacionado con este tema, lastimosamente, teniendo en cuenta que, en ocasiones, el set de datos puede ser limitado, incompleto, codificado con falta de valores o de forma excluyente hacía algunos grupos éticos, sociales y/o ideológicos; el resultado, como era de esperarse, será que las normas o reglas terminen siendo también sesgados o llenos de vicios.
Volvamos a la importancia de los datos…
- Si los datos que usas son correctos y precisos, la IA podrá aprender mejor y dar respuestas más exactas.
- Los datos deben ser relevantes en el proceso de aprendizaje.
- Cuantos más datos diferentes tenga, mejor podrá aprender la IA a manejar situaciones diversas y a reconocer patrones.
Qué pasa entonces con los datos de mala calidad?
Muchas veces los algoritmos tienen desviaciones o vicios. El problema es que, a veces (como en el caso de Twitter) esos sesgos pueden evitar que los usuarios se expresen como ellos desean hacerlo en una determinada plataforma. Peor aún, en algunos caso, como el del reconocimiento facial, los algoritmos suelen ser menos precisos y causar problemas a las personas con un tono de piel más oscuro, o de cierto genero, etc… (tal como lo habíamos dicho anteriormente en otro artículo).
Así las cosas, si los datos son pobres, errados o tienen sesgos, la IA no aprenderá correctamente. Aquí hay algunos problemas que pueden surgir:
- La IA podría tomar decisiones incorrectas. Por ejemplo, si una IA que recomienda películas recibe datos incorrectos, podría recomendarte películas que no te gustan.
- Si los datos están sesgados, la IA aprenderá esos mismos sesgos y tomará decisiones injustas.
- En caso de delirios y alucinaciones constantes, la gente dejará de confiar en ella.
¿Cómo lograr calidad en los datos?
Como era de esperarse, ese es uno de los temas más difíciles y existen las siguientes pautas para lograrlo:
- Hay que asegurarse de que los datos sean correctos y relevantes. Esto significa recolectar información precisa y relacionada con lo que queremos que la IA aprenda.
- Es menester revisar o hacer limpieza de los datos para eliminar errores o información incorrecta. Esto puede incluir eliminar duplicados, corregir errores tipográficos y asegurarse de que todos los datos sean consistentes.
- Finalmente, se debe revisar y validar continuamente los datos mientras la IA está aprendiendo. Esto ayuda a detectar y corregir problemas antes de que afecten el aprendizaje de la IA.
Y… Entonces?
Es claro que el principio de “GIGO” nos enseña que la calidad de los datos es fundamental para el éxito de la inteligencia artificial. Al asegurarnos de que los datos que utilizamos son precisos, relevantes y bien procesados, podemos crear IA que realmente nos ayuden y tomen decisiones inteligentes.