fbpx
Problemas con Data Scraping Problemas con Data Scraping

Data Scraping: ¿Qué sería lo adecuado?

Todos los detalles acerca del raspado de datos (data scraping o web scraping).

Por si no lo sabía, la sociedad se enfrenta a un desafío urgente y complejo de extracción de datos de Inteligencia Artificial (IA). Si no se resuelve, podría amenazar la innovación responsable de la IA. La extracción de datos (scraping) se refiere al uso de rastreadores web u otros medios para obtener datos de sitios web de terceros o propiedades de redes sociales. Los grandes modelos de lenguaje (LLM) actuales dependen de grandes cantidades de datos extraídos para el entrenamiento y, potencialmente, otros fines. Es de resaltar que, los datos extraídos pueden incluir hechos, contenido creativo, así como código informático, información personal, marcas y casi cualquier otra cosa. Al menos algunos operadores de LLM extraen datos directamente de sitios de terceros.  Common Crawl, LAION y otros sitios hacen que los datos extraídos sean fácilmente accesibles. Mientras tanto, Bright Data y otros proporcionan datos extraídos por una tarifa.

Además de impulsar los programas de maestría en derecho comercial, los datos extraídos tienen la capacidad de poder proporcionar a los investigadores datos muy necesarios para promover el bien social.

Data scraping
Data scraping

 

El raspado de datos (data scraping o web scraping)

Vale la pena señalar que, a pesar de estos beneficios, la extracción de datos ha generado muchas controversias. Es posible que esta tendencia continúe, en particular con el auge de Sora de OpenAI y otros LLM de texto a video. Cuantiosas controversias se centran en los operadores de LLM que no buscan el consentimiento afirmativo ni proporcionan compensación por los datos extraídos a pesar del hecho de que tienen la posibilidad de incluir materiales con derechos de autor, marcas comerciales o incluso, información personal. Y, según se informa, a algunos datos extraídos se les ha quitado su información de gestión de derechos de autor (CMI). Para agravar las preocupaciones, los operadores de LLM frecuentemente se benefician económicamente de los modelos LLM entrenados con datos extraídos.

Es crucial destacar que las preocupaciones por el Scrapping de datos se extienden a diversidad de otros ámbitos. Por ejemplo, acciones a nivel de información personal puede violar las leyes de privacidad y poner en peligro información personal altamente sensible. Los resultados de LLM también tienen la posibilidad de revelar información personal o producir nuevos datos personales sobre individuos. Inclusive, los LLM también pueden alucinar, lo que se suma a las preocupaciones legales. Cabe aclarar que, este tipo de actividades no se alinean con las Directrices de Privacidad de la OCDE de 1980 ni tampoco con los Principios de IA de la OCDE. Para ayudar a abordar estas preocupaciones, la OCDE formó un nuevo Grupo de Expertos sobre IA, Datos y Privacidad, construyendo más puentes entre la Inteligencia Artificial y la privacidad.

En relación con esto, 12 autoridades de protección de datos emitieron recientemente una declaración conjunta (Declaración conjunta de la DPA) en la que se subrayan los riesgos de ciberseguridad que supone la extracción de datos. Y las huelgas del Sindicato de Actores de Cine y del Sindicato de Guionistas del año pasado colocan de relieve cómo la extracción de datos y los títulos de máster tienen la capacidad de poder perjudicar a los trabajadores.

Un camino responsable a seguir

Cabe aclarar que, los responsables de las políticas han respondido al desafío de la extracción de datos de Inteligencia Artificial tratando de trazar un camino responsable a seguir, tanto a nivel multilateral como en cada jurisdicción.

Ahora bien, por si no lo sabía, la histórica Ley de Inteligencia Artificial de la UE incluye disposiciones sobre extracción de datos y propiedad intelectual que entrarán en vigor, sumándose a los requisitos existentes en el Reglamento General de Protección de Datos, los regímenes de extracción de texto y datos, así como la Ley de Datos y la Ley de Gobernanza de Datos. Se debe tener presente que la Ley de Inteligencia Artificial prohibirá los sistemas de IA que contribuyan a las bases de datos de reconocimiento facial mediante la extracción no dirigida de imágenes faciales de Internet o de grabaciones de CCTV. Igualmente exigirá que los sistemas de Inteligencia Artificial de uso general cumplan con las leyes de derechos de autor de la UE y los requisitos de transparencia, incluido el intercambio de información sobre los datos de entrenamiento.

Por su parte, Estados Unidos tiene en marcha diversas iniciativas de políticas de extracción de datos. Por ejemplo, la Oficina de Derechos de Autor de Estados Unidos solicitó comentarios públicos sobre la IA y los derechos de autor, incluidos los datos de entrenamiento de Inteligencia Artificial y los enfoques de concesión de licencias. La reciente Orden Ejecutiva sobre IA del presidente Biden ordena a la Oficina de Derechos de Autor que emita recomendaciones sobre la protección de las obras generadas por IA y el uso de materiales con derechos de autor para el entrenamiento de IA. Igualmente exige una mayor protección de la privacidad. La Comisión Federal de Comercio (FTC) abordó los datos de entrenamiento de Inteligencia Artificial en su reciente informe sobre la IA general y la economía creativa. La FTC de igual forma, ha expresado inquietudes sobre la protección del consumidor y la ley de competencia y ha exigido la restitución de ciertos modelos de IA entrenados con datos sin los consentimientos apropiados.

No son los únicos, otros responsables de la formulación de políticas también se están centrando en la extracción de datos. Por ejemplo, el Reino Unido convocó a un grupo de trabajo para desarrollar un código de conducta para los derechos de autor y la Inteligencia Artificial, con el objetivo de aumentar las licencias de extracción de datos. Aunque este grupo de trabajo no logró llegar a un acuerdo, el gobierno del Reino Unido continúa buscando soluciones. Hasta Colombia está tratando de regular la IA.

 

Deja un comentario