Recientemente hemos podido corroborar que OpenAI ha lanzado un rastreador web para poder optimizar modelos de Inteligencia Artificial (IA) como; GPT-4. Denominado “GPTBot”, el sistema consigue rastrear Internet para entrenar y mejorar las capacidades de la IA. Hay que destacar que el uso de GPTBot logra poseer el potencial de mejorar los modelos de IA existentes en ciertos aspectos como; la precisión y así mismo, la seguridad, o al menos esto es lo que han informado mediante una publicación de blog de OpenAI. Pero, si desea conocer más detalles al respecto entonces no deje de leer este interesante post.
El sistema consigue rastrear Internet para entrenar y mejorar las capacidades de la IA
Según el correo, las páginas webs rastreadas con el agente de usuario de GPTBot pueden ser utilizadas de manera potencial para poder mejorar modelos futuros y así mismo, se filtran para poder eliminar fuentes que necesitan de acceso pago, se tiene conocimiento que recopilan información de identificación personal o incluso, tienen texto que viola las políticas.
Sin embargo, hay que señalar que los sitios webs pueden optar por limitar el acceso al rastreador web y evitar que GPTBot logre acceder a sus sitios, bien sea de forma parcial o total. Desde OpenAI han mencionado que los operadores de sitios web tienen la capacidad de poder rechazar el rastreador bloqueando su dirección IP o incluso, en el archivo Robots.txt de un sitio.
¿Cómo evitar que GPTBot utilice el contenido de su sitio web?
Según han mencionado desde OpenAI, existe la posibilidad de poder deshabilitar GPTBot agregándolo a Robots.txt de su sitio, que viene siendo un archivo de texto que instruye a los rastreadores web sobre a que pueden o a que no acceder desde un sitio web.
Así mismo, puede llegar a personalizar qué partes puede utilizar un rastreador web, permitiendo algunas páginas y rechazando algunas otras.