Un inesperado aliado están sumando los sitios webs contra la irrupción de los rastreadores de IA, raspadores de todo el contenido que existe en las páginas y que toma para llenar las bases de datos y capacitar a la inteligencia artificial, se trata de Cloudfare, ya que el proveedor de arquitectura en la web, será un Robin Hood que le quite a la IA para devolvérselo a los verdaderos dueños.
Cloudflare, ahora bloqueará a los rastreadores web de IA conocidos de forma predeterminada para evitar que «accedan al contenido sin permiso o compensación», según un anuncio el martes. Con el cambio, comenzará a preguntar a los nuevos propietarios de dominios si quieren permitir raspadores de IA, e incluso permitirá que algunos editores implementen una tarifa de «pago por rastreo«.
El programa Pay Per Crawl permitirá a los editores establecer un precio para que los scrapers de IA accedan a su contenido. A continuación, las empresas de IA pueden ver los precios y elegir si se registran para la tarifa de «Pago por rastreo» o se rechazan.
Esto solo está disponible para «un grupo de algunos de los principales editores y creadores de contenido» por ahora, pero Cloudflare dice que se asegurará de que «las empresas de IA puedan usar contenido de calidad de la manera correcta, con permiso y compensación».
La compañía comenzó a permitir que los sitios web bloquearan a los rastreadores de IA en 2023, pero solo se aplicó a los que cumplen con el archivo robots.txt de un sitio, el acuerdo inaplicable que señala si los bots pueden raspar su contenido. Cloudflare comenzó a permitir que los sitios web bloqueen «todos» los bots de IA el año pasado, ya sea que respeten el archivo robots.txt de un sitio o no, y ahora esta configuración está habilitada de forma predeterminada para los nuevos clientes de Cloudflare. La empresa también lanzó una función en marzo que envía bots de rastreo web a un «laberinto de IA» para disuadirlos de raspar sitios sin permiso.
Además, Cloudflare dice que está trabajando con empresas de IA para ayudar a verificar sus rastreadores y permitirles «declarar claramente su propósito», por ejemplo, si están utilizando el contenido para entrenamiento, inferencia o búsqueda. A continuación, los propietarios de sitios web pueden revisar esta información y determinar qué rastreadores permitir.
«El contenido original es lo que hace de Internet uno de los mayores inventos del siglo pasado, y tenemos que unirnos para protegerlo», dijo el CEO de Cloudflare, Matthew Prince en el comunicado de prensa. «Los rastreadores de IA han estado raspando contenido sin límites. Nuestro objetivo es devolver el poder a los creadores, sin dejar de ayudar a las empresas de IA a innovar».