"La Fundación Wikimedia, propietaria de Wikipedia, dice que el coste del ancho de banda han aumentado un 50% desde enero de 2024, un aumento que atribuyen a los rastreadores de IA.
Las compañías de IA están matando la web abierta al robar visitantes de las fuentes de información y hacer que paguen por el privilegio."
Fuente: https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/
(Cito para añadir ALT y fuente a este tut:
https://mastodon.social/@camwilson/114267595008201156 )
@randty recuerdo cuando los rastreadores no eran tan rastreros. Respetaban el robots.txt y tal. Incluso no eran tan agresivos en frecuencia.
Ahora es el salvaje oeste.
@aurochs @fanta @randty para esto se utilizaba (y utiliza) el ya comentado userAgent que indica que tipo de software o dispositivo es el que está accediendo.
El problema es que yo puedo poner lo que me de la gana y estos crawlers basura que no respetan nada estan falseando su userAgent diciendo que son Firefox o que son un telefono o cualquier cosa menos que son un crawler de IA