Cada vez más propietarios de sitios web han equipado sus sitios con todo tipo de técnicas anti-scraping para bloquear los raspadores, lo que hace que el raspado sea más difícil. En este artículo, le presentaremos algunas técnicas para antibloquear en Octoparse.
1. Configure el tiempo de espera para ralentizar el scraping
La mayoría de los sitios web se bloquean al detectar la velocidad de acceso de una dirección IP. Puede configurar el tiempo de espera para cualquier paso en el flujo de trabajo para controlar la velocidad de raspado. Incluso hay una opción "aleatoria" para hacer que el scraping sea más humano.
2. Configure la rotación de IP (solo extracción local)
Cuando un sitio detecta que hay una serie de solicitudes de una sola dirección IP, bloqueará fácilmente la dirección IP. Para evitar enviar todas sus solicitudes a través de la misma dirección IP, puede usar servidores proxy.
La extracción local de Octoparse permite a los usuarios configurar proxies para evitar ser bloqueados.
3. Cambie los agentes de usuario y borre las cookies
Cada solicitud realizada por un navegador web contiene un agente de usuario. El uso de un agente de usuario para un número anormalmente grande de solicitudes lo llevará al bloqueo. Si desea evitar el bloqueo, debe cambiar la frecuencia del agente de usuario en lugar de usarlo con un solo agente.
Con Octoparse, puede habilitar fácilmente la rotación automática de UA en su rastreador para reducir el riesgo de ser bloqueado.
Y algunos sitios web pueden recordar las cookies que utiliza para acceder a las páginas. Podemos borrar las cookies automáticamente para fingir ser la primera vez que accedemos a las páginas.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.