Octoparse Configuración de Anti-Bloqueo
Actualizado hace más de una semana

Algunos sitios web son muy sensibles al web scraping y toman medidas contra el scraping como el bloqueo de IP para evitar posibles actividades de scraping.

En este tutorial, le mostraré cómo configurar Octoparse Anti-Blocking en "Configuración" sobre el flujo de trabajo en una tarea antes de ejecutar esta tarea para reducir la posibilidad de ser bloqueado.

Utilice proxies IP (solo para extracción local)


Puede configurar proxies manualmente en Octoparse si desea acceder al sitio web con proxies externos (por ejemplo, de un país específico) o si prefiere usar sus propios proxies en lugar de usar nuestras funciones de rotación automática de IP de Cloud Extraction. Para obtener más información sobre cómo configurar proxies, consulte Configurar proxies.

  • Marque la casilla "Usar proxies IP" y haga clic en "Configuración".

  • Ingrese los proxies y la cantidad de segundos para cambiar los proxies.

  • Haga clic en "Aceptar" para guardar el cambio.

Octoparse cambiará automáticamente los proxies según lo establezca cuando la tarea se ejecute localmente.

Cambio automático de navegador (agente de usuario)


Su navegador envía lo que se conoce como agente de usuario para cualquier página web que visite. Esta es una cadena para decirle al sitio web de destino con qué tipo de dispositivo está accediendo a la página. Al scrape un sitio web de manera muy consistente con el mismo agente de usuario, es fácil ser detectado como una actividad de bot de scraping. Por lo tanto, con esta característica, se puede reducir la posibilidad de ser bloqueado.

Para configurar el navegador de cambio automático:

  • Marque la casilla "Cambio de navegador automático (agente de usuario)".

  • Haga clic en "Configuración" para configurar el tipo de agente de usuario.


No todas las UA funcionan para todos los sitios web, por lo que es posible que necesite algunas pruebas. Si desea que Octoparse visite el sitio web "a través de una PC" cuando raspe el sitio web, debe marcar la casilla "Seleccionar todo" y desmarcar la casilla "Firefox para dispositivos móviles 29.0"; si desea que Octoparse visite el sitio web "a través de dispositivos móviles", solo debe marcar la casilla "Firefox para dispositivos móviles 29.0".

  • Haga clic en Aceptar para guardar el cambio.

  • Marque la casilla "Intervalo personalizado" y seleccione el número de minutos para cambiar el agente de usuario o marque la casilla "Cambiar IP simultáneamente".

Octoparse cambiará automáticamente el agente de usuario según lo establezca cuando la tarea se ejecute localmente o en la nube.

Cookies de borrado automático


Al raspar un sitio web de manera muy consistente con la misma cookie, es fácil ser detectado como una actividad de scraping de bot. Por lo tanto, con esta característica, se puede reducir la posibilidad de ser bloqueado.

  • Marque la casilla "Borrar cookies automáticamente"

  • Marque la casilla "Intervalo personalizado" y seleccione el número de minutos para cambiar el agente de usuario o marque la casilla "Borrar cookies cuando las IP cambien".

Octoparse borrará automáticamente las cookies a medida que las configure cuando la tarea se ejecute localmente o en la nube.

Después de configurar Octoparse Anti-Blocking, puede hacer clic en "Guardar" para guardar la configuración.

¿Ha quedado contestada tu pregunta?