Acción de reintentar
Actualizado hace más de una semana

La acción de reintentar es una característica proporcionada en Octoparse para tratar los errores de carga de la página. Hay una serie de condiciones entre las que puedes elegir para que Octoparse vuelva a cargar la página web actual. Para hacer web scraping, es esencial asegurarte de que la página web se cargue correctamente para que Octoparse pueda continuar extrayendo la información que necesitas.

1. ¿Por qué configurar Reintentar?

Octoparse tiene problemas en recuperar los datos web de destino o incluso en continuar con la siguiente acción cuando la página web no se carga correctamente. Por esta razón, es útil configurar las condiciones de "Reintentar" para cuándo se debe volver a cargar la página web antes de extraer los datos.

2. ¿Cómo configurar Reintentar?

La opción Reintentar solo está disponible para dos acciones relacionadas con la carga de páginas en el flujo de trabajo: 1) Ir a la página web y 2) Hacer clic en Elemento / Hacer clic para paginar.

1) Haz doble clic en la acción para acceder a la configuración. Luego, puedes hacer clic en abrir Reintentar para revelar las opciones.

mceclip6.png

2) Ahora, marca la casilla "Reintentar la acción cuando", luego haga clic en

mceclip0.png

para configurar las condiciones para cuando la página deba recargarse. Básicamente, le estás diciendo a Octoparse cuándo volver a cargar la página si se cumplen una o más condiciones.

mceclip1.png

Ahora, configura tus condiciones de reintento usando las opciones proporcionadas.

mceclip2.png
mceclip3.png

Normalmente, cuando una página no se carga correctamente, recibirás mensajes de error como "errores", "500 Error interno del servidor" o "Demasiadas solicitudes". Digamos que queremos que la página se vuelva a cargar cuando tengamos "500 Internal Server Error" en la página. En este caso, la condición debe ser: si el texto de la página actual contiene "500 Internal Server Error", vuelva a cargar la página. Como resultado, Octoparse volvería a intentar cargar la página cuando la cadena se encuentre en la página actual.

mceclip4.png

También puedes ingresar el XPath de un determinado elemento que solo estaría allí cuando la página se cargue correctamente. En este caso, debe seleccionar Does not contain. Como resultado, si el elemento designado no se encuentra en la página, Octoparse recargaría la página.

mceclip5.png

Sigue haciendo clic en

mceclip022.png

para agregar tantas condiciones como necesites según los requisitos de tu proyecto.

3) Configurar las veces de Reintento y el Tiempo de Espera

Después de configurar las condiciones de reintentar, puedes decidir si deseas volver a intentar cargar la página web una, dos o más veces. Tener un máximo. El número de veces para el reintento es fundamental para que Octoparse no vuelva a cargar la página web sin cesar. Cuando Octoparse alcanza el número máximo de reintentos, se detendrá y continuará con el siguiente paso.

mceclip7.png

4) Configurar proxies o agente de usuario

En ocasiones, es posible que su solicitud no se procese debido a una dirección IP bloqueada. Para resolver este problema, seleccione Rotar proxies al recargar la página para iniciar la rotación de IP. También puede seleccionar Rotar agente de usuario (navegador) al recargar la página para cambiar el agente de usuario que Octoparse utiliza para cargar la página.

¿Ha quedado contestada tu pregunta?