La acción de reintentar es una característica proporcionada en Octoparse para tratar los errores de carga de la página. Hay una serie de condiciones entre las que puedes elegir para que Octoparse vuelva a cargar la página web actual. Para hacer web scraping, es esencial asegurarte de que la página web se cargue correctamente para que Octoparse pueda continuar extrayendo la información que necesitas.
1. ¿Por qué configurar Reintentar?
Octoparse tiene problemas en recuperar los datos web de destino o incluso en continuar con la siguiente acción cuando la página web no se carga correctamente. Por esta razón, es útil configurar las condiciones de "Reintentar" para cuándo se debe volver a cargar la página web antes de extraer los datos.
2. ¿Cómo configurar Reintentar?
La opción Reintentar solo está disponible para dos acciones relacionadas con la carga de páginas en el flujo de trabajo: 1) Ir a la página web y 2) Hacer clic en Elemento / Hacer clic para paginar.
1) Haz clic en la acción para acceder a la configuración. Luego, puedes la configuración de Reintentar.
2) Ahora, marca la casilla "Reintentar la acción cuando", luego haz clic en para configurar las condiciones para cuando la página deba recargarse. Básicamente, le estás diciendo a Octoparse cuándo volver a cargar la página si se cumplen una o más condiciones.
Ahora, configura tus condiciones de reintento usando las opciones proporcionadas.
Normalmente, cuando una página no se carga correctamente, recibirás mensajes de error como "errores", "500 Error interno del servidor" o "Demasiadas solicitudes". Digamos que queremos que la página se vuelva a cargar cuando tengamos "500 Internal Server Error" en la página. En este caso, la condición debe ser: si el texto de la página actual contiene "500 Internal Server Error", vuelva a cargar la página. Como resultado, Octoparse volvería a intentar cargar la página cuando la cadena se encuentre en la página actual.
También puedes ingresar el XPath de un determinado elemento que solo estaría allí cuando la página se cargue correctamente. En este caso, debe seleccionar No contiene. Como resultado, si el elemento designado no se encuentra en la página, Octoparse recargaría la página.
Sigue haciendo clic en para agregar tantas condiciones como necesites según los requisitos de tu proyecto.
3) Configurar las veces de Reintento y el Tiempo de Espera
Después de configurar las condiciones de reintentar, puedes decidir si deseas volver a intentar cargar la página web una, dos o más veces. Tener un máximo. El número de veces para el reintento es fundamental para que Octoparse no vuelva a cargar la página web sin cesar. Cuando Octoparse alcanza el número máximo de reintentos, se detendrá y continuará con el siguiente paso.
Si tienes algún problema en configurar tsu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.