La acción de reintento es una característica proporcionada en Octoparse para volver a cargar la página web que desea raspar en función de cierta condición.
¿Por qué configurar "Reintentar"?
Cuando la página web no se carga correctamente, Octoparse encontrará problemas sobre scrape datos de la página y sobre hacer la siguiente paso. En este caso, Octoparse debe volver a intentar cargar la página antes de comenzar la extracción.
¿Cómo configurar "Reintentar"?
La configuración de reintento solo está disponible en 3 operaciones relacionadas con la carga de la página en el flujo de trabajo: Ir a la página web, hacer clic en Elemento y hacer clic para paginar.
- Marque la casilla "Reintentar cuando", luego haga clic
para configurar la condición
Octoparse necesita una cierta condición para determinar si la página se carga normalmente y vuelve a intentar cargarla si la carga falla.
· Configure la opción "URL / contenido / elemento (XPath) contiene “la opción "Contiene / No contiene"
Por lo general, cuando la carga falla, la página web le responderá con un mensaje en la URL/contenido de la página actual para indicar lo que sucede, como ""/errors", "500 Internal Server Error" o "Too many requests". Ingrese una cadena específica como condición en el cuadro de texto y seleccione "Contains". Por lo tanto, Octoparse volvería a intentar cargar la página cuando Octoparse detecta una cadena en la URL / contenido de la página actual
También puede ingresar la XPath de algún elemento determinado que solo estaría allí cuando la página se cargue normalmente. En este caso, debe seleccionar "No contiene". Como resultado, una vez que Octoparse no detecte el XPath establecido en la página actual, volverá a cargar la página.
Puede hacer clic para agregar múltiples condiciones para que Octoparse haga el juicio.
· Configurar "Tiempos máximos de recargar" y tiempo de intervalo
Para evitar que Octoparse vuelva a cargar la página web indefinidamente, debe configurar los tiempos máximos de reintento. Cuando Octoparse alcanza los tiempos máximos de reintentos, se detendría y entraría en el siguiente paso.
Artículos relacionados:
Extraer varias páginas a través de la paginación
Extraer datos de una lista de URL
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.