En la primera página, puede ver que el bucle de paginación XPath localiza el botón siguiente perfectamente.
Muchos usuarios han encontrado un caso en el que Octoparse se salta algunas páginas al raspar un sitio web. Por ejemplo, después de raspar con éxito las dos primeras páginas, salta directamente a la página 5, luego tal vez a la página 10, pero no va a las páginas en secuencia.
Eso es causado por el XPath generado automáticamente del bucle de paginación que no siempre localiza el botón de la página siguiente en cada página.
Eche un vistazo al siguiente ejemplo: (Example URL)
En la primera página, puede ver que el bucle de paginación XPath localiza el botón siguiente perfectamente.
Sin embargo, en la segunda página, XPath localiza la página 10.
¿Cómo resolver tal problema de página de salto?
Es fácil resolver este problema: simplemente modifique el XPath para asegurarse de que siempre encontrará el siguiente botón.
En primer lugar, puede inspeccionar el siguiente botón en Firefox para verificar el código fuente:
Hay un atributo de título en una etiqueta. Podemos usar este atributo para escribir XPath: // a [@ title = 'Next'] (Vea cómo escribir un XPath aquí )
Ingrese el XPath en Octoparse para verificar si siempre puede ubicar el siguiente botón.
¡Consejos!
Después de hacer un bucle de paginación en una tarea, será mejor que haga clic manualmente en la acción "Hacer clic para paginar" para ir a varias páginas, como se muestra en este tutorial para verificar si el XPath generado automáticamente podría localizar el siguiente botón con precisión.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.