Muchos usuarios se han encontrado con casos en los que Octoparse omite algunas páginas al scrapear un sitio web. Por ejemplo, después de que scrapea con éxito las dos primeras páginas, salta directamente a la página 5, luego tal vez a la página 10, pero no a las páginas en una secuencia.
Esto se debe a que el XPath generado automáticamente del bucle de paginación no siempre ubica el botón de página siguiente en cada página.
Echa un vistazo al siguiente ejemplo: Example URL
En la primera página, puedes ver el XPath de bucle de paginación ubica perfectamente el siguiente botón.
Sin embargo, en la segunda página, el XPath ubica la página 10.
Entonces, después de terminar de scrapear la segunda página, Octoparse iría directamente a la página 10, faltando muchos datos en las páginas intermedias.
¿Cómo solucionar este tipo de problema de omisión de páginas?
Es fácil resolver este problema: simplemente modifica XPath para asegurarte de que siempre encontrará el botón "Siguiente".
- Inspecciona el siguiente botón en un navegador normal para verificar el código fuente
Hay un atributo de título en la etiqueta A. Podemos usar este atributo para escribir XPath: //a[@title='Next'] (Aprende cómo escribir un XPath aquí )
- Ingresa XPath en Octoparse para verificar si siempre puede ubicar el siguiente botón
Tips! Después de hacer un bucle de paginación en una tarea, será mejor que hagas clic manualmente en la acción "Hacer clic para paginar" para ir a varias páginas como muestra este tutorial para comprobar si el XPath generado automáticamente puede localizar el siguiente botón con precisión. Consulta este tutorial para obtener más detalles sobre cómo usar XPATH en Octoparse. |
Si tienes alguna duda en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.