Muchos usuarios han encontrado casos en los que Octoparse omite algunas páginas al raspar un sitio web. Por ejemplo, después de que raspa con éxito las dos primeras páginas, salta directamente a la página 5, luego tal vez a la página 10, pero no a las páginas en una secuencia.
Eso se debe a que el XPath generado automáticamente del bucle de paginación no siempre ubica el botón de página siguiente en cada página.
Tomamos esta URL como ejemplo: Ejemplo URL
En la primera página, puedes ver el bucle de paginación XPath ubica perfectamente el siguiente botón.
Sin embargo, en la segunda página, ese XPath ubica la página 10.
Entonces, después de terminar de raspar la segunda página, Octoparse iría directamente a la página 10, faltando muchos datos en las páginas intermedias.
¿Cómo solucionar el problema de omisión de páginas?
Es fácil resolver este problema: simplemente modifica el XPath para asegurarse de que siempre encontrará el botón "Siguiente".
- Inspecciona el botón siguiente en un navegador normal para verificar el código fuente
Hay un atributo de title en la etiqueta A. Podemos usar este atributo para escribir el XPath: //a[@title='Next'] (Aprende c'omo escribir un XPath aquí )
- Ingresa el XPath en Octoparse para verificar si siempre puede ubicar el siguiente botón
Tips! Consulta el siguiente para obtener más detalles sobre cómo usar XPATH en Octoparse. |
Si tienes algún problema en configurar tu tarea de raspado, no dudes en escribir a nuestro equipo de Soporte. Nos pondremos en contacto contigo dentro de 24 horas.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.