Si estás pensando en scrapear un sitio web, es probable que desees navegar por las diferentes páginas del sitio web y extraer datos de cada una de ellas. Sin embargo, el primer paso es identificar el tipo de paginación con el que estás tratando y trabajar desde allí. Algunos ejemplos son:
- Paginar usando el botón "Siguiente"
- Paginar sin el botón "Siguiente"
- Paginar con desplazamiento infinitivo
- Paginar usando el botón "Cargar más"
En este tutorial, nos centraremos en cómo crear una acción de paginación cuando no hay un botón de página siguiente en la página. Más específicamente, uno que requiera hacer clic en los enlaces numerados cuando quieras pasar la página, como los que se muestran a continuación.
Ahora, exploremos las diversas formas en que puedes crear una acción de paginación sin un botón de página siguiente en Octoparse.
1. Crear una paginación con detección automática
Si estás creando una nueva tarea con la detección automática de páginas web, Octoparse escanea automáticamente la página web en busca de datos web y enlaces de paginación.
Tips! Si tienes "Detección automática" habilitada en Configuración, el proceso de detección automática se iniciará automáticamente. |
Si Octoparse detecta algún enlace de paginación en la página web, se proporcionarán opciones de paginación en el panel de Tips al completar el proceso de detección automática. Puedes hacer clic en "Verificar" para ver el enlace detectado por Octoparse o hacer clic en "Editar" para editar el enlace si no se ha detectado correctamente.
Como todos sabemos, las páginas web tienen muchas formas diferentes. Habrá ocasiones en las que la detección automática no detecte los enlaces de paginación o, de hecho, se detecten enlaces incorrectos. En este caso, puedes recurrir a una de las siguientes soluciones.
2. Usar "Generar por lotes" para crear las URL de todas las páginas
Una forma alternativa pero eficaz de abordar el raspado de varias páginas de un sitio web es recopilar primero las URL de todas las páginas que necesitarías raspar y crear una tarea utilizando la lista de URL recopiladas.
Echa un vistazo a las URLs de las páginas web de las diferentes páginas, ¿has notado algo?
Si descubres un patrón similar al del ejemplo anterior, con solo el número de página cambiando en las URLs de las diferentes páginas, puedes generar fácilmente por lotes todas las URL de la página y extraer tantas páginas según tus necesidades. Una vez que hayas generado los enlaces, Octoparse pasa a scrapear todas las páginas automáticamente.
3. Crear una paginación manualmente
Incluso cuando la detección automática no funciona y las URL de la página no muestran un patrón, aún puedes crear una acción de paginación manualmente.
Será un proceso de dos pasos. Primero, va a escribir / buscar el XPath del elemento de la página que realmente te lleva a la página siguiente (por ejemplo, si estás en la página 1, entonces querrás hacer clic en la página 2; si estás en la página 2, entonces querrías hacer clic en la página 3, y así sucesivamente) y, en segundo lugar, revisa el XPath de la acción "Hacer clic para paginar" del flujo de trabajo en Octoparse. ¿Suena complicado? No te preocupes, profundicemos en un ejemplo.
Tips! El conocimiento de XPath no es obligatorio, pero es extremadamente útil para crear la tarea que extrae exactamente lo que necesitas en Octoparse. Consulta Qué es XPath y cómo usarlo en Octoparse para obtener más información sobre cómo usar XPath para crear el crawler perfecto. |
Necesitarás crear un paso de paginación para esta página web(http://www.enzolifesciences.com/product-listing/?product_type=Antibodies&application=&text=) manualmente.
Paso 1. Carga la página en Octoparse y haz clic en el enlace del número de página "1". Luego, selecciona "Hacer clic en bucle en un solo elemento". Un "Elemento de bucle" se genera automáticamente en el flujo de trabajo.
Paso 2. Deja Octoparse ahora y sigue los pasos a continuación para escribir / encontrar el XPath que necesitas para la acción de paginación
1) Copia y pega la URL de la página actual (http://www.enzolifesciences.com/product-listing/?product_type=Antibodies&application=&text=) en tu propio navegador (por ejemplo, Chrome). Ahora, debes descargar una herramienta complementaria del navegador llamada XPath Helper.
2) En tu navegador, haz clic para iniciar XPath Helper.
3) Busca los números de página en la página web, haz clic con el botón derecho en el enlace del número de página "1" y selecciona la opción Inspeccionar.
4) Hasta ahora, tu pantalla debería ser así. El código resaltado corresponde al enlace de la página 1.
5) A continuación, haz clic derecho en el código resaltado, selecciona "Copiar", luego "Copiar XPath". Ya has copiado el XPath del enlace de número de página "1".
Este es el XPath que has copiado:
//*[@id="cs2-pagebrowsertop"]/div/div[2]/table/tbody/tr/td[3]/b
6) Si observas el código fuente, verás que la página 2 se encuentra una línea debajo del elemento de la página 1.
Usando la sintaxis XPath "following-sibling" que rastrea para el siguiente nodo en la línea, puedes modificar el XPath copiado para el elemento page-1 a uno que rastrea la página que lo sigue (página-2 en este caso).
Entonces, el XPath correcto que siempre va a ubicar la página siguiente después de la página actual es:
//*[@id="cs2-pagebrowsertop"]/div/div[2]/table/tbody/tr/td[3]/b/following-sibling::a[1]
Nota: Al agregar "/following-sibling::a[1]" al final de XPath anterior, ahora busca el primer elemento href (a [1]) después del elemento de la primera página.
Ingresa el XPath correcto en la sección de Consulta del XPath Helper, puedes ver que la página "2" está ubicada correctamente usando XPath.
Paso 3. Ahora que tienes el XPath correcto listo y revisado, vuelve a Octoparse y revisa el XPath existente con el nuevo XPath.
Haz doble clic en "Paginación" para abrir el menú de configuración.
Revisa el XPath existente al nuevo XPath. Haz clic en "Aceptar" para guardar.
Paso 4. ¡Revision final! Haz clic en el cuadro Paginación, luego en la acción Hacer clic para paginar, Octoparse debería pasar la página a la página siguiente si todo está configurado correctamente. Si es necesario, repite el proceso cuanto más funcione la acción de paginación.
Si tienes alguna duda en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.