Todas las colecciones
Cursos Integrados de Octoparse
Desplazarse dentro de un área designada de una página web
Desplazarse dentro de un área designada de una página web
Actualizado hace más de una semana

La extracción de datos de parte de una página web que debe desplazarse hacia abajo ha sido un problema para Octoparse durante mucho tiempo, especialmente para páginas web con múltiples barras de desplazamiento.

¡Finalmente hemos encontrado una manera de lidiar con eso y agregamos esta característica a nuestra nueva versión de Octoparse 8.4!

Aquí, en este tutorial, te mostraremos cómo desplazarse hacia abajo en un área designada de una página web en Octoparse 8.4.

¿Qué es "Desplazarse dentro de un área designada"?

En la mayoría de los casos, necesitamos desplazar toda la página con la barra de desplazamiento predeterminada normalmente en el lado derecho de toda la página web. Para este tipo de página web, el método de desplazamiento predeterminado, que se desplaza dentro de la barra de desplazamiento predeterminada, funciona bien.

Sin embargo, hay páginas, como reseñas o publicaciones, que están diseñadas de manera diferente.

Las reseñas se muestran en la parte izquierda de la página web, y esta parte tiene una barra de desplazamiento. Cuando arrastre esta barra hacia abajo, la parte de revisión se desplazará hacia abajo y cargará más revisiones. Sin embargo, notará que otras partes de la página no se desplazarán.

Necesitaremos configurar un desplazamiento parcial para la configuración de la tarea con Octoparse.

mceclip0.png

Aquí hay otro ejemplo de una página de comentarios de video de TikTok. Como puedes ver, la sección de comentarios tiene una barra de desplazamiento separada de la página principal del video.

mceclip1.png

¿Cómo desplazarse dentro de un área designada en Octoparse?

Hay dos formas de configurarlo:

1. Configura el desplazamiento a la acción "Ir a la página web" o "Hacer clic en el elemento" (desplazarse para terminar de cargar primero y luego extraer los datos)

  • Haz clic en el paso "Ir a la página web" o "Hacer clic en el elemento"

  • Haz clic en "Opciones" y marca "Desplazarse hacia abajo en la página después de que se cargue

  • Selecciona "Parcial" en el área de desplazamiento.

mceclip2.png

2. Configura el desplazamiento con el elemento de bucle (desplazarse y extraer al mismo tiempo)

  • Agrega un paso "Elemento de bucle" al flujo de trabajo

  • Haz clic en "Elemento de bucle" y elige "Desplazarse por la página" en Modo de bucle

a_adir_bucle.gif
  • Selecciona "Parcial" en el área de desplazamiento

Ingresa XPath del área de desplazamiento

Después de eso, debes decirle a Octoparse dónde desplazarse. Debes ingresar el XPath del área de desplazamiento.

mceclip3.png

Podrías escribir un XPath si sabes cómo hacerlo. Consulta los detalles sobre XPath en este tutorial: Qué es XPath y cómo usarlo en Octoparse

Si no sabes cómo escribir un XPath tú mismo, haz clic en el icono y selecciona el área de desplazamiento manualmente desde la página web. Octoparse generará automáticamente un XPath.

Consejo: Ten en cuenta que el generado automáticamente e incluso el que escribes por tu cuenta no funcionará bien todo el tiempo. Es posible que debas intentarlo varias veces para asegurarte de que el área seleccionada sea desplazable.

xpath_desplazamiento.gif
  • Elige la opción de modo de desplazamiento: "desplazarse por una pantalla" o "desplazarse hasta la parte inferior"

  • Configura los tiempos de desplazamiento (cuántas veces deseas desplazarse) y el tiempo de espera (tiempo de intervalo entre cada desplazamiento)

  • Haz clic en "Aplicar" para guardar la configuración

mceclip4.png
¿Ha quedado contestada tu pregunta?