Pasa con frecuencia que el contenido nuevo se cargará solo si te desplazas hacia abajo en la página, por ejemplo, Twitter. Para extraer datos de estos sitios web, se recomienda utilizar esta función recién lanzada en Octoparse 8.2.2: Desplazamiento de Página.
Las versiones anteriores, en comparación con Octoparse 8.2.2, se desplazan hacia abajo hasta la parte del fondo de la página y luego extraen todos los datos a la vez. Para especificar, si ponemos los tiempos de repetición como 20, Octoparse no extraerá datos hasta que se desplace hacia abajo en la página 20 veces. Para obtener más información, consulta Tratar la paginación (Desplazamiento Infinito).
Sin embargo, equipado con la función Desplazamiento de Página, Octoparse 8.2.2 puede extraer datos mientras se desplaza por la página. Si los tiempos de repetición se establecen en 20, extraerá los datos recién cargados cada vez con cada desplazamiento de la página.
Con Octoparse 8.2.2, el proceso de recopilación de datos se vuelve más estable, lo que evita que no se obtengan datos incluso después de desplazarse hacia abajo en la página varias veces.
¿Cómo utilizar la función Desplazamiento de Página?
In this tutorial, you will get to know how to deal with the above-mentioned function in Octoparse 8.2.2. You may want to use this URL to follow through:En este tutorial, aprenderáS cómo manejar la función mencionada anteriormente en Octoparse 8.2.2. Vamos a utilizar esta URL en este tutorial para demostrarte cómo hacerlo: https://biomarket.com.ar/product-category/almacen/desayuno/.
1) Utilizar el algoritmo de detección automática
2) Configurar Desplazamiento de Página manualmente
1) Utilizar el algoritmo de detección automática
Paso 1: Introduce las URL de destino y haz clic en "Iniciar". Selecciona "Detectar automáticamente datos de páginas web" en el panel de Tips.
Octoparse comenzará a detectar los datos de la página y esperemos a que termine.
Paso 2: Modificar la configuración de desplazamiento
- Haz clic en "Editar" por debajo de "Agregar un desplazamiento de página".
La forma de desplazamiento, los tiempos de repetición y el tiempo de espera se han configurado automáticamente en "hasta el final de la página", "100" y "1s".
"Dejar de desplazarse cuando no haya más contenido para cargar" está marcado de forma predeterminada, lo que significa que Octoparse dejará de desplazarse por la página automáticamente cuando no haya más contenido para cargar en la página web actual o cuando se alcance el número máximo de desplazamientos.
- Haz clic en "Confirmar" para guardar la configuración o puedes editar estos parámetros según tus necesidades. Asegúrate de configurar suficientes veces de desplazamiento hacia abajo e intervalos adecuados entre dos desplazamientos.
Step 3: Crear el flujo de trabajo con la configuración
- Haz clic en "Crear flujo de trabajo" en Tips para crear el flujo de trabajo.
Como puedes observar, se ha configurado una acción de Desplazamiento de página y se ha colocado el elemento de bucle en su interior. También puedes ir a la configuración del cuadro de Desplazamiento de Página para editarlo si te es necesario.
Step 4: Guardar y ejecutar la tarea
- Haz clic en "Guardar" y "Ejecutar".
- Elige "Ejecutar en tu dispositivo".
Encontrarás que Octoparse scrapea cada vez después de un desplazamiento en la ventana de extracción.
2) Configurar Desplazamiento de Página manualmente
Paso 1: Ingresa las URLs y haz clic en "Iniciar".
Paso 2: Agregar un cuadro de desplazamiento de página manualmente
- Agrega un elemento de bucle por debajo de Ir a la Página Web.
- Haz doble clic en el elemento de bucle o haZ clic en Configuración de Acción para seleccionar Desplazamiento de Página como modo de bucle.
- Configura la forma de desplazamiento, los tiempos de repetición y el tiempo de espera según tu caso.
- Haz clic en Aceptar".
Paso 3: Configura un elemento de bucle para la extracción de datos y arrástralo al dentro de elemento de bucle
Paso 4: Guardar y ejecutar la tarea
Haz clic en "Guardar" y "Ejecutar" y elige "Ejecutar en tu dispositivo".
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.