Elemento de Bucle
Actualizado hace más de una semana

Cuando esté creando una tarea de web scraping en Octoparse, es seguro que utilizará un "elemento de bucle" en algún momento durante el proceso. Un "elemento de bucle" se utiliza con mayor frecuencia para capturar una lista de elementos o diferentes páginas de un sitio web. En este artículo, explicaré exactamente cómo funciona un "elemento de bucle" en Octoparse.

1. Qué es Elemento de Bucle

Un "bucle" es una función de programación que repite una instrucción continuamente hasta que se alcanza una determinada condición. El Elemento de Bucle en Octoparse es similar a un bucle. Generalmente un Elemento de Bucle se crea utilizando más de una URL / elemento y se agregarán acciones al elemento de bucle. Una vez que se crea un elemento de bucle, Octoparse repetirá las acciones en bucle para X veces designado o hasta que no haya forma de seguir repitiendo las acciones, por ejemplo, cuando no haya más página siguiente para pasar (cuando haya llegado al última página).

Veamos un ejemplo. Supongamos que tenemos una lista de URL de las que extraer datos. Primero, creamos un Elemento de Bucle usando la lista de URLs, luego insertaremos una acción "Ir a Página Web" y una acción "Extraer Datos" dentro del Elemento de Bucle. El flujo de trabajo sería así:

mceclip1.png

Este flujo de trabajo se traduce en un conjunto de instrucciones que le indican a Octoparse que tome la primera URL de la lista de URL, cargue la página con la acción "Ir a la Página Web" y, luego, extraiga los datos con la acción "Extraer datos". El mismo conjunto de acciones se repetirá para todas las URL en la lista hasta la última, y luego el ciclo finaliza.

2. Configurar "Elemento de Bucle"

Si hace doble clic en el Elemento de Bucle , te llevarán al panel de configuración. Echemos un vistazo a las opciones disponibles.

mceclip2.png
mceclip3.png

1) Nombre de acción: Este es el lugar donde puede cambiar el nombre del Elemento de Bucle específico. Asignar un nombre único a un "Elemento de Bucle" puede ayudarlo a ordenar las cosas cuando tiene más de un "Elemento de Bucle" en su flujo de trabajo.

2) Modo de Bucle: Para que un "Elemento de Bucle" funcione correctamente, es fundamental que haya seleccionado el modo de bucle correcto. Hay cinco modos de bucle y cada uno de ellos está bien explicado en la sección siguiente.

3) Salir del Bucle: Además de hacer que el ciclo se cierre automáticamente, también puede finalizar el ciclo prematuramente al designar el número de veces que se repetirán las acciones del ciclo.

4) Esperar antes de acción: Puede utilizar esta función para configurar el tiempo de espera entre cada repetición.

3. Los 6 modos de bucle y cómo usarlos?

Hay 6 modos de bucle: Elemento Único, Lista de Variables, Lista Fija, Lista de URLs, Lista de Texto y Desplazamiento de Página.

mceclip4.png
  • Se utiliza Elemento único para ubicar un elemento específico en la página. Octoparse realizaría las acciones en bucle en el mismo elemento una y otra vez hasta que el elemento ya no se encuentre en la página. Un uso común del elemento único es cuando desea que Octoparse haga clic en el botón "Página siguiente" repetidamente hasta que haya llegado a la última página (no más "Página Siguiente").

pagination_next_button.png
  • Se utiliza La Lista de Variables para ubicar una lista de elementos que pueden coincidir con una sola consulta XPath. Octoparse realizaría las acciones en bucle para los elementos coincidentes uno por uno hasta alcanzar el último elemento. La lista de variables debe usarse cuando el número de elementos que le gustaría recorrer no es consistente en diferentes páginas.

lista_variable.png
  • Lista Fija, similar a la Lista de Variables, también localiza una lista de elementos, pero la Lista Fija es una lista de consultas XPath con cada XPath localizando un elemento único en la página. Se utiliza cuando el número de elementos de la página es coherente en todas las páginas.

lista_fija.png
  • Se utiliza Lista de URLs para recorrer una lista de URLs, en cuyo caso Octoparse abriría las URL una por una. Hay cuatro formas de introducir las URLs. Vea las diferentes formas de introducir la URL aquí.

lista_de_URLs.png
  • Lista de Texto es una lista de cadenas de texto. Cuando se usa una lista de texto, Octoparse ingresa las cadenas en la página una por una.

lista_de_texto.png
  • La lista de texto es una lista de cadenas de texto. Cuando se utiliza una lista de texto, Octoparse ingresará las cadenas en la página una por una.

87705.png
87706.png

  • Desplazamiento de Página es una nueva forma de desplazarse. Este modo se diseña particularmente para sitios web que usan desplazamiento infinito para ver más contenido. La opción puede ayudar a raspar datos mientras se desplaza en lugar de raspar una vez que finaliza el desplazamiento.

102323.png

Nota:

Lista Fija, Lista de URLs y Lista de Texto se pueden dividir en la nube para acelerar la extracción.

La Lista de Variables se puede cambiar a Lista Fija para extracciones más rápidas.

4. Cómo crear un Elemento de Bucle

El tipo de Elemento de Bucle que necesita dependerá de sus requisitos de raspado. Consulte los tutoriales a continuación sobre cómo crear un elemento de bucle.

5. Solución de problemas de "Elemento de Bucle"

Hay muchos problemas relacionados con el Elemento de Bucle, como elementos faltantes, saltar páginas, etc. Los problemas más frecuentes sobre el elemento de bucle se enumeran a continuación:

Paginación:

Faltar elementos:

Otros:

¿Ha quedado contestada tu pregunta?