Condición de Rama
Actualizado hace más de una semana

No todas las páginas son iguales. Cuando las páginas web muestran variaciones, puedes utilizar "Condiciones de rama" para lograr el raspado basado en condiciones. Así es como funciona:

Condici_n_A__1_.png

¿Cuándo deberías considerar el uso de "Condiciones de rama"?

Hay dos escenarios principales en los que las "Condiciones de rama" pueden resultar útiles.

1) Cuando solo estás interesado en obtener datos de determinadas páginas con una etiqueta específica, como "Nuevo", "Venta caliente", "En oferta", etc.

2) Cuando los datos de la página se muestran en un patrón diferente, es decir, a veces se muestran como texto, otras veces se muestran como imágenes.

En la imagen de ejemplo a continuación, queremos información sobre las computadoras portátiles que están en oferta. Si observamos de cerca la página de detalles del artículo, parece que podemos usar el ícono "en oferta"

como condición para probar: si el elemento

se encuentra en la página del artículo, seguiremos adelante y capturaremos la información del producto; de lo contrario, saltaremos la página / producto por completo.

49.png

¡Veamos cómo se hace! Para continuar, es posible que desees utilizar esta URL en el tutorial:

1. Crea un bucle para hacer clic en cada enlace de la lista (consulta el tutorial)

2. Utiliza "Condiciones de rama" para probar la condición: si

está presente en la página del artículo

  • Coloca el cursor sobre el lugar donde deseas agregar la condición de rama

  • Haz clic en el botón para agregar una acción de "Condiciones" dentro del bucle

branch.gif
  • Haz clic en "Branch conditions_Branch2" en el lado izquierdo y selecciona "Ejecutar si la página actual contiene un elemento específico".

  • Completa el XPath para el elemento : "//div[@class='pricing-price__savings']" en el cuadro de texto de abajo (¿Qué es XPath?).

  • Haz clic en"OK"

ingresar_xpath.gif

Tips!

Si no sabes cómo escribir un XPath, puedes hacer clic y seleccionar el elemento en la página. Octoparse generaría un XPath automáticamente.

manualmente.gif
  • Haz clic en la rama en el lado derecho, selecciona "Ejecutar siempre la rama"

mceclip0.png

Tips!

En Octoparse, puedes establecer la condición en una de las siguientes opciones:

1. Ejecuta siempre la rama

Cuando se selecciona esta opción, Octoparse no juzgará en absoluto y procederá a ejecutar las acciones dentro de la rama de forma inmediata, solo selecciona esta opción para la rama del lado derecho.

2. Ejecuta si la página contiene texto específico

Cuando se selecciona, Octoparse buscará la cadena de texto designada dentro de la página actual.

3. Ejecuta si la página actual contiene un elemento específico

Cuando se selecciona, Octoparse buscará el elemento designado (de acuerdo con el XPath completado) dentro de la página actual.

4. Ejecuta si el bucle actual contiene texto específico

Cuando se selecciona, Octoparse buscará la cadena de texto designada dentro del elemento de bucle actual.

5. Ejecuta si el bucle actual contiene un elemento específico

Cuando se selecciona, Octoparse buscará el elemento designado (de acuerdo con el XPath relativo completado) dentro del elemento del bucle actual. Utiliza esta opción solo cuando necesites juzgar entre los elementos de un bucle.

3. En la página del artículo del producto (selecciona un artículo del bucle que tiene el elemento ), haz clic en los campos de datos que desees capturar (aprende cómo). Cambia el nombre de los campos si es necesario.

EXTRAER_DATOS.gif

4. Arrastra la acción "Extraer datos" a la rama izquierda.

arrastrar.gif

Así que ahora hemos configurado Octoparse para buscar el elemento

en la página, si se encuentra el elemento, captura los datos deseados, de lo contrario, omite el producto.

datos_extraidos.png

Tips!

1. Si deseas agregar más condiciones para clasificar más variaciones, puedes hacer clic en

mceclip1.png
agregar.png

2. Si una condición se establece como "si se encuentra un elemento", el elemento designado debe encontrarse de forma única en la página o el juicio puede no funcionar.

3. Octoparse pasa por las ramas de izquierda a derecha de forma predeterminada. Es importante mantener siempre la condición que deseas probar dentro de la rama izquierda; si la condición para la rama izquierda es "Ejecutar siempre la rama", Octoparse no procederá a la rama de la derecha como "Ejecutar siempre la rama" siempre se probará como "Verdadero".

4. Puedes dejar la rama en blanco si no se necesitas ninguna acción de extracción de datos cuando no se cumple la condición.

5. Cuando se agrega una acción de extracción de datos a ambas ramas, tanto el número de campos de datos como el nombre de los campos de datos deben mantenerse iguales.

6. Puedes usar el juicio de rama anidada para refinar aún más la prueba.

¿Ha quedado contestada tu pregunta?