Todas las colecciones
Cursos Integrados de Octoparse
Configuración Avanzada
Extraer datos basado ​​en criterios (Disparador)
Extraer datos basado ​​en criterios (Disparador)
Actualizado hace más de una semana

Disparador en Octoparse se utiliza como condiciones y restricciones para que los usuarios juzguen rápidamente si abandonan o mantienen ciertas líneas de datos. Ayuda a los usuarios a filtrar los datos que desean directamente, por lo que no necesitan raspar todo el conjunto de datos y eliminar los no deseados más tarde después de exportar los datos a archivos Excel o CSV.

¿Cuándo usar el Disparador?

Caso 1

Si estás extrayendo productos de un sitio web de comercio electrónico y solo quieres productos con un precio de menos de $100, puedes usar Disparador para descargar líneas de datos "inútiles", específicamente, cualquier producto con precio igual/superior a $100 y solo conservar los que necesitas.

Para lograr esto, puedes crear un disparador como este: si el campo de datos "precio" es igual o mayor que "100", ejecuta la acción "saltar esta línea de datos". De esta manera, Octoparse "juzgará" si los datos cumplen con los criterios definidos antes de extraerlos. Al final, en el conjunto de datos solo tendrás los datos deseados.

Caso 2

Otro uso es cuando necesitas extraer datos asociados con una fecha específica, por ejemplo, todos los artículos de noticias publicados hoy (por ejemplo, 2020-01-01). Para lograr esto, puedes crear un disparador: si el campo de datos "fecha" no es "2020-01-01", ejecuta la acción "saltar esta línea de datos". Como resultado, solo obtendrás artículos para 2020-01-01.

Se pueden usar varias condiciones juntas. Por ejemplo, si necesitas extraer artículos de noticias para 2020-01-01 y solo cuando el título del artículo contiene las letras "CPI", puedes hacerlo usando las siguientes dos condiciones:

Condición 1: si el campo de datos "fecha" no es "2020-01-01", ejecuta la acción "saltar la línea de datos"

[Y]

Condición 2: si el campo de datos "título" no contiene "CPI", ejecuta la acción "saltar la línea de datos"

¿Cómo usar un Disparador?

1. Crea un nuevo Disparador

  • Ve a la acción Extraer datos

  • Haz clic en "Agregar un disparador" en la pestaña Opciones para crear un nuevo disparador

mceclip0.png

2. Nombra tu Disparador

  • Nombra el Disparador ingresando un nombre directamente en el cuadro Nombre del disparador

mceclip1.png

3. Elige el campo objetivo y configura la condición

  • Selecciona un campo de destino del menú desplegable

mceclip2.png
  • Establece las condiciones para el campo de datos seleccionado. Puedes establecer condiciones basadas en "texto", "números" o "tiempo"

mceclip3.png

Tres condiciones diferentes pueden cubrir la mayoría de las demandas, desde textos hasta números, incluso la hora y la fecha.

a. Para texto

Hay cinco opciones (es, no es, contiene, no contiene, no está en blanco) para los textos.

Por ejemplo, si seleccionas "contiene" y escribe la palabra "SKIRT" en el cuadro de texto, la condición completa será: Si el campo de datos "PRODUCTO" contiene las letras "SKIRT".

mceclip5.png

Tips!

  • El valor del texto distingue entre mayúsculas y minúsculas. Asegúrate de haber ingresado el texto correcto.

  • Si se selecciona "no está en blanco", no es necesario llenar el cuadro de texto y la condición será: Si el campo de datos "PRODUCTO" no está en blanco.

b. Para números

Hay cuatro opciones disponibles para los números (mayor que, menor que, mayor que o igual a).

Por ejemplo, si selecciona el campo de datos "PRECIO", "mayor que" y completa el valor "50", la condición será: Si el campo de datos "PRECIO" es mayor que "50".

mceclip6.png

Tips!

Asegúrate de que el campo solo contenga el valor numérico. Si tiene un valor de texto, puedes usar la función Reformatear datos para refinarlo. Por ejemplo, si el precio es "$100", debes eliminar el símbolo de moneda "$" antes de configurar Disparador.

c. Para fecha y hora

Hay cuatro opciones disponibles para la fecha y la hora (después, antes, en o después, en o antes).

Por ejemplo, para el campo de datos "Tiempo_Actual", si seleccionas "después de", "12 am del día de extracción" y ejecuta la acción "saltar esta línea de datos", la condición será: si la hora es posterior a las 12 am del día de extracción, luego saltar la línea de datos. Como resultado, solo se extraerán los que se publiquen antes de las 0:00 a. m. del día de extracción.

mceclip8.png

También puedes personalizar la hora o el intervalo de fechas.

Disparador_Personalizar_fecha_y_hora.gif

4. Agrega más condiciones usando [Y] o [O]

Se pueden agregar varias condiciones al mismo disparador. Utiliza la condición [Y] o la condición [O] para definir las relaciones entre las diversas condiciones.

mceclip9.png

Si haces clic en "Agregar [Y] condición" y agrega una condición, la acción se ejecutará si el campo de datos cumple con ambas condiciones.


Si haces clic en "Agregar condición [O]" y agrega una condición, la acción se ejecutará si el campo de datos cumple una de las dos condiciones.

5. Elige una acción de "Ejecutar" y haz clic en "Confirmar" para guardar

Octoparse ejecutará uno de los siguientes pasos cuando se activen las condiciones.

a. Saltar esta línea de datos

Si se selecciona "Saltar esta línea de datos", Octoparse abandonará toda la línea de datos del paso de extracción sin importar los pasos que se hayan activado.

mceclip10.png

b. Terminar el bucle

Si se selecciona "Terminar el bucle", deberás elegir un elemento de bucle para finalizar.

mceclip11.png

c. Detener toda la extracción

Si se selecciona "Detener toda la extracción", la extracción finalizará una vez que se cumpla la condición correspondiente.

mceclip12.png

Tips!

Puedes editar, copiar, eliminar o deshabilitar el disparador existente después de guardar los cambios.

mceclip14.png
¿Ha quedado contestada tu pregunta?