En la versión 7.2, Octoparse habilita una nueva característica "Triggers". Con el uso de "Trigger", los usuarios pueden definir una o más condiciones para determinar si se deben extraer los datos. Se puede agregar "Disparador" fácilmente en el paso Extraer datos.
¿Cuándo deberías usar disparadores?
Por ejemplo, si solo desea scrape una parte de los datos en una página web, digamos, productos con un precio inferior a $100,específicamente, cualquier producto con precio igual / superior $100, puede usar Disparadores para abandonar líneas de datos "inútiles" y solo conserve los que necesita.
Para lograrlo, puede crear un desencadenante como este: si el campo de datos "precio" es igual o mayor que "100", abandone la línea de datos. De esta manera, Octoparse simplemente "juzgará" si los datos cumplen con los criterios definidos antes de extraerlos realmente. Al final, el conjunto de datos solo include los datos deseados.
Otra aplicación útil es cuando necesita extraer datos asociados con una fecha específica, por ejemplo, todos los artículos de noticias publicados hoy (ej. 2019-01-01). Para lograr esto, puede crear un Disparador: si el campo de datos "fecha" no es "2019-01-01", abandone la línea de datos. Como resultado, solo obtendrá el artículo para 2019-01-01.
Se pueden usar múltiples condiciones juntas. Por ejemplo, si necesita extraer artículos de noticias para 2019-01-01 y solo cuando el título del artículo contiene las palabras "CPI", puede hacerlo usando las dos condiciones siguientes:
Condición 1: Si el campo de datos "fecha" no es "2019-01-01" abandone la línea de datos
[AND]
Condición 2: Si el campo de título "título" no contiene "CPI" abandone la línea de datos
¿Cómo configurar disparadores?
1. Crear un nuevo disparador
- Haga clic en "Agregar disparador" para crear un nuevo disparador
2. Nombra el gatillo
- Asigne un nombre al activador escribiendo el nombre directamente
3. Defina el disparador
- Seleccione el campo de datos de destino. En el siguiente ejemplo, se selecciona el campo de datos "título".
- Establezca la condición para el campo de datos seleccionado. Puede establecer condiciones basadas en "texto", "números" o "tiempo"
Para textos generales
Hay cinco opciones (is, is not, contains, does not contain, is not blank) para textos generales.
Por ejemplo, si selecciona "contains" y escribe la palabra "pen" en el cuadro de texto, la condición será: Si el campo de datos "Title" contiene las palabras "pen".
Si se selecciona "is not blank", no es necesario llenar el cuadro de texto y la condición será: Si el campo de datos "Title" no está en blanco.
b. Para numerales
Hay cuatro opciones disponibles para los números: mayor que, menor que, mayor o igual que.
Por ejemplo, si selecciona el campo de datos "Precio", "mayor que" y completa el valor "8", la condición será: Si el campo de datos "Precio" es mayor que 8.
c. Para el tiempo
Hay cuatro opciones disponibles por tiempo: después, antes, ahora o después, ahora o antes.
Por ejemplo, para el campo de datos "Tiempo publicado", si selecciona "después", "00:00 el día de extracción" y hace "Abandonar esta línea de datos", la condición será: si el tiempo publicado es después de las 0:00 AM en el día de extracción, luego descarte la línea de datos. Como resultado, solo se obtienen aquellos artículos con tiempo publicado antes de las 0:00 a.m. del día de extracción.
4. Agregue más condiciones usando [AND] u [OR]
Se pueden agregar múltiples condiciones al mismo disparador. Use la condición [AND] o la condición [OR] para definir las relaciones entre las diversas condiciones.
Si hace clic en "Agregar [AND] condición" y agrega una condición, la acción se ejecutará si el campo de datos cumple ambas condiciones.
Si hace clic en "Agregar [OR] condición" y agrega una condición, la acción se ejecutará si el campo de datos cumple cualquiera de las dos condiciones.
5. Realice uno de los siguientes pasos
Ahora que tiene las condiciones definidas, Octoparse ejecutará uno de los siguientes pasos cuando se activen las condiciones.
a. Abandonar esta línea de datos
Si se selecciona "Abandonar esta línea de datos", Octoparse abandonará esta línea de datos independientemente de si los otros datos de la misma línea se han extraído o no.
Más específicamente, suponga que una tarea tiene dos pasos de "Datos de extracción" y solo el último establece el disparador. Incluso si se han extraído los datos para el primer paso "Datos de extracción", Octoparse abandonará esta línea de datos una vez que se active el disparado para el último paso.
b. Fin del buclo
Si se selecciona "Fin del buclo", deberá seleccionar uno de los elementos del buclo de la lista desplegable. El elemento de bucle seleccionado finalizará una vez que se cumpla la condición correspondiente.
c. Terminar la extracción
Si se selecciona "Terminar la extracción", la extracción finalizará una vez que se cumpla la condición correspondiente.
¡Consejos!
|
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.