Todas las colecciones
Cursos Integrados de Octoparse
Pasos de Workflow(Flujo)
Comprender cómo las acciones funcionan juntas en un workflow
Comprender cómo las acciones funcionan juntas en un workflow
Actualizado hace más de una semana

Después de pasar por las lecciones de introducción, debería haber aprendido los conceptos básicos de Octoparse y haber logrado crear algunas tareas con éxito. En este artículo, profundizaré un poco más mientras analizo cómo funciona Octoparse para extraer datos de cualquier página web y, lo que es más importante, cómo todas las acciones funcionan juntas en un flujo de trabajo. Tener una buena comprensión de estos principios básicos realmente construye la columna vertebral para crear tareas de scraping más complejas y exitosas.

1. Cómo funciona Octoparse para extraer datos web

1.1 Octoparse simula comportamientos de navegación humanos

Octoparse funciona simulando comportamientos de navegación humanos en su navegador incorporado. Acciones como abrir páginas web, hacer clic en elementos de la página, hacer clic en el botón de la página siguiente o desplazarse hacia abajo en la página se pueden realizar en Octoparse. El proceso de scraping simulado es idéntico a cómo accedería a los datos web en cualquier navegador diario.

1.2 Octoparse extrae datos automáticamente a través del workflow

Cuando está creando una tarea de scraping en Octoparse, esencialmente está creando un flujo de trabajo de scraping que puede traducirse en una serie de instrucciones para que Octoparse las siga. Este flujo de trabajo, sin embargo, lo crea Octoparse automáticamente mientras interactúa con el navegador incorporado. En algunos casos, es posible que no necesite modificar el flujo de trabajo creado automáticamente; sin embargo, en otros casos, es posible que deba crear/solucionar problemas del workflow manualmente si las cosas no funcionan como se esperaba. En cualquier caso, se recomienda encarecidamente que comprenda los conceptos básicos del flujo de trabajo para que pueda scrape con mayor precisión y precisión.

2. Comprensión del workflow

Un workflow consta de una lista de acciones que se agrupan en un orden específico para scraping los datos web de destino.

Los pasos del flujo de trabajo siempre deben leerse de arriba a abajo y de adentro hacia afuera para las acciones anidadas. Echemos un vistazo a algunos ejemplos.

Ejemplo 1 - Extraer de una lista de elementos para obtener datos

mceclip2.png

Paso 1: Ve a la página web para abrir la página web de destino

Paso 2: Paginación, para ubicar el botón de página siguiente en la página (actualmente se encuentra en la Página 1)

Paso 3: Elemento de bucle, para ubicar la lista de elementos en la página

Paso 4: Extraer datos, para extraer los datos necesarios de la lista de elementos

Paso 5: Haz clic en Paginar, para hacer clic en el botón de la página siguiente para ir a la Página 2

Paso 6: Continúa extrayendo datos del bucle y haga clic en el botón de la página siguiente hasta que Octoparse llegue a la última página.

Paso 7: No hay ningún botón de página siguiente ubicado en la última página y el flujo de trabajo finaliza

Ejemplo 2 - Haz clic en una lista de elementos en la página web y extrae datos de la página de detalles

mceclip3.png

Paso 1: Vw a la página web para abrir la página web de destino

Paso 2: Paginación, para ubicar el botón de página siguiente en la página (actualmente se encuentra en la Página 1)

Paso 3: Elemento de bucle, para ubicar la lista de elementos en la página

Paso 4: Haz clic en Elemento, para hacer clic en los elementos del elemento de bucle y vaya a la página de detalles

Paso 5: Extraer datos, para extraer los datos necesarios de la página de detalles

Paso 6: Haz clic en Paginar, para hacer clic en el botón de la página siguiente para ir a la Página 2

Paso 7: Continúa haciendo clic en los elementos del bucle, extraiga los datos de la página de detalles y haga clic en el botón de la página siguiente hasta que Octoparse llegue a la última página

Paso 8: No hay ningún botón de página siguiente ubicado en la última página y el flujo de trabajo finaliza

Ejemplo 3 - "Load More" elementos haciendo clic en el botón "Load More" y extraiga datos de la lista de elementos

mceclip4.png

Paso 1: Ve a la página web para abrir la página web de destino

Paso 2: Paginación, para ubicar el botón "Cargar Más" en la página

Paso 3: Haz clic para paginar, para hacer clic en el botón "Load More" para cargar más elementos en la página

Paso 4: Continúa haciendo clic en el botón "Load More" hasta que desaparezca

Paso 5: Elemento de bucle, para ubicar la lista de elementos en la página

Paso 6: Extraer datos, para extraer los datos de destino de la lista de elementos.

3. Prueba del workflow

Es importante probar y ejecutar el flujo de trabajo paso a paso antes de ejecutar la tarea. Cuando hace clic en un paso en el flujo de trabajo, Octoparse realiza la acción en el navegador incorporado para ayudar a probar si la acción funciona como se esperaba y puede modificarla en consecuencia. Por ejemplo, cuando se hace clic en Ir a la página web, Octoparse cargará la página web en el navegador incorporado automáticamente.

Puedes consultar más detalles sobre cómo probar el flujo de trabajo aquí.

¡Consejos!

  • No hay formas fijas de crear un flujo de trabajo. Puedes agregar cualquier acción siempre que funcionen juntas de manera lógica.

  • Puedes utilizar varias acciones de clic o elementos de bucle para extraer datos de páginas de varios niveles, por ejemplo, página de lista y página de producto para sitios web de directorio.

  • Puedes arrastrar y mover fácilmente una acción al lugar correcto.

    flujo_de_trabajo.gif
¿Ha quedado contestada tu pregunta?