Después de pasar por las lecciones de introducción, debería haber aprendido los conceptos básicos de Octoparse y haber logrado crear algunas tareas con éxito. En este artículo, profundizaré un poco más mientras analizo cómo funciona Octoparse para extraer datos de cualquier página web y, lo que es más importante, cómo todas las acciones funcionan juntas en un flujo de trabajo. Tener una buena comprensión de estos principios básicos realmente construye la columna vertebral para crear tareas de scraping más complejas y exitosas.
1. Cómo funciona Octoparse para extraer datos web
1.1 Octoparse simula comportamientos de navegación humanos
Octoparse funciona simulando comportamientos de navegación humanos en su navegador incorporado. Acciones como abrir páginas web, hacer clic en elementos de la página, hacer clic en el botón de la página siguiente o desplazarse hacia abajo en la página se pueden realizar en Octoparse. El proceso de scraping simulado es idéntico a cómo accedería a los datos web en cualquier navegador diario.
1.2 Octoparse extrae datos automáticamente a través del workflow
Cuando está creando una tarea de scraping en Octoparse, esencialmente está creando un flujo de trabajo de scraping que puede traducirse en una serie de instrucciones para que Octoparse las siga. Este flujo de trabajo, sin embargo, lo crea Octoparse automáticamente mientras interactúa con el navegador incorporado. En algunos casos, es posible que no necesite modificar el flujo de trabajo creado automáticamente; sin embargo, en otros casos, es posible que deba crear/solucionar problemas del workflow manualmente si las cosas no funcionan como se esperaba. En cualquier caso, se recomienda encarecidamente que comprenda los conceptos básicos del flujo de trabajo para que pueda scrape con mayor precisión y precisión.
2. Comprensión del workflow
Un workflow consta de una lista de acciones que se agrupan en un orden específico para scraping los datos web de destino.
Los pasos del flujo de trabajo siempre deben leerse de arriba a abajo y de adentro hacia afuera para las acciones anidadas. Echemos un vistazo a algunos ejemplos.
Ejemplo 1 - Extraer de una lista de elementos para obtener datos
Paso 1: Ve a la página web para abrir la página web de destino
Paso 2: Paginación, para ubicar el botón de página siguiente en la página (actualmente se encuentra en la Página 1)
Paso 3: Elemento de bucle, para ubicar la lista de elementos en la página
Paso 4: Extraer datos, para extraer los datos necesarios de la lista de elementos
Paso 5: Haz clic en Paginar, para hacer clic en el botón de la página siguiente para ir a la Página 2
Paso 6: Continúa extrayendo datos del bucle y haga clic en el botón de la página siguiente hasta que Octoparse llegue a la última página.
Paso 7: No hay ningún botón de página siguiente ubicado en la última página y el flujo de trabajo finaliza
Ejemplo 2 - Haz clic en una lista de elementos en la página web y extrae datos de la página de detalles
Paso 1: Vw a la página web para abrir la página web de destino
Paso 2: Paginación, para ubicar el botón de página siguiente en la página (actualmente se encuentra en la Página 1)
Paso 3: Elemento de bucle, para ubicar la lista de elementos en la página
Paso 4: Haz clic en Elemento, para hacer clic en los elementos del elemento de bucle y vaya a la página de detalles
Paso 5: Extraer datos, para extraer los datos necesarios de la página de detalles
Paso 6: Haz clic en Paginar, para hacer clic en el botón de la página siguiente para ir a la Página 2
Paso 7: Continúa haciendo clic en los elementos del bucle, extraiga los datos de la página de detalles y haga clic en el botón de la página siguiente hasta que Octoparse llegue a la última página
Paso 8: No hay ningún botón de página siguiente ubicado en la última página y el flujo de trabajo finaliza
Ejemplo 3 - "Load More" elementos haciendo clic en el botón "Load More" y extraiga datos de la lista de elementos
Paso 1: Ve a la página web para abrir la página web de destino
Paso 2: Paginación, para ubicar el botón "Cargar Más" en la página
Paso 3: Haz clic para paginar, para hacer clic en el botón "Load More" para cargar más elementos en la página
Paso 4: Continúa haciendo clic en el botón "Load More" hasta que desaparezca
Paso 5: Elemento de bucle, para ubicar la lista de elementos en la página
Paso 6: Extraer datos, para extraer los datos de destino de la lista de elementos.
3. Prueba del workflow
Es importante probar y ejecutar el flujo de trabajo paso a paso antes de ejecutar la tarea. Cuando hace clic en un paso en el flujo de trabajo, Octoparse realiza la acción en el navegador incorporado para ayudar a probar si la acción funciona como se esperaba y puede modificarla en consecuencia. Por ejemplo, cuando se hace clic en Ir a la página web, Octoparse cargará la página web en el navegador incorporado automáticamente.
Puedes consultar más detalles sobre cómo probar el flujo de trabajo aquí.
¡Consejos!
|
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.