Cuando tiene una acción de hacer clic en bucle creada en el flujo de trabajo, de forma predeterminada, Octoparse tendrá cada enlace individual cargado en una nueva pestaña. Entonces, mientras hace clic para abrir cada enlace de la lista, nunca perderá la pestaña que contiene la página de la lista. Sin embargo, hay casos especiales en los que la nueva página solo se puede cargar directamente en la pestaña actual y, por lo tanto, en este caso, Octoparse no puede cargar el segundo elemento de la lista como puede hacerlo en un acceso más prolongado a la lista original. De modo que, en realidad, obtendrás una acción de clic de bucle que solo hace clic en el primer elemento del bucle sin pasar a los otros elementos de la lista.
¿Cómo puedo saber si mi Bucle está funcionando o no?
Puedes comprobar si el bucle funciona correctamente haciendo clic manualmente en las acciones del flujo de trabajo.
- Haz clic en el "Elemento de bucle" después de que se cargue la página de la lista.
- Haz clic en "Hacer clic en elemento" y espere a que se cargue la nueva página.
- Haz clic en el "Elemento de bucle" nuevamente para ver si Octoparse muestra la página de listado
Si puedes ver la página de la lista, eso significa que Octoparse puede volver a la página de la lista y el bucle debería estar funcionando. Por otro lado, deberías modificar el flujo de trabajo para que funcione. A continuación, se muestran algunas soluciones rápidas que puedes probar tú mismo.
1. Abrir la página de detalles en una nueva pestaña
Para los sitios web que admiten la carga de enlaces en una nueva pestaña, ve a la configuración del Hacer clic en el elemento (que hace clic para abrir la nueva página). Comprueba si "Abrir en una nueva pestaña" está marcado. De lo contrario, solo marcar esta opción ayudará a resolver el problema.
2. Agregar una acción de hacer clic en el botón Atrás
Si el Bucle aún no funciona correctamente incluso con "Abrir en una nueva pestaña" seleccionado, es probable que las nuevas páginas se carguen con AJAX. En tal caso, la nueva página sobrescribirá la página de la lista a medida que se cargue, por lo que Octoparse no puede volver a la página de la lista.
Para resolver esto, busca cualquier botón que te lleve de regreso a la página de la lista. En el siguiente ejemplo, sería el botón "Volver a los resultados de la búsqueda". Si hay un botón como este, configura una acción de clic con el botón "Atrás". De esta manera, cuando Octoparse termine de extraer datos en la nueva página, hará clic en el botón "Atrás" para volver a la lista original mientras continúa recorriendo otros elementos de la lista.
- Haz clic en el botón "Atrás"
- Elige "Hacer clic en el elemento" o "Hacer clic en el botón" en el panel de Tips.
- Ajusta el tiempo de espera de AJAX para que sea lo suficientemente largo para que la página se procese
El flujo de trabajo debería ser así:
3. Agregar un "Ir a la página web"
Entonces, incluso cuando se selecciona "Abrir en una nueva pestaña" y no hay ningún botón "Atrás" disponible, hay otro truco que puede probar - agregar una acción "Ir a la página web" manualmente para ayudar a Octoparse a volver a la página de listado original.
Coloque el cursor sobre el flujo de trabajo y agregue un paso "Ir a página web" como último paso en el "Elemento de bucle". Esta acción volverá a abrir la página de listado cada vez que Octoparse termine de abrir la página del artículo actual. Sin embargo, es posible que este truco no funcione bien si está raspando una lista que abarca varias páginas.
- Agregar una acción "Ir a la página web" al flujo de trabajo
- Copia y pega la URL de la página de la lista.
4. Divide la tarea en dos tareas
Por último, pero no menos importante, independientemente de la longitud de tu lista o por qué la página no se carga en una nueva pestaña, siempre puedes intentar dividir la tarea en dos, una que obtenga las URLs incrustadas en los elementos de la lista y otra tarea que está configurada para extraer información específica de cada una de esas URLs. Este es el truco que hace maravillas, ya que no solo es confiable, sino que hace que el proceso de raspado sea mucho más eficiente al no tener que alternar entre las pestañas.
Consulta Scrapear datos de propiedades de Realtor.com para ver cómo se hace paso a paso.
Para automatizar aún más el proceso de raspado, incluso puedes asociar las tareas para que se ejecuten juntas usando la función: "importar URLs de otra tarea".
Si tienes algún problema en configurar tu tarea de raspado, no dudes en escribir a nuestro equipo de Soporte. Nos pondremos en contacto contigo dentro de 24 horas.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.