Todas las colecciones
Cursos Integrados de Octoparse
Hacer clic en cada enlace de una lista y extraer datos de páginas nuevas
Hacer clic en cada enlace de una lista y extraer datos de páginas nuevas
Actualizado hace más de una semana

Hacer clic en cada enlace de una lista y extraer datos de una nueva página es un escenario común en el web scraping. Este tutorial te mostrará cómo hacer clic en una página de listado a una página de detalles para obtener los datos que necesitas. Esto es especialmente útil cuando se extrae de sitios de comercio electrónico (Amazon, eBay, etc.) y directorios comerciales (Yelp, Yellowpage, etc.).

enlace_y_nueva_pagina.png

Tomamos este enlace como un ejemplo:

1. Utilizar "Detección Automática" para configurar el flujo de trabajo

1) Una vez que hayas creado una nueva tarea usando la URL de ejemplo, selecciona "Detectar automáticamente datos de página web". Octoparse ahora detectará cualquier dato en la página y podemos hacer clic en "Crear workflow" para generar el flujo de trabajo.

deteccion_automatica.gif

2) Selecciona "Hacer clic en los enlaces para scrapear las páginas enlazadas" en el panel de Tips y elige una opción del menú desplegable. Aquí puede elegir "Título_URL".

Hacer_clic_en_el_enlace_para_scrapear_la_p_gina_enlazada.png

Octoparse ahora te llevará a la página de detalles del primer producto.

3) Detecta automáticamente los datos web de nuevo o haz clic en los campos de datos de destino, como título, descripción, precio, etc. para extraerlos

mceclip3.png

2. Configurar el flujo de trabajo manualmente

1) Hacer clic en el primer título del producto que contiene la URL de la página del anuncio.

El título seleccionado se resaltará en verde mientras que todos los demás títulos de productos similares se resaltarán en rojo.

mceclip4.png

2) Haz clic en "Seleccionar todo" en el panel de Tips

mceclip5.png

Tips!

Si no hay la opción "Seleccionar todo" en el Tips panel después de seleccionar la primera URL, continúa seleccionando la segunda URL.

3) Selecciona "Hacer clic en bucle en cada URL" en el panel de Tips. Observarás que un paso de hacer clic en bucle se genera automáticamente y se agrega al flujo de trabajo.

mceclip6.png

Tips!

Para recorrer todos los enlaces de la lista, es importante que selecciones el elemento de anclaje. Octoparse identifica automáticamente las etiquetas de los elementos seleccionados. Entonces, cuando seleccionas un elemento con URL, la etiqueta seleccionada sería "A", que significa un ancla que generalmente vincula una página a otra.

Si encuentras que Octoparse no localiza la etiqueta A, puedes hacer clic en la "A" en el Tips panel.

mceclip1.png

4) Haz clic en los campos de datos de destino, como título, precio, descripción etc. para scrapearlos

mceclip2.png

Tips!

Configurar un tiempo de espera en "Opciones" para pasos como "Hacer clic en el elemento" o "Extraer datos" puede evitar de manera efectiva la omisión de datos y hacer que el proceso de rastreo sea más humano. (Por lo general, funcionan bien entre 2 y 5 segundos). Luego haz clic en "Aplicar" para confirmar.

mceclip0.png

¿Ha quedado contestada tu pregunta?