Todas las colecciones
Cursos Integrados de Octoparse
Extraer datos de una lista de URLs
Extraer datos de una lista de URLs
Actualizado hace más de una semana

En algunos casos, tienes a mano una lista de URLs con estructura similar (como un lote de URLs de productos) y deseas extraer los datos de ellas directamente. En este tutorial, te presentaremos una manera fácil y poderosa de extraer datos de múltiples páginas web usando una lista de URLs.

¿Cuándo deberías considerar realizar un scraping utilizando una lista de URLs?

A continuación, presentamos algunos casos en los que puedes iniciar la tarea con una lista de URLs para la extracción.

  1. Todas las URL están bajo el mismo dominio, compartiendo la misma estructura de página web (Más importante).

    • Ejemplo: tengo una lista de URLs de productos y quiero comenzar una tarea con una lista de URLs directamente para recopilar datos de precios actualizados con regularidad.

  2. Algunos sitios web usan desplazamiento infinitivo/cargar más para cargar el contenido. Si necesitas recopilar datos haciendo clic en cada URL para raspar los detalles en la capa más profunda, deberás dividir la tarea en dos partes. Una tarea es cargar la página y raspar las URLs, y la otra es usar una lista de URLs extraídas para raspar la información detallada.

    • Ejemplo: la página de resultados de búsqueda de Zara utiliza un desplazamiento infinito para seguir cargando nuevos elementos. Si los datos que necesitas están en la página del artículo, primero debes establecer veces de desplazamiento y recopilar suficientes URLs de productos para la siguiente tarea.

  3. El sitio web aplica AJAX (Tratar AJAX) para cargar contenido nuevo, lo que significa que después de hacer clic en la primera página del producto, el sistema no regresa automáticamente a la página del listado (y hace clic en la segunda página del producto desde allí). Primero necesitaremos extraer las URLS de la página de detalles y luego raspar los datos que deseas con la lista de URLs.

  4. Algunos sitios web tienden a cargar las páginas con bastante lentitud durante la paginación, lo que podría afectar la extracción de datos de nuestras tareas programadas, por lo que es mejor recorrer las URLs de las páginas de detalles directamente para evitar el problema.

Tips!

¿Cómo puedo saber si las páginas tienen la misma estructura?

Si estás extrayendo artículos de noticias de un sitio web en particular, lo más probable es que las páginas del artículo compartan la misma estructura de página, como:

elpais_ejemplo.png

Otro ejemplo es Google Mapas. Cada página de negocios es así:

google__maps.png

Para scrapear datos con una lista de URLs, simplemente configuraremos un bucle de todas las URLs de las que necesitamos raspar y luego agregaremos una acción de extracción de datos inmediatamente después para obtener los datos que necesitamos. Octoparse cargará las URLs una por una y extraerá los datos de cada página.

Al crear un modo de bucle "Lista de URLs", Octoparse no tiene que tratar con pasos adicionales como "Hacer clic para paginar" o "Hacer clic en el elemento" para ingresar a la página del elemento. Como resultado, la velocidad de extracción será más rápida, especialmente para ejecución en la Nube.

Tips!

1. ¿Puedo usar URLs que no compartan el mismo diseño de página?

Lamentablemente, solo las URLs que comparten la misma estructura de página se pueden extraer mediante la "Lista de URL". Para asegurarte de que los datos se extraigan de forma coherente y precisa, es necesario asegurarte de que estas páginas compartan el mismo diseño de página.

Para obtener más información sobre el modo "Lista de URLs", puedes consultar el siguiente artículo: Elemento de bucle

2. ¿Existe un límite en la cantidad de URLs que puedo agregar a la vez?

Si. Sugerimos agregar no más de 10,000 URLs si copias y pegas las URLs directamente en Octoparse. Sin embargo, con la función de Generar URL por lotes, puedes ingresar hasta 1 millón de URLs.

3. ¿Octoparse puede recopilar y agregar URLs automáticamente?

Para extraer datos de una lista de URLs, el proceso de extracción generalmente se puede dividir en 3 pasos simples:

pasos_para_extraer_datos_con_lista_de_URLs.png

Necesitamos los enlaces a continuación para seguir:

En Octoparse, hay dos formas de crear un bucle de "Lista de URLs".

1. Empezar una nueva tarea con una lista de URLs

1). Selecciona "+ Nuevo" y haz clic en "Modo Avanzado" para crear una nueva tarea

2). Pega la lista de URLs en el cuadro de texto y haz clic en "Guardar".

mceclip1.png

Después de hacer clic en "Guardar", el "Bucle de URLs" (que recorren cada URL de la lista) se crean automáticamente en el flujo de trabajo. Si haces clic en "Bucle de URLs", puedes ver que las URLs que ingresaste se han agregado al "Bucle de URLs".

mceclip2.png

2. Crear un bucle "Lista de URLs" en el flujo de trabajo

1). Agregar un "Elemento de bucle" en el flujo de trabajo

mceclip3.png

2). Ve a "Modo de bucle" y selecciona "Lista de URLs" y haz clic y pega la lista de URLs. No olvides hacer clic en "Aplicar" para guardar la configuración.

ingresar_URLs_manualmente.png

3). Agrega "Abrir página" debajo del "Elemento de bucle", luego marca "Cargar URLs en el bucle" y "Aplicar" para confirmar.

ir_a_la_pagina_web.png

Tips!

Si el raspado se detiene justo después de que comenzamos la extracción, podemos intentar agregar un tiempo de espera más largo para el paso de ir a la página web, por lo que el sistema esperará más tiempo para que la página web se cargue por completo.

mceclip4.png

3. Extraer datos de la página

Una vez que se guardan las URLs, la primera página se abrirá automáticamente y puedes seleccionar los datos en la página para extraer. Extraer texto/URL/imagen/HTML/atributo del elemento

extraer_datos.gif

Tips!

1. A veces, si Octoparse funciona demasiado rápido, es posible que las páginas no se carguen por completo antes de que se ejecute el paso de extracción de datos, lo que puede llevar a que no se extraigan datos o que no se extraigan datos completos. Para evitar esto, podemos configurar un "Esperar antes de la ejecución".

Haz clic en la configuración de "Opciones" para el paso "Extraer datos" y establece un tiempo de espera antes de que se ejecute la acción (normalmente funcionarán 2-3 segundos).

esperar_antes_de_accionar.png

2. Si deseas que los datos se exporten alineados con la lista de URL original que ingresas, puedes agregar la URL de la página actual aquí:

mceclip5.png

Después del proceso que mencionamos anteriormente, cuando ejecutes la tarea, encontrarás que después de terminar el raspado de una página, Octoparse irá a la página siguiente automáticamente.

mceclip6.png
¿Ha quedado contestada tu pregunta?