Todas las colecciones
FAQ
Acelerar el proceso de raspar utilizando la lista de URL
Acelerar el proceso de raspar utilizando la lista de URL
Actualizado hace más de una semana

Con el modo de bucle "Lista de URL", Octoparse no tiene que lidiar con algunos pasos como "Hacer clic para paginar" o "Hacer clic en el elemento" para ingresar a la página del elemento. Como resultado, la velocidad de extracción será más rápida, especialmente para ejecución en la nube. Cuando una tarea creada con "Listas de URL" está configurada para ejecutarse en la nube, la tarea se dividirá en subtareas que luego se configurarán para ejecutarse en varios servidores en la nube simultáneamente.

1. Acelere la paginación utilizando la lista de URL

Si su tarea de scraping necesita extraer datos de miles de páginas múltiples, puede usar la lista de URL para scrape en lugar de "hacer clic para paginar" uno por uno. Esto puede ayudar a que su tarea se ejecute de una manera más eficiente.

Tomemos la URL a continuación como ejemplo:

Este sitio web tiene un número total de 83,663 páginas para paginación. Cada página tiene 20 artículos listados. Al observar las URL de cada página, puede encontrar que comparten la misma estructura. En este caso, puede usar "Generación por lotes" para generar automáticamente las URL de cada página.

  • Haz clic en Nuevo+ en el menú lateral y selecciona Modo Avanzado

Estos son los pasos que puede seguir:

  • Seleccione "Generar por lotes" en "URL de entrada"

  • Pegue la URL en "formato de URL"

  • Seleccione el número "0" y luego haga clic en "Agregar parámetro"

batch.jpg

Para la "Configuración de parámetros", depende de los diferentes sitios web. En este caso, podemos establecer:

  • Tipo de parámetro: Número

  • Valor inicial: 1

  • Cada vez: +1

  • Repetir: 849

  • Haz clic en Confirmar

PARAMETER.png

Recuerda quitar el número '1' después de la página. La salida después de generar la URL se vería así

final.png

Nota: Hay tres formas de importar en lotes URL a una única tarea/web scraping (hasta un millón de URL):

  1. Importar en lotes URL desde archivos locales.

  2. Importar en lotes URL desde otra tarea.

  3. Ingresar manualmente.

Por favor, consulta este tutorial 'Entrada de URL en Lote' para obtener más detalles.

2. Acelera el scraping de las páginas de detalles utilizando una lista de URL

Cuando necesitas hacer clic en los elementos de la lista y raspar sus páginas de detalles correspondientes, lleva tiempo hacer clic en todos los elementos uno por uno. En este caso, es más conveniente raspar primero las URL de todos los elementos de la lista. Después de obtener todas las URL de las páginas de detalles, puedes iniciar una nueva tarea ingresando todas las URL raspadas de la tarea anterior.

¿Ha quedado contestada tu pregunta?