Con el modo de bucle "Lista de URL", Octoparse no tiene que lidiar con algunos pasos como "Hacer clic para paginar" o "Hacer clic en el elemento" para ingresar a la página del elemento. Como resultado, la velocidad de extracción será más rápida, especialmente para Cloud Extraction . Cuando una tarea creada con "Listas de URL" está configurada para ejecutarse en la nube, la tarea se dividirá en subtareas que luego se configurarán para ejecutarse en varios servidores en la nube simultáneamente.
- Acelere la paginación utilizando la lista de URL
- Acelere el scraping de páginas de detalles utilizando la lista de URL
1. Acelere la paginación utilizando la lista de URL
Si su tarea de scraping necesita extraer datos de miles de páginas múltiples, puede usar la lista de URL para scrape en lugar de "hacer clic para paginar" uno por uno. Esto puede ayudar a que su tarea se ejecute de una manera más eficiente.
Tomemos la URL a continuación como ejemplo:
Este sitio web tiene un número total de 83,663 páginas para paginación. Cada página tiene 20 artículos listados. Al observar las URL de cada página, puede encontrar que comparten la misma estructura. En este caso, puede usar "Generación por lotes" para generar automáticamente las URL de cada página.
Estos son los pasos que puede seguir:
- Seleccione "Generar por lotes" en "URL de entrada"
- Pegue la URL en "formato de URL"
- Seleccione el número "0" y luego haga clic en "Agregar parámetro"
- Para la "Configuración de parámetros", depende de los diferentes sitios web. En este caso, podemos establecer:
- Start value: input 0
- Acción: seleccione "aumentar" e ingrese 20 (porque cada página tiene 20 elementos en la lista)
- Condición final: ingrese 83663 para el "Artículo" (ya que el total de este sitio web tiene 83663 páginas)
-
-
-
- No es necesario ingresar "Valor final". Cuando hace clic en "Aceptar", generará automáticamente un valor final.
-
-
- Luego puede ver la vista previa de 100 filas de URL autogeneradas. Haga clic en "Guardar URL"
- Ahora, puede ver que tiene un total de 83663 URL para el "Elemento de bucle"
¡Consejos! Hay tres formas de importar por lotes URL a cualquier tarea / rastreador (hasta un millón de URL): Importar URL de lotes desde archivos locales |
2. Acelere el scraping de páginas de detalles utilizando la lista de URL
Cuando necesita hacer clic en los elementos de la lista y scrape sus páginas de detalles correspondientes, lleva un tiempo hacer clic en todos los elementos uno por uno. En este caso, es aconsejable scrape las URL de todos los elementos enumerados primero. Después de obtener todas las URL de las páginas de detalles, puede comenzar una nueva tarea ingresando todas las URL raspadas de la tarea anterior.
Aquí hay un tutorial de caso que aplica esta técnica: Scrape la información del producto de Sam's Club
¡Consejos! En Octoparse, hay dos formas de crear un bucle de "Lista de URL". |
Artículos relacionados:
Extraer datos de una lista de URL
Scrape la información del producto de Amazon
¿Qué es "división de tareas" en Cloud Extraction? (Acelerar la extracción de nubes)
¿Te resultó útil este artículo Contáctenos en cualquier momento si necesita nuestro apoyo.
De: http://www.octoparse.es/tutorial-7/como-eliminar-grupos-de-tareas
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.