No hay una sola forma de raspar una página web, dependiendo de cómo esté estructurada, generalmente hay varios enfoques que puede probar. En este tutorial, presentaremos una manera fácil y poderosa de extraer datos de múltiples páginas web mediante el uso de una lista de URL.
Preguntas: ¿Cuándo debería considerar el raspado utilizando una lista de URL?
Respuesta: Cuando los datos requeridos abarcan varias páginas en la misma estructura de página. Por ejemplo, cuando eliminas listados de Yelp, es posible que debas paginar los resultados de búsqueda. Aquí, la página 1, la página 2, la página 3, etc., todas comparten la misma estructura de página. Y otro ejemplo, si está raspando artículos de noticias de un sitio web en particular, lo más probable es que la página del artículo comparta la misma estructura de página.
Para scraping mediante el uso de una lista de URL, simplemente configuraremos un bucle de todas las URL de las que necesitamos scraping y luego agregaremos una acción de extracción de datos justo después para obtener los datos que necesitamos. Octoparse cargará la URL una por una y extraerá los datos de cada página.
Al crear un modo de bucle "Lista de URL", Octoparse no tiene necesidad de realizar pasos adicionales como "Hacer clic para paginar" o "Hacer clic en Elemento" para ingresar a la página del elemento. Como resultado, la velocidad de extracción será más rápida, especialmente para Cloud Extraction. Cuando una tarea creada con "Listas de URL" está configurada para ejecutarse en la nube, la tarea se dividirá en subtareas que luego se configurarán para ejecutarse en varios servidores en la nube simultáneamente.
El modo "Lista de URL" es muy efectivo. Puede agregar páginas web particulares a la lista, y no importa si son páginas consecutivas o no, siempre que compartan el mismo diseño de página. Octoparse scrape los datos de cada URL en la lista, y no se omitirá ninguna página.
¡Consejos! 1. ¿Puedo usar URL que no compartan el mismo diseño de página? Lamentablemente, solo las URL que comparten la misma estructura de página se pueden extraer mediante la "Lista de URL". Para asegurarse de que los datos se extraen de manera consistente y precisa, es necesario asegurarse de que estas páginas compartan el mismo diseño de página. Para obtener más información sobre el modo "Lista de URL", puede consultar los siguientes artículos: 5 modos de bucle en octoparse
Octoparse Advanced API 2. ¿Existe un límite para la cantidad de URL que puedo agregar a la vez? Sí. Sugerimos agregar no más de 10,000 URL si copia y pega las URL directamente en Octoparse. Sin embargo, use la función de ingreso de URL de Batch , puede ingresar hasta 1 millón de URL. 3. ¿Puede Octoparse recopilar y agregar automáticamente las URL? Octoparse puede ingresar URL de otra tarea. Puede usar una tarea para extraer las URL La API avanzada de Octoparse |
Para extraer con una lista de URL, el proceso de extracción generalmente se puede dividir en 3 pasos simples:
En Octoparse, hay dos formas de crear un bucle de "Lista de URL".
1) Comience una nueva tarea con una lista de URL
2) Cree un bucle de "Lista de URL" en Workflow Designer
1) Comience una nueva tarea con una lista de URL
1. Seleccione "Modo avanzado" y haga clic en "+ Tarea" para crear una nueva tarea
2. Pegue la lista de URL en el cuadro de texto y haga clic en "Guardar URL"
Después de hacer clic en "Guardar URL", el "Elemento de bucle" (que recorre cada URL de la lista) se crea automáticamente en el flujo de trabajo.
Si hace clic en "Elemento de bucle", puede ver que las URL que ingresó se han agregado al "Elemento de bucle".
Octoparse ingresa al modo de bucle "Lista de URL" de forma predeterminada cuando se agrega más de una línea de URL a "URL de extracción".
3. Configure "Esperar antes de la ejecución"
A veces, si Octoparse funciona demasiado rápido, es posible que las páginas no se carguen completamente antes de que se ejecute el paso de extracción de datos, lo que puede conducir a la extracción de datos incompletos o nulos. Para evitar esto, podemos configurar "Esperar antes de la ejecución".
Haga clic en Ir a la página web. En "Opciones avanzadas", establezca un tiempo de espera antes de que se ejecute la acción (normalmente funcionarán 2 segundos).
2) Cree un bucle de "Lista de URL" en Workflow Designer
1. Seleccionar un "Elemento de bucle" en el flujo de trabajo
2. Vaya a "Modo de bucle" y seleccione "Lista de URL"
3. Haga clic e ingrese / pegue la lista de URL. No olvides hacer clic en "Aceptar" para guardar la configuración.
Observe que la acción "Ir a la página web" se genera automáticamente en el flujo de trabajo. Y haciendo clic en "Loop Item", puede encontrar la lista de URL que se agregan a "Loop Item"
4. Configure "Esperar antes de la ejecución"
Octoparse cargará cada URL en la lista antes de comenzar a extraer los datos. Pero si la página no se carga completamente, Octoparse puede tener problemas para scrape datos o ejecutar el siguiente paso en el flujo de trabajo. En caso de que Octoparse comience la extracción antes de que la página se cargue por completo, debemos configurar "Esperar antes de la ejecución" (se recomiendan 2 segundos).
Ahora que se ha creado un bucle de "Lista de URL", puede proceder a extraer los datos en la página web y ejecutar su tarea con Extracción local o Cloud Extraction
al completar la configuración de la tarea.
Artículos relacionados:
Seleccionar y extraer datos/URL/imagen/HTL
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.