División de tareas para acelerar la extracción de nubes
Hay dos formas de comenzar su extracción: extracción local y extracción en la nube. Para Cloud Extraction, Octoparse ofrece una plataforma Cloud con muchos servidores Cloud para que pueda ejecutar sus tareas 24/7 y hasta 6-20 veces más rápido que la extracción local. Puede ver este tutorial para obtener más información sobre Cloud Extraction.
Es importante tener en cuenta que para que una tarea se ejecute de manera más eficiente en la nube, la tarea debe ser divisible. Una tarea divisible se puede dividir en múltiples subtareas que se pueden ejecutar en varios servidores simultáneamente, lo que agiliza la extracción.
Consejos La extracción en la nube ahora solo está disponible para suscriptores Premium (plan Estándar/Profesional). |
¿Qué tipo de tareas es divisible?
Cuando crea cualquier tipo de elemento de bucle en Octoparse, Octoparse le asigna automáticamente un modo de bucle modo de bucle en función de los elementos seleccionados y cómo se relacionan con la estructura general de la página web.
En Octoparse, hay 5 tipos de modo de bucle, pero solo 3 tipos son divisibles:
- Lista de URL
- Lista de texto
- Lista fija
1. Lista de URL
Un bucle de URL se usa cuando inicia una tarea de extracción usando más de una URL.Si las páginas de datos requeridos tienen la misma estructura. Puede configurar fácilmente un bucle de URL para recorrer cada una de estas páginas. Octoparse cargará las URL una por una y ejecutará el mismo conjunto de acciones de extracción en cada página.
Un bucle de URL es divisible. Por lo tanto, cuando una tarea creada con una lista de URL está configurada para ejecutarse en la nube, Octoparse la dividiría en múltiples subtareas para una extracción más rápida y efectiva.
Para obtener más información sobre la Lista de URL, consulte Extraer datos de una lista de URL y Entrada de URL de lote entrada de URL de lote.
2 Lista de texto de bucle
Un bucle de lista de texto funciona de manera similar al del bucle de lista de URL, pero en lugar de recorrer una lista de URL ahora el bucle funciona para recorrer una lista de valores de texto predefinidos. Un bucle de lista de texto también es divisible.
Para obtener más información sobre el bucle de la lista de texto, consulte Entrada de Text/keyword input.
3. Lista fija de bucle
Muchas páginas web, como los sitios web de comercio electrónico, a menudo organizan los contenidos de la página web (es decir, información del producto) como una colección de elementos recurrentes con un patrón HTML compartido (consulte Usar listas para extraer).
Al capturar tales elementos, como los títulos de los productos, Octoparse detectaría de manera inteligente todos los elementos que comparten el mismo patrón HTML y generaría una colección de XPath (s) para ubicar todos los elementos del mismo tipo.
Además de estos 3 tipos de modos de bucle divisible, también hay otros 2 tipos / modos de bucle que no son divisibles: bucle de elemento único y bucle de lista variable. Como cada uno de estos dos bucles solo implica una XPath única, no se puede dividir en subtareas.
1. bucle de elemento único
Se utiliza principalmente para el ciclo de paginación cuando tiene que hacer clic en un botón "Siguiente".
2. Bucle de lista variable
Contrariamente a una lista fija, una lista de variables se utiliza para capturar todos los elementos similares con un solo XPath, en función del patrón HTML compartido que tienen.
Mejor no dividir tareas
De manera predeterminada, Octoparse dividiría la tarea si es divisible. De esta manera, nos aseguraremos de que la extracción sea lo más efectiva posible cuando se ejecute en la nube. Sin embargo, también hay momentos en que es mejor que la tarea no se divida.
- Deshabilite "división de tareas" si necesita ejecutar varias tareas simultáneamente en la nube
Esto se debe a que cuando una tarea se divide en muchas subtareas, estas subtareas ocuparán tantos servidores como sea posible, según el tipo de cuenta que tenga. En este momento, todas las demás tareas o subtareas se alinearán hasta que se completen las subtareas en ejecución y se liberen los servidores. - Deshabilite la "división de tareas" cuando el sitio web de destino requiere un inicio de sesión para acceder a los datos deseados, especialmente cuando no se permiten múltiples inicios de sesión al mismo tiempo.
- Deshabilite "división de tareas" si el orden es importante. Cuando
una tarea se divide en subtareas, las subtareas se ejecutarán tan pronto como se lance un servidor o simultáneamente si hay más servidores disponibles. Por este motivo, es posible que los datos no se extraigan en el mismo orden en que se muestran en el sitio web.
Para deshabilitar la división de tareas
click "Settings" > check "Disable task split" > click "Save"
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.