1.Utilizar "Detección automáticamente" para configurar el flujo de trabajo
2. Configurar el flujo de trabajo manualmente
1. Utilizar "Detección automáticamente" para configurar el flujo de trabajo
1) Una vez que hayas creado una nueva tarea usando la URL de ejemplo, selecciona "Detectar automáticamente datos de página web". Octoparse ahora detectará cualquier dato en la página y podemos hacer clic en "Crear flujo de trabajo" para generar el flujo de trabajo.
Tips! Puedes cambiar los resultados detectados para ubicar los elementos que deseas si encuentras que Octoparse no selecciona los datos correctos. Y si todos los resultados detectados no funcionan para ustedti, consulta |
3) Selecciona "Hacer clic en el enlace (s) para scrapear las páginas enlazadas", elige "Hacer clic en los campos de datos extraídos" y selecciona un campo de datos (aquí seleccionamos el Título_URL) del menú desplegable.
O puedes elegir "Hacer clic en un enlace web en la página web" y seleccionar un enlace en la página manualmente.
Ten en cuenta que solo puedes seleccionar un enlace de las secciones detectadas.
4) Detectar automáticamente los datos web de nuevo o hacer clic en los campos de datos de destino, como título, reseña, precio, etc. para eliminarlos
2. Configurar el flujo de trabajo manualmente
1) Hacer clic en el primer título del producto que contiene la URL de la página del producto.
El título seleccionado se resaltará en verde mientras que todos los demás títulos de productos similares se resaltarán en rojo.
2) Hacer clic en "Seleccionar todo" en Tips panel
Tips! Si no hay la opción "Seleccionar todo" en el Tips panel después de seleccionar la primera URL, continúa seleccionando la segunda URL. |
3) Selecciona "Hacer clic en bucle en cada URL" en el panel Sugerencias. Observarás que un paso de clic de bucle se genera automáticamente y se agrega al flujo de trabajo.
Tips! Para recorrer todos los enlaces de la lista, es importante que selecciones el elemento de anclaje. Octoparse identifica automáticamente las etiquetas de los elementos seleccionados. Entonces, cuando seleccionas un elemento con URL, la etiqueta seleccionada sería "A", que significa un ancla que generalmente vincula una página a otra. Si encuentras que Octoparse no ubica la etiqueta A, puede hacer clic en la "A" en el Tips panel. |
4) Hacer clic en los campos de datos de destino, como título, revisión, precio, etc. para scrapearlos
Tips! Configurar un tiempo de espera en "Opciones avanzadas" para pasos como "Hacer clic en el elemento" o "Extraer datos" puede evitar de manera efectiva la omisión de datos y hacer que el proceso de rastreo sea más humano. (Por lo general, funcionan bien entre 2 y 5 segundos) |
Si tienes algún problema en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.