Tomamos este enlace como un ejemplo:
1. Utilizar "Detección Automática" para configurar el flujo de trabajo
2. Configurar el flujo de trabajo manualmente
1. Utilizar "Detección Automática" para configurar el flujo de trabajo
1) Una vez que hayas creado una nueva tarea usando la URL de ejemplo, selecciona "Detectar automáticamente datos de página web". Octoparse ahora detectará cualquier dato en la página y podemos hacer clic en "Crear workflow" para generar el flujo de trabajo.
2) Selecciona "Hacer clic en los enlaces para scrapear las páginas enlazadas" en el panel de Tips y elige una opción del menú desplegable. Aquí puede elegir "Título_URL".
Octoparse ahora te llevará a la página de detalles del primer producto.
3) Detecta automáticamente los datos web de nuevo o haz clic en los campos de datos de destino, como título, descripción, precio, etc. para extraerlos
2. Configurar el flujo de trabajo manualmente
1) Hacer clic en el primer título del producto que contiene la URL de la página del anuncio.
El título seleccionado se resaltará en verde mientras que todos los demás títulos de productos similares se resaltarán en rojo.
2) Haz clic en "Seleccionar todo" en el panel de Tips
Tips! Si no hay la opción "Seleccionar todo" en el Tips panel después de seleccionar la primera URL, continúa seleccionando la segunda URL. |
3) Selecciona "Hacer clic en bucle en cada URL" en el panel de Tips. Observarás que un paso de hacer clic en bucle se genera automáticamente y se agrega al flujo de trabajo.
Tips! Para recorrer todos los enlaces de la lista, es importante que selecciones el elemento de anclaje. Octoparse identifica automáticamente las etiquetas de los elementos seleccionados. Entonces, cuando seleccionas un elemento con URL, la etiqueta seleccionada sería "A", que significa un ancla que generalmente vincula una página a otra. Si encuentras que Octoparse no localiza la etiqueta A, puedes hacer clic en la "A" en el Tips panel. |
4) Haz clic en los campos de datos de destino, como título, precio, descripción etc. para scrapearlos
Tips! Configurar un tiempo de espera en "Opciones" para pasos como "Hacer clic en el elemento" o "Extraer datos" puede evitar de manera efectiva la omisión de datos y hacer que el proceso de rastreo sea más humano. (Por lo general, funcionan bien entre 2 y 5 segundos). Luego haz clic en "Aplicar" para confirmar. |
Si tienes algún problema en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.