Cuando hacemos la extracción de datos en los sitios web de comercio electrónico, es muy común que queramos extraer datos tanto de páginas de listado como de páginas de detalles de productos. Con Octoparse, se puede hacerlo de manera muy fácil y rápida. En este artículo, le enseñaremos cómo crear un crawler para scrapear informaciones de la página de listado y la de detalles al mismo tiempo.
Aquí tomamos los datos de "gafas" de eBay como ejemplo: https://www.ebay.es/sch/i.html?_from=R40&_trksid=p2380057.m570.l1313&_nkw=gafas&_sacat=0
Principalmente, Octoparse ofrece dos maneras de las que puede extraer datos que necesite.
1. Utilizar la detección automática para crear el workflow
2. Crear el workflow manualmente
1. Utilizar la detección automática para crear el workflow
La detección automática de Octoparse 8.X es más avanzada y fuerte. Podemos hacer la extracción aprovechando la función con unos clics en unos segundos.
· Hacer clic en "Detectar automáticamente los datos de la página web" en el panel "Tips".
· Cambiar los resultados para obtener los campos de datos que desee (resultado 1 en este caso).
· Modificar los campos de datos en la "Vista previa de datos" cambiando los nombres o suprimiendo los que no quiere. (Puede retitular los campos de datos haciendo doble clic en sus nombres.)
· Hacer clic en "Revisar" para ver si Octoparse localiza con éxito el botón de la página posterior.
· Luego hacer clic en "Crear workflow".
Octoparse ha creado un bucle en el workflow, que ayuda a scrapear datos de la página de listado. Ahora pasamos a las páginas de detalles con los pasos siguientes.
· Seleccionar "Hacer clic en lo(s) enlace(s) para scrapear la(s) página(s) enlazada(s)“.
Ahora saltamos a la página de detalle del producto.
· Hacer clic en cualquier elemento que quiere extraer.
· Hacer clic en "Extraer el texto del elemento".
· Modificar los nombres de los campos de datos.
· Hacer clic en "Guardar" y "Ejecutar".
2. Crear el workflow manualmente
A veces la detección automática falla para unos sitios web, así que podría crear una tarea por su cuenta con los pasos siguientes.
Si quiere extraer datos de varias páginas, primero podría configurar la paginación.
· Hacer clic en el botón de la página posterior.
· Seleccionar "Hacer clic en bucle sigle URL"/ "Hacer clic en bucle sigle elemento".
· Seleccionar el primer producto en la primera página.
· Hacer clic en "Seleccionar todos" en el panel Tips.
· Hacer clic en "Extraer texto del elemento seleccionado".
Ojos: Algunas veces no aparece la opción "Seleccionar todos" en Tips, necesita también seleccionar el segundo producto, y luego hacer clic en "Seleccionar todos los subelementos".
· Hacer clic en "Extraer datos" después de modificar los campos de datos en la "Vista previa de datos"
Así que ha extraído los datos de la página de listado con éxito.
· Seleccionar el primer título en la página de listado.
· Hacer clic en "Seleccionar todos". (Algunas veces no aparece la opción "Seleccionar todos" en Tips, necesita también seleccionar el segundo producto, y luego hacer clic en "Seleccionar todos".)
· Seleccionar "Hacer clic en bucle cada elemento".
Luego saltamos a las páginas de detalles.
· Hacer clic en los datos que quiere extraer y seleccionar "Extraer el texto del elemento".
· Hacer clic en “Guardar" y "Ejecutar".
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.