En este tutorial, te mostraremos cómo extraer datos de productos de Walmart.com.
También puedes ir a "Plantillas de tarea" en la pantalla principal de Octoparse y comenzar directamente con la plantilla de Walmart para ahorrar tiempo. Con esta función, no es necesario configurar las tareas de raspado. Para más detalles, puedes consultar: Plantillas de Tarea
Si quieres saber cómo construir la tarea desde cero, puedes continuar leyendo el siguiente tutorial.
Supongamos que queremos extraer información específica sobre los headphones y podemos comenzar con la página de resultados de búsqueda (https://www.walmart.com/search/?query=headphones) para crear nuestro rastreador. Recogeremos datos como el título del producto, el precio, el ID del producto y las reseñas de la página de detalles del producto con Octoparse.
Estos son los pasos principales de este tutorial: [Descarga archivo de tareas de demostración aquí]
- Abrir la página web de destino
- Detectar automáticamente la página web para generar el flujo de trabajo
- Hacer clic en el enlace de cada producto para obtener más información
- Extraer datos de la página de detalles
- Extender el tiempo de espera de AJAX para "Hacer clic para paginar"
- Ejecutar la extracción - ejecutar tu tarea y obtener datos
1) Abrir la página web de destino
- Ingresa la URL en la página de inicio y haz clic en Iniciar
2) Detectar automáticamente la página web para generar el flujo de trabajo
- Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.
- Ve a "Vista previa de datos" para ver si estás de acuerdo con la muestra de datos actual
- Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono
- También puedes modificar los nombres de los campos de datos aquí directamente haciendo clic en el icono
- Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono
- Haz clic en "Crear flujo de trabajo".
3) Hacer clic en el enlace de cada producto para obtener más información.
- Elige "Hacer clic en los enlaces para raspar las páginas enlazadas"
- Selecciona "Hacer clic en un campo de datos extraídos" y selecciona el que quieres hacer clic en el menú desplegable, puedes confirmar si es el enlace correcto en la sección de vista previa de datos
- Haz clic en "Confirmar"
4) Extraer datos de la página de detalles
- Selecciona información en la página web
- Elige "Extraer texto del elemento seleccionado"
- Repite los pasos anteriores para extraer todos los datos que necesitas
- Haz clic en
para modificar los nombres de los campos si es necesario
5) Extiende el tiempo de espera de AJAX para "Hacer clic para paginar"
- Haz clic para abrir la configuración de acción de "Hacer clic para paginar"
- Configura el tiempo de espera de AJAX como 10 s
6) Ejecutar la extracción - ejecutar tu tarea y obtener datos
- Haz clic en Guardar"
- Haz clic en "Ejecutar" en la parte superior izquierda
- Selecciona "Run task on your device
" para ejecutar la tarea en tu computadora, o selecciona"Run task in the cloud
" para ejecutar la tarea en la nube (solo para usuarios de plan premium)
Aquí tienes una muestra de datos.
Si tienes alguna duda en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.