Extraer datos de Walmart
Actualizado hace más de una semana

Estás navegando una guía de tutorial para la última versión de Octoparse. Si estás utilizando una versión anterior de Octoparse, te recomendamos encarecidamente que actualices porque es más rápido, fácil y robusto. ¡Descarga y actualiza si aún no lo has hecho!

Walmart es una gran corporación minorista en los Estados Unidos. En este tutorial, vamos a mostrarte cómo extraer datos de productos de Walmart.

Si deseas saber cómo construir la tarea desde cero, puedes continuar leyendo el siguiente tutorial.

Supongamos que queremos extraer información específica sobre auriculares y podemos comenzar con la página de inicio (https://www.walmart.com/) para crear nuestro rastreador. Extraeremos datos como el título del producto, el precio, el ID del producto y las reseñas de la página de detalles del producto con Octoparse.

Aquí están los principales pasos en este tutorial:

1. Abre la página web objetivo

  • Ingresa la URL en la página de inicio y haz clic en Iniciar

2.png
  • Haz clic en la caja de búsqueda y luego haz clic en Ingresar texto en Tips

3.png
  • Escribe "Auriculares" y confirma

4.png
  • Haz clic en Ingresar texto y configúralo para presionar la tecla Enter/Return, luego haz clic en "Aplicar" para confirmar

5.png

2. Crea una paginación - para extraer datos de varias páginas

  • Selecciona Bucle de clic en un solo elemento y configura el tiempo de espera de AJAX en 10 segundos

4.gif

El XPath generado automáticamente para la paginación no siempre funciona en este caso, por lo que debemos modificar el XPath para hacer que extraiga todas las páginas.

  • Haz clic en Paginación

  • Ingresa el XPath //a[@aria-label="Next Page"] en la caja de XPath de Coincidencia

  • Haz clic en Aplicar para confirmar

pagination_Xpath.jpg

3. Extrae los datos de la lista de productos

  • Selecciona el primer producto (nota para incluir toda la sección del producto

  • Elige Seleccionar todos los subelementos

select_product.jpg
  • Elige Seleccionar todo

select_all.jpg
  • Elige Extraer datos

Extract_data.jpg

Ahora, se creará un elemento de bucle con Extracción de datos en el flujo de trabajo.

Loop_Item.jpg
  • Haz doble clic en el nombre del campo para cambiar su nombre o haz clic en ... para eliminar campos no deseados

rename.jpg

Si todos los datos que deseas se pueden extraer de la página de listado, puedes saltar al paso 6.

4. Haz clic en cada enlace de producto para extraer datos - para obtener datos de las páginas de producto

Algunas información como la descripción del producto solo se puede obtener de la página de detalles del producto. Necesitamos hacer clic en cada enlace de producto para obtener los datos.

  • Haz clic en el primer enlace de producto

  • Elige Hacer clic en URL

click_uRL.jpg

Se creará un elemento de clic en el flujo de trabajo:

click_item.jpg

5. Extrae datos de la página de detalles

  • Selecciona los datos que deseas

  • Haz clic en Extraer el texto del elemento o Extraer la URL de la imagen seleccionada

6.gif
  • Haz doble clic en el nombre del campo para cambiar su nombre o haz clic en ... para eliminar campos

7.gif
  • Configura el tiempo de espera para la acción de Extracción de datos

wait_time.jpg

El XPath generado automáticamente de los campos de datos puede no funcionar después de que se actualice la página web. Necesitaremos modificar el XPath de los campos. No te preocupes, hemos preparado algunos útiles XPath para este sitio web.

  • Cambia la vista previa de datos a Vista vertical

  • Haz doble clic en el XPath para modificarlo

  • Reemplaza el XPath con los siguientes:

vertical.jpg

Nombre del producto: //h1

Precio: //span[ Detalles: //h2[text()='Detalles del producto']/../following-sibling::div[1]

Especificaciones: //h2[text()='Especificaciones']/../following-sibling::div[1]

6. Ejecutar la extracción - ejecutar tu tarea y obtener datos

  • Haz clic en "Guardar" y "Ejecutar" en el lado superior izquierdo

  • Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora

Nota: Las tareas de Walmart no se pueden ejecutar en la nube debido a problemas de CAPTCHA. Por ahora, solo puedes ejecutarla en tu dispositivo.

mceclip0.png

Datos extraídos:

13.png

¿Ha quedado contestada tu pregunta?