Estás navegando una guía de tutorial para la última versión de Octoparse. Si estás utilizando una versión anterior de Octoparse, te recomendamos encarecidamente que actualices porque es más rápido, fácil y robusto. ¡Descarga y actualiza si aún no lo has hecho!
Walmart es una gran corporación minorista en los Estados Unidos. En este tutorial, vamos a mostrarte cómo extraer datos de productos de Walmart.
Si deseas saber cómo construir la tarea desde cero, puedes continuar leyendo el siguiente tutorial.
Supongamos que queremos extraer información específica sobre auriculares y podemos comenzar con la página de inicio (https://www.walmart.com/) para crear nuestro rastreador. Extraeremos datos como el título del producto, el precio, el ID del producto y las reseñas de la página de detalles del producto con Octoparse.
Aquí están los principales pasos en este tutorial:
1. Abre la página web objetivo
Ingresa la URL en la página de inicio y haz clic en Iniciar
Haz clic en la caja de búsqueda y luego haz clic en Ingresar texto en Tips
Escribe "Auriculares" y confirma
Haz clic en Ingresar texto y configúralo para presionar la tecla Enter/Return, luego haz clic en "Aplicar" para confirmar
2. Crea una paginación - para extraer datos de varias páginas
Selecciona Bucle de clic en un solo elemento y configura el tiempo de espera de AJAX en 10 segundos
El XPath generado automáticamente para la paginación no siempre funciona en este caso, por lo que debemos modificar el XPath para hacer que extraiga todas las páginas.
Haz clic en Paginación
Ingresa el XPath //a[@aria-label="Next Page"] en la caja de XPath de Coincidencia
Haz clic en Aplicar para confirmar
3. Extrae los datos de la lista de productos
Selecciona el primer producto (nota para incluir toda la sección del producto
Elige Seleccionar todos los subelementos
Elige Seleccionar todo
Elige Extraer datos
Ahora, se creará un elemento de bucle con Extracción de datos en el flujo de trabajo.
Haz doble clic en el nombre del campo para cambiar su nombre o haz clic en ... para eliminar campos no deseados
Si todos los datos que deseas se pueden extraer de la página de listado, puedes saltar al paso 6.
4. Haz clic en cada enlace de producto para extraer datos - para obtener datos de las páginas de producto
Algunas información como la descripción del producto solo se puede obtener de la página de detalles del producto. Necesitamos hacer clic en cada enlace de producto para obtener los datos.
Haz clic en el primer enlace de producto
Elige Hacer clic en URL
Se creará un elemento de clic en el flujo de trabajo:
5. Extrae datos de la página de detalles
Selecciona los datos que deseas
Haz clic en Extraer el texto del elemento o Extraer la URL de la imagen seleccionada
Haz doble clic en el nombre del campo para cambiar su nombre o haz clic en ... para eliminar campos
Configura el tiempo de espera para la acción de Extracción de datos
El XPath generado automáticamente de los campos de datos puede no funcionar después de que se actualice la página web. Necesitaremos modificar el XPath de los campos. No te preocupes, hemos preparado algunos útiles XPath para este sitio web.
Cambia la vista previa de datos a Vista vertical
Haz doble clic en el XPath para modificarlo
Reemplaza el XPath con los siguientes:
Nombre del producto: //h1
Precio: //span[ Detalles: //h2[text()='Detalles del producto']/../following-sibling::div[1]
Especificaciones: //h2[text()='Especificaciones']/../following-sibling::div[1]
6. Ejecutar la extracción - ejecutar tu tarea y obtener datos
Haz clic en "Guardar" y "Ejecutar" en el lado superior izquierdo
Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora
Nota: Las tareas de Walmart no se pueden ejecutar en la nube debido a problemas de CAPTCHA. Por ahora, solo puedes ejecutarla en tu dispositivo.
Datos extraídos: