En este tutorial, le mostraremos cómo scrape los detalles del producto de Wayfair, una empresa estadounidense de comercio minorista de mejoras para el hogar que vende artículos para el hogar.
Para este ejemplo, usaremos la URL a continuación para extraer datos como el título del producto, la descripción y el precio de cada página de detalles del producto.
https://www.wayfair.com/lighting/sb1/table-lamp-night-lights-c416395-a76645~280587.html
Estos son los pasos principales de este tutorial: [Descargue el demo archivo de tarea aquí ]
- "Ir a la página web" - abra la página web de destino
- Cree un ciclo de paginación - scrape los resultados de búsqueda de todas las páginas
- Cree un "Loop Item" - scrape todos los elementos de cada página
- Extraer dato - seleccione los datos para la extracción
- Iniciar extracción - ejecute la tarea y obtenga datos
1. "Ir a la página web" - abra la página web de destino
- Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo Avanzado
- Pegue la URL en el cuadro "Website" y haga clic en "Guardar URL" para continuar
Consejos Se recomienda extraer datos de una lista de URL |
- Desplácese hasta la parte inferior de la página, haga clic en el botón "Siguiente"
- Haga clic en "Loop click next page" en el panel "Action Tips"
- Configure un tiempo de espera AJAX para 5s (opcional según su condición de red local)
- Haga clic en "OK" para guardar
¡Consejos! AJAX timeout a menudo se puede usar como un web page timeout para Acción de clic. Por ejemplo, cuando tiene una página que tarda una eternidad en finalizar la carga, mucho después de que se carguen los datos que necesita, puede usar convenientemente el tiempo de espera de AJAX para indicarle a Octoparse que pase a la siguiente acción cuando se alcance el tiempo establecido. Mira este video |
- Haga clic en cualquier título de producto en la página
- Haga clic en "Seleccionar todo" en el panel "Action Tips"
- Haga clic en "Loop haga clic en cada elemento"
Octoparse detecta cualquier elemento similar en la misma página cuando se selecciona un elemento. Los enlaces seleccionados se resaltan en verde, mientras que todos los otros enlaces similares detectados se resaltan en rojo. Cuando se agrega una acción de Loop clic Octoparse hará clic en cada enlace capturado en Loop Item y abrirá la página de detalles del producto una por una.
- Desmarque "Reintentar cuando la página permanezca sin cambios (use discretamente para cargar AJAX)"
- Clic en "Save"
Después de hacer clic en "Loop click each element", Octoparse abrirá la página de detalles del primer producto.
- Haga clic en los datos que necesita en la página.
- Seleccione "Extraer texto del elemento seleccionado" de los "Action Tips"
- Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta
- Clic en "Save"
- Haga clic en "Iniciar extracción" en el lado superior izquierdo
- Seleccione "Local Extraction
" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction
" para ejecutar la tarea en la nube (solo para usuarios premium)
Aquí están los datos que extrajimos.
¡Feliz data hunting!
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.