Target.com, uno de los minoristas en línea más grandes de los Estados Unidos. En este tutorial, le mostraremos cómo raspar la información del producto de Target.com.
Si desea saber cómo construir la tarea desde cero, puede leer el siguiente tutorial.
Debido a la estructura del sitio web, necesitamos usar 2 tareas para lograr el objetivo. Rasparemos la URL de cada página de elementos en la Tarea 1 y luego rascaremos la información detallada del producto, como el título del producto, el precio y la descripción de la página de detalles del producto en la Tarea 2. Al dividir una tarea en dos, la velocidad de extracción podría mejorarse hasta cierto punto, especialmente cuando usamos la extracción de nube de Octoparse.
Para continuar, es posible que desee utilizar esta URL en el tutorial:
https://www.target.com/c/milk-substitutes-dairy-grocery/-/N-5xszh?lnk=MilkMilkSubstit
Este tutorial también cubrirá:
- Tratar con AJAX para paginación
Estos son los pasos principales de este tutorial: [Descargar el archivo de tarea aquí ]
Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda
- "Go to Web Page" - open the target web page
- Create a pagination loop - scrape all the results from multiple search results pages
- Build a "Loop Item"- loop extract each URL on the search results pages
- Start extraction - run the task and get data
Tarea 2: Recopilar la información del producto de URL raspadas
- Input a batch of the scraped URLs - loop open the detail pages
- Extract data - select the data for extraction
- Start extraction - run the task and get data
Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda
1. "Ir a la página web" - abre la página web de destino
- Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo Avanzado
El modo avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, como Target.com, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos.
- Pegue la URL en el cuadro "Sitio web" y haga clic en "Guardar URL" para continuar
2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas
- Desplácese hacia abajo y haga clic en el botón ">"
- Haga clic en "Bucle, haga clic en el enlace seleccionado" en el panel "Consejos de acción"
- Configure la carga AJAX para la acción "Hacer clic para paginar"
Target.com aplica la técnica AJAX al botón de paginación. Por lo tanto, debemos configurar AJAX Load para la acción "Hacer clic para paginar".
- Desmarque la casilla "Reintentar cuando la página no cambie (úsela discretamente para cargar AJAX)"
Cuando haya configurado la carga AJAX, recuerde desmarcar "Reintento automático".
- Marque la casilla "Cargar la página con AJAX" y configure el tiempo de espera de AJAX como "3" segundos
Puede configurar un tiempo de espera más largo para asegurarse de que la página se cargue bien.
- Haga clic en "OK" para guardar
¡Consejos! Si desea obtener más información sobre AJAX, estos son los tutoriales relacionados que puede necesitar: |
3. Cree un "elemento de bucle" - Extraiga en bucle cada URL en las páginas de resultados de búsqueda
- Haga clic en "Ir a la página web" para volver a la primera página y luego haga clic en el cuadro "Paginación"
Al extraer datos a través de varias páginas, siempre debe comenzar la creación de tareas en la primera página.
- Seleccione el título del primer elemento de la lista
- Haga clic en "Seleccionar todo"
- Haga clic en "Extraer las URL de los elementos seleccionados"
Puede observar que no todos los elementos de la lista se seleccionan correctamente. En este caso, necesitamos revisar la XPath predeterminada del elemento de bucle para ubicar todos los elementos.
- Seleccione "Elemento de bucle" en el flujo de trabajo
- Seleccione "Lista de variables" y luego ingrese la XPath revisada a continuación:
- //li[contains(@class,'h-padding-a-none')]
- Haha "OK" para guardar
También puede agregar un tiempo de espera a este paso para que el sitio web tenga suficiente tiempo para cargar.
- Vaya a "Esperar antes de la ejecución" y seleccione una hora del drop-down menú según su condición de Internet. Para la demostración, establecemos "10" segundos.
Además, algunos elementos en el elemento de bucle no pueden encontrar una URL correspondiente. En este caso, necesitamos personalizar la XPath del campo de datos.
- Haga clic
icon, and luego seleccione "Customize XPath"
- Ingrese la XPath revisada a continuación en el cuadro de texto de "XPath relativa":
- //A[1]
- Haha clic "OK" para guardar
¡Consejos! 1. "Lista de variables" es un modo de bucle en Octoparse. Para obtener más información sobre los modos de bucle en Octoparse: 2. Si desea obtener más información sobre XPath y cómo generarlo, estos son los tutoriales relacionados que puede necesitar:
|
4. Iniciar extracción - Ejecute la tarea y obtenga datos
- Clic en "Save"
- Haga clic en "Start Extraction" en el lado superior izquierdo
- Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)
Aquí está la salida de muestra para la Tarea 1.
¡Consejos! Cuando el contenido de la página ya se ha mostrado, pero todavía se está cargando, puede hacer clic en el botón "X" en el extremo derecho de la barra de navegación para detener la carga.
|
Tarea 2: Recopilar la información del producto de URL raspadas
1. Ingrese un lote de las URL raspadas: abra las páginas de detalles
En la Tarea 1, ya tenemos un lote de URL.
- Haga clic en "+ Tarea" para comenzar una tarea usando el Modo avanzado para construir la Tarea 2
- Input batch URL
Hay tres formas de importar URL por lotes a cualquier tarea/rastreador (hasta un millón de URL). En este caso, le mostraremos cómo importar por lotes URL de un archivo local.
También puede copiar las URL del archivo de salida de extracción de la Tarea 1 y luego pegarlas en el cuadro de texto "Sitio web".
Para un estudio más detallado, consulte Batch Import URLs
- Seleccione "Entrada del archivo" y luego seleccione el archivo de salida de las URL de raspado
- Haga clic en "Guardar URL"
2. Extraer datos - seleccione los datos para la extracción
Como podemos ver, ahora estamos en la página de detalles.
- Haga clic en la información que necesita en la página.
- Seleccione "Extraer texto del elemento seleccionado" en el panel "Consejos de acción"
En este paso, podemos cambiar el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta.
3. Iniciar extracción - ejecute la tarea y obtenga datos
- Click en "Save"
- Haga clic en "Iniciar extracción" en el lado superior izquierdo
- Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)
Para un usuario premium, Cloud Extraction es muy recomendable.
Ahora tiene los datos que desea. Hay algunos campos en blanco en la salida porque no hay valores de calificación para algunos artículos del producto.
Una tarea de división puede ayudar a mejorar la eficiencia de la extracción de datos, así como a minimizar algunos problemas causados por pequeños cambios ocurridos en los sitios web.
¡Consejos! Por defecto, si Octoparse no puede encontrar el elemento del patrón definido en la página, el campo se dejará en blanco. Sin embargo, Octoparse puede no encontrar el elemento del patrón definido, incluso si el elemento necesario se muestra en el sitio web. Si encuentra este problema, aquí hay un tutorial relacionado que puede necesitar
|
¡Feliz búsqueda de datos!
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.