Todas las colecciones
Tutorial de Casos
E-Commerce
Scrapear información del producto de Target.com
Scrapear información del producto de Target.com
Actualizado hace más de una semana

Target.com, uno de los minoristas en línea más grandes de los Estados Unidos. En este tutorial, te mostraremos cómo extraer la información del producto de Target.com.

Si quieres saber cómo construir la tarea desde cero, puedes leer el siguiente tutorial.

Debido a la estructura del sitio web, necesitamos utilizar 2 tareas para lograr el objetivo. Rasparemos la URL de cada página de artículo en la Tarea 1 y luego rasparemos la información detallada del producto, como el título del producto, el precio y la descripción de la página de detalles del producto en la Tarea 2. Al dividir una tarea en dos, la velocidad de extracción podría mejorarse hasta cierto punto, especialmente cuando usamos Octoparse Cloud Extraction.

Para continuar, necesitamos utilizar esta URL en el tutorial:

Estos son los pasos principales de este tutorial. [Descarga la tarea de demostración aquí ]

Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda

  1. "Ir a la Página Web" - abrir la página web de destino

  2. Detectar automáticamente los datos de la página web - crear el flujo de trabajo

  3. Configure el tiempo de espera de AJAX para la acción "Hacer Clic para Paginar"

  4. Iniciar extracción - ejecutar la tarea y obtener datos

Tarea 2: Recopilar la información del producto de URLs extraídas: [Descarga archivo de tarea aquí ]

  1. Ingresar un lote de URLs raspadas - abrir las páginas de detalles

  2. Extraer datos - seleccionar los datos para la extracción

  3. Configurar el tiempo de espera para ralentizar el raspado

  4. Iniciar extracción - ejecutar la tarea y obtener datos

Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda

1. "Ir a la Página Web" - abrir la página web de destino

  • Ingresa la URL en la página de inicio y haz clic en Iniciar

9614561561.png

2. Detectar automáticamente los datos de la página web - crear el flujo de trabajo

  • Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.

559595596.gif
  • Ve a "Vista previa de datos" para ver si estás de acuerdo con la salida de datos actual (recuerda mantener el campo de URL del producto)

    • Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono

      mceclip13.png
    • También puedes modificar los nombres de los campos de datos aquí directamente haciendo clic en el icono

      mceclip14x2.png
2020-10-05_20-42-31.png
  • Haz clic en "Crear flujo de trabajo".

43543543.png

3. Configurar el tiempo de espera de AJAX para la acción "Hacer Clic para Paginar"

Target usa AJAX para cargar las páginas siguientes, por lo que debemos configurar un tiempo de espera AJAX.

  • Haz clic en abrir la configuración de la acción "Hacer clic para paginar"

  • Marca "Cargar con AJAX"

  • Configura el tiempo de espera en 7-10 s

3.1.gif

4. Ejecutar la extracción - ejecutar tu tarea y obtener datos

  • Haz clic en "Guardar"

  • Haz clic en "Ejecutar" en la parte superior izquierda

  • Selecciona "Run task on your device" para ejecutar la tarea en tu computadora, o selecciona"Run task in the cloud" para ejecutar la tarea en la nube (solo para usuarios de plan premium)

9_59_25_6256.gif

Aquí tienes una muestra de datos de Tarea 1.

56156156156.png

Tarea 2: Recopilar la información del producto de URLs extraídas

1. Ingresar un lote de URLs scrapeadas - abrir las páginas de detalles

En la Tarea 1, ya tenemos un lote de URL.

  • Haz clic en "New +" para iniciar una tarea utilizando el Modo Avanzado para crear la Tarea 2

  • Selecciona "Ingresar manualmente" y luego pega las URL raspadas

  • Haz clic en "Guardar URL".

697689.gif

Tips!

Hay tres formas de importar URL por lotes a cualquier tarea / rastreador (hasta un millón de URL).

También puedes copiar las URLs del archivo de extracción de la Tarea 1 y luego pegarlas en el cuadro de texto "Website". Para más detalles, consulta Ingresar URLs por lotes

2. Extraer datos - seleccionar los datos para la extracción

  • Selecciona información en la página web

  • Elige "Extraer texto del elemento seleccionado"

  • Repite los pasos anteriores para extraer todos los datos que necesitas

43432432.gif
  • Haz clic en

    mceclip14.png

    para modificar los nombres de los campos si es necesario

322342.png

3. Configurar el tiempo de espera para ralentizar el raspado

  • Haz clic para abrir la configuración de la acción "Extraer datos"

  • Configura el tiempo de espera en 7-10 s

    6.2.gif

4. Iniciar extracción - ejecutar la tarea y obtener datos

  • Haz clic en Guardar"

  • Haz clic en "Ejecutar" en la parte superior izquierda

  • " para ejecutar la tarea en tu computadora, o selecciona"Run task in the cloud

    " para ejecutar la tarea en la nube (solo para usuarios de plan premium)

2323213.png

Aquí tienes una muestra de datos.

432432.png
¿Ha quedado contestada tu pregunta?