En este tutorial, te mostraremos cómo recopilar información de productos en canadiantire.com con Octoparse.
Para Canadian Tire, puedes utilizar nuestra "Plantilla de tareas" en la pantalla principal de Octoparse. Todo lo que necesitas hacer es escribir varios parámetros y la tarea estará lista para comenzar. Para más detalles, puede consultar: Plantillas de Tarea
Scrapeamos el título, el precio, el stock, etc. de este sitio web. Para seguir adelante, necesitamos utilizar esta URL:
Estos son los pasos principales de este tutorial [Descargar la tarea de demostración aquí
]
1) Abrir la página web de destino
Ingresa la URL en la página de inicio y haz clic en Iniciar
Tips!
Si ves alguna ventana emergente en la página web, cambia al modo Navegación haciendo clic en
para cerrarlo manualmente. Recuerda desactivar el modo Navegación después de eso. |
2) Detectar automáticamente la página web para crear un flujo de trabajo
Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.
(Puede llevar mucho tiempo porque el sitio web aplica una carga infinita)
Haz clic en "Editar" debajo de "Hacer clic en un botón Cargar más" para revisar el "Número de clics" de acuerdo con la cantidad de productos que necesitas scrapear (la configuración predeterminada es hacer clic en "1" vez)
Elimina los campos no deseados o modifica los nombres de los campos en la Vista previa de datos
Haz clic en "Crear flujo de trabajo".
3) Haz clic en el enlace de cada producto para obtener información más detallada
Elige "Hacer clic en los enlaces para raspar las páginas enlazadas"
Selecciona "Hacer clic en un campo de datos extraídos" y selecciona "Title_URL" en el menú desplegable
Haz clic en "Confirmar"
4) Extraer datos de la página de detalles del producto
Selecciona información en la página web
Elige "Extraer texto del elemento seleccionado"
Repite los pasos anteriores para extraer todos los datos que necesitas
Cambiar el nombre de los campos si te es necesario
5) Configurar el tiempo de espera para reducir la velocidad de raspado
El sitio web aplica una técnica anti-raspado y negaría tu acceso si raspas demasiado rápido. Necesitamos ralentizar el raspado estableciendo el tiempo de espera.
Haz doble clic en "Extraer datos1" para abrir la configuración
Marca "Esperar antes de la acción"
Configura el tiempo de espera en 7-10 s
6) Ejecutar extracción - ejecutar tu tarea y obtener datos
Haz clic en Guardar"
Haz clic en "Ejecutar" en la parte superior izquierda
Selecciona "Run task on your device" para ejecutar la tarea en tu computadora, o selecciona"Run task in the cloud" para ejecutar la tarea en la nube (solo para usuarios de plan premium)
Aquí tienes una muestra de datos.