Amazon es uno de los sitios web de comercio electrónico más populares del mundo. Muchos usuarios intentan scrapearlo para recopilar información del producto. En este tutorial, te mostraremos cómo extraer los detalles del producto de Amazon.
Puedes ir a "Task Templates" en la pantalla principal de la herramienta de web scraping Octoparse y comienza con las plantillas de Amazon listas para usar directamente para ahorrar tiempo. Octoparse proporciona varias plantillas de Amazon diseñadas para diferentes países como Alemania, Francia, Estados Unidos, España e India. Con esta función, no es necesario configurar las tareas de raspado. Para más detalles, puedes consultarlo aquí: Plantillas de Tarea
Si quieres saber cómo construir la tarea desde cero, puedes continuar leyendo el siguiente tutorial.
Para continuar, necesitarás utilizar esta URL en el tutorial:
Estos son los pasos principales de este tutorial: [Descargar archivo de tareas here ]
- Ir a la página web - abrir la página web de destino
- Detectar automáticamente la página web: crear el flujo de trabajo
- Hacer clic en el enlace de cada producto para obtener más información
- Extraer datos: extraer datos en las páginas de detalles
- Configurar el tiempo de espera de AJAX para "Hacer clic para paginar"
- Iniciar extracción: ejecutar la tarea y obtener datos
1. Ir a la página web - Abrir la página web de destino
- Ingresa la URL en la página de inicio y haz clic en "Iniciar"
2. Detectar automáticamente la página web - crear el flujo de trabajo
- Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.
- Elimina los campos no deseados o cambia el nombre de los campos si es necesario en la vista previa de datos
- Haz clic en "Crear flujo de trabajo".
Una paginación y un elemento de bucle se generarían automáticamente en el flujo de trabajo.
Si todos los datos que necesitas se pueden extraer de la página del listado, puedes detenerte aquí y saltar a Configurar el tiempo de espera de AJAX para "Hacer clic para paginar". Si quieres ir a la página de detalles de cada producto para obtener más información, sigue los pasos a continuación.
3. Hacer clic en el enlace de cada producto para obtener más información.
- Elige "Hacer clic en los enlaces para eliminar las páginas vinculadas" en el panel de Tips.
- Selecciona "Hacer clic en un campo de datos extraídos" y selecciona el campo en el que deseas hacer clic en el menú desplegable (puedes confirmar si es el enlace correcto en la Vista previa de datos)
- Haz clic en "Confirmar"
Octoparse iría automáticamente a la primera página del producto.
4. Extraer datos - extraer datos en las páginas de detalles
- Selecciona información en la página web
- Elige "Extraer texto del elemento seleccionado"
- Repite los pasos anteriores para extraer todos los datos que necesitas
5. Configurar el tiempo de espera de AJAX para "Hacer clic para paginar"
- Haz clic en abrir la configuración de acción de "Haga clic para paginar"
- Marca "Cargar con AJAX" y selecciona 10 segundos como tiempo de espera de AJAX
6. Ejecutar la extracción - ejecuta tu tarea y obtén datos
- Haz clic en Guardar"
- Haz clic en "Ejecutar" en la parte superior izquierda
- Selecciona "Run on your device" para ejecutar la tarea en tu computadora, o selecciona "Run task in the Cloud" para ejecutar la tarea en la nube (solo para usuarios de plan premium)
Aquí está una muestra de datos.
Si tienes alguna duda en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.