En este tutorial, le mostraremos cómo recopilar información del producto en Tokopedia (un sitio de comercio electrónico de Indonesia) con Octoparse.
Además, puede ir a "Task Templates" en la pantalla principal de la herramienta de raspado Octoparse, y comenzar directamente con la Plantilla de Tokopedia lista para usar para ahorrar tiempo. Con esta característica, no hay necesidad de configurar tareas de raspado. Para más detalles, puede consultarlo aquí: Task Templates
Si desea saber cómo construir la tarea desde cero, puede continuar leyendo el siguiente tutorial.
Recogeremos datos como el título del producto, el precio, la URL de la imagen y más de la página de detalles del producto con Octoparse.
Para continuar, es posible que desee utilizar la URL en este tutorial:
https://www.tokopedia.com/search?st=product&q=usb
Este tutorial también cubrirá:
- Modifique XPath para localizar con precisión los datos de precios deseados
Estos son los pasos principales de este tutorial
- "Ir a la página web" - abra la página web de destino
- Cree un ciclo de paginación - raspe todos los datos de varias páginas
- Cree un "elemento de bucle"- haga clic en cada elemento de cada lista
- Extraer datos - seleccione los datos para la extracción
- Personalice el campo de datos modificando XPath - mejore la precisión de un determinado campo de datos (Optional)
- Inicie la extracción - ejecute la tarea y obtenga los datos
1. "Ir a la página web" - abra la página web de destino
Crea la tarea con el "Modo avanzado"
Pegue la URL en el cuadro "URL de extracción" y haga clic en "Guardar URL" para continuar
2. Cree un ciclo de paginación - raspe todos los datos de varias páginas
- Desplácese hacia abajo y haga clic en el botón ">" en la página web
- Haga clic en "Bucle, haga clic en la página siguiente" en "Consejos de acción"
Tokopedia aplica la técnica AJAX al botón de paginación. Por lo tanto, debemos configurar AJAX Load en el paso "Hacer clic para paginar".
- Desmarque "Reintento automático"
- Marque "Cargar la página con AJAX"
- Configure "AJAX Timeout" (para demostración, configuramos "3s")
¡Consejos! Si desea obtener más información sobre AJAX, aquí hay tutoriales relacionados que puede necesitar: |
3. Cree un "elemento de bucle"- haga clic en cada elemento de cada lista
- Haga clic en "Ir a la página web" en el flujo de trabajo
Ahora estamos en la segunda página. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, será mejor que volvamos a la primera página.
- Seleccione el ciclo de paginación en el flujo de trabajo.
Al hacer esto, podemos ayudar a Octoparse a decidir el orden de ejecución y generar el elemento de bucle en la posición adecuada en el flujo de trabajo.
Cuando crea una lista de elementos para raspar un sitio web, a veces la lista puede incluir varios elementos de "Anuncios". Para excluir los productos de promoción en este caso, podemos comenzar la creación de elementos de bucle desde la tercera fila de esta página.
- Haga clic en el título del primer elemento en la tercera fila.
- Haga clic en "Seleccionar todo" en el panel "Consejos de acción"
- Seleccione "Loop haga clic en cada elemento"
¡Consejos! En este caso, excluimos los elementos "Anuncios" omitiendo las dos primeras filas. Sin embargo, cuando los elementos de "anuncios" existen en la lista de productos, hay otra forma de excluirlos. |
4. Extraer datos - seleccione los datos para la extracción
- Haga clic en la información que necesita en la página.
- Seleccione "Extraer texto del elemento seleccionado" en el panel "Consejos de acción"
- Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta
5. Personalice el campo de datos modificando XPath - mejore la precisión de un determinado campo de datos (Opcional)
En este caso, el elemento de precio no siempre se encuentra en el mismo lugar en diferentes páginas de detalles. Por lo tanto, para evitar la falta de datos provocada por este problema de ubicación irregular, debemos modificar XPath en Octoparse para garantizar que el elemento de precio en cada página se detecte con precisión.
- Haga clic en "Personalizar campo de datos"
- Seleccione "Personalizar XPath"
- Pegue la XPath revisada en el cuadro de texto "XPath coincidente"
- //span[text()='Rp']/following-sibling::span
- Haga clic en "Aceptar" para guardar
¡Consejos! Para mejorar la precisión de un determinado campo de datos, se recomienda modificar XPath en Octoparse. Aquí hay algunos tutoriales relacionados que puede necesitar: |
6. Inicie la extracción - ejecute la tarea y obtenga los datos
- Clic en Guardar"
- Haga clic en "Iniciar extracción" en el lado superior izquierdo
- Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)
Para un usuario premium, Cloud Extraction es muy recomendable.
Así que ahora hemos pasado por todos los pasos para extraer datos de Tokopedia. Aquí está la salida de muestra.
Related articles:
Raspado de detalles del producto de Wayfair
Scrape la información del producto de Gumtree
Revisiones de Scrape de BestBuy
Scrape la información del producto de Houzz
¿Te resultó útil este artículo ¡Póngase en contacto con use en cualquier momento si necesita nuestra ayuda!
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.