En este tutorial, te mostraremos cómo recopilar información de hoteles en Tripadvisor.com con Octoparse.
Vamos a demostrar cómo scrapear los detalles del hotel comenzando con la URL de una lista. Ten en cuenta que comenzar con palabras clave o URL es factible con Octoparse.
La forma más sencilla de lograr este objetivo es utilizar la plantilla preestablecida de Tripadvisor. Puede encontrar el icono de Tripadvisor en la pantalla principal de la herramienta de web scraping Octoparse. Todo lo que necesitas es escribir varios parámetros y la tarea estará lista para comenzar. Para más detalles, puedes consultarlo aquí: Plantillas de Tarea
Si quieres saber cómo crear una tarea desde cero con Octoparse, sigue los pasos a continuación. Recogeremos los datos, incluido el nombre del hotel, la ubicación, la descripción y la calificación en la página de detalles del hotel con Octoparse.
Para continuar, necesitas utilizar esta URL en el tutorial:
https://www.tripadvisor.com/Hotels-g60763-New_York_City_New_York-Hotels.html
Estos son los pasos principales de este tutorial: [Descargar archivo de tarea de demostración aquí]
- Ir a la página web - Abrir la página web de destino
- Detectar automáticamente la página web - crear un flujo de trabajo
- Hacer clic en cada enlace de detalles para obtener más información
- Extraer datos - extraer datos en las páginas de detalles
- Configurar el tiempo de espera - reducir la velocidad de raspado
- Modificar la XPath de "Hacer clic en las URLs de la lista"
- Iniciar extracción - ejecutar la tarea y obtener datos
1) Ir a la página web - Abrir la página web de destino
- Ingresa la URL en la página de inicio y haz clic en Iniciar
2) Detectar automáticamente la página web - crear un flujo de trabajo
- Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.
- Go to "Data preview" to see if you're okay with the current data outputVe a "Vista previa de datos" para ver si está satisfecho de la muestra de datos
- Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono
- También puedes modificar los nombres de los campos de datos aquí directamente haciendo clic en el icono
- Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono
- Haz clic en "Crear flujo de trabajo".
Si todos los datos que necesitas se pueden extraer de la página de listado, puede saltar a Configurar tiempo de espera para reducir la velocidad de extracción. Si quieres hacer clic en cada enlace de detalles para obtener más información, sigue el siguiente paso.
3) Hacer clic en cada enlace de detalles para obtener más información
- Elige "Hacer clic en los vínculos para scrapear las páginas vinculadas" en el panel de Tips.
- Selecciona "Hacer clic en un campo de datos extraídos" y selecciona el que quieres hacer clic en el menú desplegable (puedes confirmar si es el enlace correcto en la Vista Previa de Datos)
- Haz clic en "Confirmar"
Octoparse iría automáticamente a la primera página de detalles.
4) Extraer datos - extraer datos en las páginas de detalles
- Seleccionar información en la página web
- Elige "Extraer texto del elemento seleccionado"
- Repite los pasos anteriores para extraer todos los datos que necesitas
- Edita el nombre del campo de datos si es necesario
5) Configurar el tiempo de espera para reducir la velocidad de raspado
Tripadvisor puede bloquear tu IP si la scrapeas demasiado, por lo tanto, debemos controlar la velocidad de raspado.
- Haz clic en abrir la configuración de acción de la acción "Extraer datos1"
- Marca "Esperar antes de la acción"
- Configura el tiempo como 5 a 10 segundos
6) Modificar la XPath de "hacer clic en las URLs de la lista".
La acción auto-generada, es decir, "Hacer clic en las URL de la lista", no siempre puede hacer clic en la URL del título, por lo que debemos modificar el XPath de esta acción. (Para saber más sobre XPath, consulta aquí)
- Haz doble clic en "hacer clic en las URLs de la lista".
- Haz clic en el icono
- Ingresa el XPath //A[contains(@class,"property_title prominent")]
- Haz clic en "Aceptar" para confirmar
7) Ejecutar la extracción - ejecutar tu tarea y obtener datos
- Haz clic en Guardar"
- Haz clic en "Ejecutar" en la parte superior izquierda
- Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)
Aquí tienes una muestra de datos.
Si tienes alguna duda en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.