TripAdvisor ofrece reservas en línea de transporte y de alojamiento, foros de viaje y restaurantes. Los usuarios pueden encontrar un mejor servicio comparando los hoteles o restaurantes de la plataforma para disfrutar mejor de su viaje.
En este tutorial, vamos a mostrarte cómo raspar datos de hoteles de Tripadvisor.
Para el scraping de Tripadvisor, podrías utilizar nuestras plantillas prediseñadas en la página de inicio o seguir este tutorial para construir la tarea desde cero.
Para demostrártelo, tomaremos esta URL como ejemplo: https://www.tripadvisor.com/Hotels-g186338-London_England-Hotels.html
NOTA: Si quieres comprobar si tu configuración funciona correctamente, podrías descargar el archivo OTD de tareas que para este caso está al final de esta página.
Aquí son los pasos principales de este tutorial:
1. Ir a la página de Tripadvisor
Pegar la URL y hacer clic en Empezar
2. Hacer clic en See all - para cargar todos los hoteles
Necesitamos hacer clic en el botón de See all para que salgan todos los datos de hotel.
Hacer clic en el botón de See all
Elegir Hacer clic en bucle cada elemento en el panel de Tips
Configurar AJAX a 5s
3. Crear paginación - para scrapear desde múltiples páginas
Deslizar la pantalla manualmente para encontrar el botón de la paginación (Next) y hacer clic en eso
Seleccionar Hacer clic en bucle la página siguiente
Configurar AJAX timeout a 10s
4. Crear un Elemento de Bucle - para scrapear datos desde la lista
Hacer clic en el título de dos de los hoteles
Seleccionar Hacer clic en bucle cada URL
Hacer clic en los datos que quieres extraer
Seleccionar Extraer datos
Ir a Vista previa de datos, podrías hacer doble clic para renombrar el campo
Modificar XPath del Elememto de Bucle a //a[@data-clicksource="HotelName"]
Abajo es cómo el flujo de trabajo se mostrará. Si tu configuración de la tarea sale así, ¡es hora de guardar y ejecutarla!
5. Guardar y ejecutar la tarea - para extraer datos que quieres
Hacer clic en el botón de Ejecutar
Seleccionar el modo de ejecución( el modo en la nube aún solo para los usuarios del plan premium)
Aquí es la muestra de datos extraídos: