En este tutorial, vamos a presentar cómo extraer información de TripAdvisor.com.
Además, puede ir a "Plantillas de Tareas" en la pantalla principal de la herramienta de raspado Octoparse y comenzar directamente con las Plantillas de TripAdvisor listas para usar para ahorrar tiempo. Con esta característica, no hay necesidad de configurar tareas de raspado. Para más detalles, puede consultarlo aquí: Plantillas de tareas
Si desea saber cómo construir la tarea desde cero, puede continuar leyendo el siguiente tutorial.
Para continuar, es posible que desee utilizar la URL en este tutorial:
https://www.tripadvisor.com/Hotels-g186338-London_England-Hotels.html.
Scrape el título, la ubicación, el precio y la calificación del hotel de la página del hotel con Octoparse.
Pasos principales en el tutorial:
- "Ir a la página web" - abre la página web de destino
- Cree un ciclo de paginación - scrape todos los resultados de varias páginas
- Cree un "Elemento de bucle" - haga clic en cada elemento de cada lista
- Extraer datos - seleccione los datos para la extracciónn
- Personalice el campo de datos modificando XPath - mejore la precisión de la lista de elementos (Opcional)
- Inicie la extracción - ejecute la tarea y obtenga datos
1. "Ir a la página web" - abre la página web de destino
- Haga clic en "+ Tarea" para iniciar una tarea usando el Modo avanzado
El modo avanzado es un modo de raspado web altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, como Airbnb.com, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos.
- Pegue la URL en el cuadro "Sitio web" y haga clic en "Guardar URL" para continuar
Debido a la configuración de cookies de TripAdvisor, necesitamos configurar los filtros en Octoparse.
- Seleccione una fecha de "Registro" en el navegador incorporado y haga clic en "Hacer clic en Elemento" en los "Consejos de acción"
- Repita las acciones para configurar la fecha de "Salida" y la "Información del huésped"
Ahora, podemos tener la página de resultados que necesitamos.
2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas
- Desplácese hacia abajo y haga clic en el botón "Página siguiente" en la página web
- Haga clic en "Bucle, haga clic en la página siguiente" en el panel "Consejos de acción"
A medida que TripAdvisor carga el contenido con AJAX, debemos configurar AJAX Load para la acción "Hacer clic para paginar".
- Desmarque "Reintento automático cuando no hay respuesta"
- Marque "Cargar la página con AJAX"
- Configure "AJAX Timeout", y en este caso, establecemos "5" segundos
- Clic en Guardar"
Consejos! Si desea obtener más información sobre AJAX, aquí hay tutoriales relacionados que puede necesitar: |
3. Cree un "Elemento de bucle" - haga clic en cada elemento de cada lista
Ahora estamos en la segunda página. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, mejor regresemos a la primera página.
- Haga clic en "Ir a la página web" en el flujo de trabajo
- Eliminar las tres acciones "Hacer clic en elemento"
Octoparse enviará la cookie guardada al sitio web al cargar, para que podamos abrir la página de resultados directamente. Como TripAdvisor ya nos ha "recordado", ahora no hay necesidad de mantener estas acciones.
- Seleccione el buclo de paginación en el flujo de trabajo.
Al hacer esto, podemos ayudar a Octoparse a decidir el orden de ejecución y generar el "Elemento de bucle" en la posición adecuada en el flujo de trabajo.
Ahora, construyamos el elemento del bucle.
- Haga clic en el título del primer elemento en la página de listado, excepto los elementos "Patrocinados"
- Haga clic en "Seleccionar todo" en el panel "Consejos de acción"
- Seleccione "Loop haga clic en cada URL"
Octoparse generará automáticamente el bucle y abrirá la página de detalles del primer elemento.
4. Extraer datos - seleccione los datos para la extracción
- Haga clic en la información que necesita en la página.
- Seleccione "Extraer datos" en el panel "Consejos de acción"
- Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta
¡Consejos! Cuando haga clic en la calificación de la lista, elija "Extraer HTML externo del elemento seleccionado". Los datos extraídos deben procesarse aún más con Expresión regular. Vea cómo se hace en el Paso 5. |
5. Personalice el campo de datos modificando XPath - mejore la precisión de la lista de elementos (Opcional)
En este caso, el elemento "Dirección" no siempre se encuentra en el mismo lugar en diferentes páginas de detalles. Por lo tanto, para evitar la falta de datos provocada por este problema de ubicación irregular, debemos modificar XPath en Octoparse para garantizar que el elemento "Dirección" en cada página se detecte con precisión.
Revisemos la XPath del campo de datos "Dirección":
- Haga clic en la fila del campo "Dirección"
- Haga clic en el icono de "Personalizar campo de datos"
- Seleccione "Pers.onalizar XPath"
- Pegue el XPath revisado en el cuadro de texto "XPath coincidente"
- Revised XPath: //div[contains(@class,'address')]//span[contains(@class,'Contact')]//span
- Haga clic en "Aceptar" para guardar el resultado
¡Consejos! Para mejorar la precisión de un determinado campo de datos, se recomienda modificar XPath en Octoparse. Aquí hay algunos tutoriales relacionados que puede necesitar: |
6. Inicie la extracción - ejecute la tarea y obtenga datos
- Clic en Guardar"
- Haga clic en "Iniciar extracción" en el lado superior izquierdo
- Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)
Para un usuario premium, Cloud Extraction es muy recomendable.
Aquí está la salida de muestra. Puede encontrar algunos campos en blanco y eso es porque no tienen el valor.
Artículos relacionados:
Scrape los datos del hotel de Booking
Scrape los datos inmobiliarios en Realtor.com
¿Te resultó útil este artículo ¡Contáctenos en cualquier momento si necesita nuestra ayuda!
De: http://www.octoparse.es/tutorial-7/scrape-hotel-data-from-tripadvisor
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.