Todas las colecciones
Tutorial de Casos
Viaje
Scrapear reseñas de restaurantes Tripadvisor España
Scrapear reseñas de restaurantes Tripadvisor España
Actualizado hace más de una semana

En este tutorial, presentaremos cómo extraer datos de opiniones de clientes de Tripadvisor. Recogeremos la información básica del restaurante, los nombres y los comentarios de los clientes.

Tomamos esta URL como ejemplo:

Estos son los pasos principales de la configuración de tarea para extraer datos de restaurantes de Tripadvisor:

1. Ir a la página web - abrir la página web de destino

  • Ingresa la URL de ejemplo y haz clic en "Empezar"

  • mceclip0.png

2. Detectar automáticamente los datos de la página web - crear el flujo de trabajo

  • Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.

mceclip1.png
  • En la Vista previa de datos, puedes doble clic en el nombre del campo para modificar el nombre y elimina los campos no deseados haciendo clic en ¨Más¨ y luego elegir ¨Suprimir¨

mceclip2.png
  • Desmarca la casilla "Agregar un desplazamiento de página".

  • Elige "Crear workflow" en el panel de Tips.

mceclip4.png

3. Hacer clic en los enlaces para extraer reseñas

  • Elige la opción “Hacer clic en lo(s) enlace(s) para scrapear la(s) página(s) enlazada(s)“ en el panel de Tips

Hacer_clic_en_enlaces_para_ir_a_la_p_gina_de_detalles.gif

La acción autogenerada "Hacer clic en las URLs de la lista" no siempre puede localizar y hacer clic en la URL del título, por lo que debemos modificar el XPath de esta acción. (Para saber más sobre lo que es XPath, consulta aquí)

  • Haz clic en el paso "Hacer clic en las URLs de la lista" e ingresa el XPath: //div[@class="OhCyu"]//a

mceclip5.png

Si Octoparse no abre la primera página del hotel después de guardar el XPath, podemos hacer clic en otra acción (por ejemplo, la acción Extraer datos ) y luego hacer clic en Hacer clic en las URLs de la lista para abrir la página del restaurante.

4. Crear un "Elemento de bucle" - para raspar la información de revisión

Es posible que desees saber para qué restaurante son estas reseñas. Podemos raspar la información del restaurante junto con las reseñas.

  • Haz clic en los datos que necesitas y haz clic en "Extraer el texto del elemento seleccionado" respectivamente

mceclip3.png
  • Desplázate hacia abajo en la página, seleccione las 2 primeras reseñas y haz clic en Extraer el texto de los elementos seleccionados

  • Selecciona los datos (Nombre de usuario y comentario) y haz clic en Extraer el texto del enlace seleccionado por separado.

Configurar_Elemento_de_Bucle_para_extraer_rese_as.gif

5. Crear paginación - para extraer todas las reseñas de varias páginas

  • Desplázate hacia abajo para hacer clic en el botón Siguiente y elija Hacer clic en bucle en la página siguiente

  • Configura AJAX (para obtener más información sobre AJAX, haz clic aquí)

Configurar_Paginaci_n_para_extraer_todas_las_rese_as.gif

6. Personalizar el campo de datos modificando XPath para mejorar la precisión de ciertos campos de datos

Como hemos mencionado, el XPath generado automáticamente no siempre funciona, necesitamos modificar el XPath de los campos para que el raspado sea más preciso. Hemos preparado el XPath de algunos campos populares. Simplemente puedes copiar y pegar para personalizar XPath.

Número de teléfono: //div[@data-test-target="restaurant-detail-info"]//a[contains(@href,"tel:")]

Dirección: //span[contains(@class,'map')]/following-sibling::span[1]

Cantidad de reseña: //h2[text()="Puntuaciones y opiniones"]/following-sibling::div//a[@href="#REVIEWS"]

Cliente: //div[@class="info_text pointer_cursor"]/div

Título de reseña: //a[@class="title"]

Rating de reseña: //div[@class="ui_column is-9"]//span[contains(@class,"ui_bubble_rating")]

Contenido de reseña: //a[@class="title"]/../following-sibling::div[@data-prwidget-name="reviews_text_summary_hsx"]

  • Cambiar la vista horizontal a la vista vertical

  • Copia y pega el Xpath que proporcionamos en cada campo

7. Limpieza de datos - para reformatear campos de datosa

Para los campos "Rating" y "Hora de revisión", es posible que al modificar el Xpath no puedas obtener los datos exactos que deseas. Entonces podemos usar Reformatear Datos para resolver este problema. Para obtener más información sobre extraer datos limpios, haz clic aquí.

  • Asegúrate de hacer clic en Extraer el HTML externo del elemento seleccionado al extraer datos (para los campos que mencionamos anteriormente)

mceclip0.png
  • Haz clic en ... -> Reformatear datos -> Agregar paso -> Coincidir con Expresión Regular

    Reformatear_datos_2.png
  • Elige Probar la herramienta RegEx

  • Ingresa 'rating bubble_' para comenzar con e ingrese '"' para Terminar con

  • Haz clic en Generar y Aplicar

mceclip1.png
  • Agrega un paso de Reemplazar con Expresión Regular

  • Ingresa la expresión ([0-9]+)([0-9]{1})

  • Ingresa $1.$2 en Con

mceclip2.png

8. Iniciar la extracción - ejecutar la tarea y obtener los datos

  • Haz clic en "Guardar" y "Ejecutar" en el lado superior izquierdo

  • Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar en la nube" para ejecutarla en nuestros servidores en la nube (solo para usuarios premium)

mceclip0.png
¿Ha quedado contestada tu pregunta?