Todas las colecciones
Tutorial de Casos
Viaje
Scrapear datos de restaurantes de Tripadvisor España
Scrapear datos de restaurantes de Tripadvisor España
Actualizado hace más de una semana

En este tutorial, te presentamos dos soluciones de extraer datos de restaurantes de Tripadvisor España con Octoparse.

Nota: Hacemos una demo sobre cómo extraer los detalles del restaurante comenzando con una URL de listado. Ten en cuenta que comenzar con palabras clave o URLs también es factible con Octoparse.

Estos son los pasos principales de la configuración de tarea para extraer datos de restaurantes de Tripadvisor:

1. Ir a la página web - abrir la página web de destino

  • Ingresa la URL de ejemplo y haz clic en "Empezar"

mceclip0.png

2. Detectar automáticamente los datos de la página web - crear el flujo de trabajo

  • Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.

mceclip1.png
  • En la Vista previa de datos, puedes doble clic en el nombre del campo para modificar el nombre y elimina los campos no deseados haciendo clic en ¨Más¨ y luego elegir ¨Suprimir¨

mceclip2.png
  • Desmarca la casilla "Agregar un desplazamiento de página".

  • Elige "Crear workflow" en el panel de Tips.

mceclip4.png

Si todos los datos que necesitas se pueden extraer de la página de listado, puedes detener aquí y saltar a Configurar el tiempo de espera - disminuir la velocidad de raspado. Si quieres ir a la página de detalles de cada producto para obtener más información, sigue los pasos a continuación.

3. Hacer clic en los enlaces para ir a la página de detalles y extraer más información

  • Elige la opción “Hacer clic en lo(s) enlace(s) para scrapear la(s) página(s) enlazada(s) en el panel de Tips

Hacer_clic_en_enlaces_para_ir_a_la_p_gina_de_detalles.gif

Octoparse iría automáticamente a la primera página de detalles.

4.Extraer datos - extraer datos de la página de detalles

  • Selecciona información en la página web

  • Elige "Extraer texto del elemento seleccionado"

  • Repite los pasos anteriores para extraer todos los datos que necesitas

Extraer_datos_en_la_p_gina_de_detalles.gif
  • Edita el nombre del campo de datos haciendo doble clic en el nombre si te es necesario

mceclip4.png

5.Configurar el tiempo de espera - disminuir la velocidad de raspado

Tripadvisor podría bloquear tu IP si la raspas demasiado, por lo tanto, debemos controlar la velocidad de raspado.

  • Haz clic en abrir la configuración de acción de la acción "Extraer datos1"

  • Configura el tiempo como 5s-10s

Esperar_antes_de_la_acci_n.gif

6. Modificar XPath del paso "Hacer clic en las URLs de la lista"

La acción autogenerada "Hacer clic en las URLs de la lista" no siempre puede localizar y hacer clic en la URL del título, por lo que debemos modificar el XPath de esta acción. (Para saber más sobre lo que es XPath, consulta aquí)

  • Haz clic en el paso "Hacer clic en las URLs de la lista"

  • Ingresa el XPath //div[@class="OhCyu"]//a

  • Haz clic en "Aplicar" para confirmar

mceclip5.png

7. Iniciar la extracción - ejecutar la tarea y obtener los datos

  • Haz clic en "Guardar" y "Ejecutar" en el lado superior izquierdo

  • Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar en la nube" para ejecutarla en nuestros servidores en la nube (solo para usuarios premium)

mceclip0.png
¿Ha quedado contestada tu pregunta?