En este tutorial, te mostraremos cómo scrapear información de hoteles en Trip.com con Octoparse.
Scrapeamos datos, incluido el nombre del hotel, la ubicación, la distancia, el precio y la clasificación del metro de la página de listado de hoteles con Octoparse.
Para continuar, necesitamos esta URL en el tutorial:
El sitio web aplica un desplazamiento infinito junto con un "Mostrar más" para cargar más reseñas. Después de desplazar la página hacia abajo como 2 veces, se revelaría un botón "mostrar más" y si queremos seguir cargando reseñas, tenemos que seguir haciendo clic en el botón.
Estos son los pasos principales de este tutorial: [Descargar archivo de tareas de demostración aquí]
- "Ir a la Página Web" - abrir la página web de destino
- Detectar automáticamente los datos de la página web - crear un básico flujo de trabajo de tareas
- "Cargar más" - hacer clic en el botón "mostrar más" para cargar más hoteles
- Ejecutar la tarea para obtener los datos que necesitas
1. "Ir a la Página Web" - abrir la página web de destino
- Ingresa la URL en la página de inicio y haz clic en "Iniciar"
2. Detectar automáticamente los datos de la página web - crear un básico flujo de trabajo de tareas
Puedes continuar con la función "Detectar automáticamente datos de páginas web" en el panel de Tips.
- Haz clic en "Detectar automáticamente los datos de la página web" en el panel de Tips
- Espera hasta que se complete la detección automática (puede llevar un poco más de tiempo ya que esta página aplica un desplazamiento infinitivo hacia abajo para cargar)
- Haga clic en "Editar" debajo de "Agregar un desplazamiento de página" y configura el tiempo de espera en 5-7 s.
- Ve a "Vista previa de datos" para ver si estás de acuerdo con la salida actual de datos
- Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono
- También puedes modificar los nombres de los campos de datos aquí directamente haciendo clic en el icono
- Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono
- Si estás de acuerdo con la vista previa de datos actual, haz clic en "Crear flujo de trabajo"
Tips! El desplazamiento de página se ha aplicado ampliamente en diferentes sitios web. Para lidiar con este tipo de sitio web, puedes usar la función "Detectar automáticamente" para ayudar o configurar un desplazamiento de página por tu cuenta haciendo doble clic en el paso "Ir a la página web" en el flujo de trabajo. Verifica los detalles en los siguientes tutoriales: |
3. "Cargar más" - hacer clic en el botón "mostrar más" para cargar más hoteles
- Selecciona "Hacer clic en un botón 'Cargar más'" en el panel de Tips.
- Elige el botón "Buscar más hoteles" en la página web
- Configura el "Número de clics" según tus necesidades. Aquí lo configuramos como 5.
- Extiende el tiempo de espera de AJAX a 7 segundos
4. Iniciar extracción - ejecutar la tarea y obtener datos
- Haz clic en "Guardar"
- Haz clic en "Ejecutar" en la parte superior izquierda
- Selecciona "Run task on your device
" para ejecutar la tarea en tu computadora, o selecciona "Run task in the cloud
" para ejecutar la tarea en la nube (solo para usuarios del plan premium)
Aquí tienes una muestra de datos.
Si tienes alguna duda en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.