Airbnb es un buen sitio web para encontrar un hotel de vacaciones perfecto. En este tutorial, te ayudaremos a aprender cómo usar Octoparse para obtener información del hotel de Airbnb.
La forma más sencilla es utilizar plantillas de tareas prediseñadas de Airbnb. No es necesario configurar las tareas de extracción, solo ingresa palabras clave / URL y obtendrás los datos. Para más detalles, puedes consultar aquí: Plantillas de Tareas
Si quieres crear la tarea desde cero, puedes continuar leyendo este tutorial. Aquí tenemos un enlace de Airbnb y lo usaremos como ejemplo.
https://www.airbnb.com/s/New-York--NY--United-States/homes?adults=2&search_type=pagination&s_tag=A2EV74MC&tab_id=home_tab&refinement_paths%5B%5D=%2Fhomes&children=1&place_id=ChIJOwg_06VPwokRYv534QaPC8g&federated_search_session_id=2e7da092-4a51-48db-ba26-9746f41ac068
Estos son los pasos principales de este tutorial. [Descargar archivo de tarea aquí]
- "Ir a la página web" - abrir el sitio web de destino
- Detectar automáticamente la página web - crear el flujo de trabajo
- Modificar la configuración de la "Paginación"
- Hacer clic en cada página de detalles para obtener más información
- Extraer datos de la página de detalles
- Modificar el XPath de "Hacer clic en las URLs de la lista"
- Ejecutar tu tarea - obtener los datos que quieres
1) "Ir a la página web" - abrir el sitio web de destino
- Ingresa la URL en la página de inicio y haz clic en "Iniciar"
2) Detectar automáticamente la página web - crear el flujo de trabajo
- Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.
- Cambia el nombre o elimina los campos en la vista previa de datos
- Haz clic en "Crear flujo de trabajo".
Octoparse generaría automáticamente un flujo de trabajo como este:
3) Modificar la configuración de la "Paginación"
El XPath auto-generado no siempre funciona bien. En este caso, necesitaremos modificar el XPath de la paginación.
- Haz clic para abrir la configuración de "Paginación"
- Ingresa el XPath: //a[@aria-label="Next"]
Tips! XPath juega un papel importante en localizar correctamente el elemento en Octoparse. Si quieres obtener más información al respecto, consulta el siguiente tutorial: |
La siguiente página se carga con AJAX, por lo que debemos agregar el tiempo de espera de AJAX a la acción "Hacer clic para paginar".
- Haz clic en abrir la configuración de "Hacer clic para paginar"
- Marca "Cargar con AJAX"
- Configura el tiempo de espera de AJAX como 7-10 s
Si todos los datos que necesitas se pueden extraer de la página de la lista, puede detenertw aquí y saltar a Ejecutar tu tarea - obtener los datos que quieres . Si quieres ir a la página de detalles de cada producto para obtener más información, sigue los pasos a continuación.
4) Hacer clic en cada enlace para obtener más información
- Elige "Hacer clic en los enlaces para scrapear las páginas vinculadas" en el panel de Tips.
- Selecciona "Hacer clic en un campo de datos extraídos" y selecciona el campo en el que quieres hacer clic en el menú desplegable (puedes confirmar si es el enlace correcto en la Vista previa de datos)
- Haz clic en "Confirmar"
Octoparse abriría la primera página de detalles automáticamente.
5) Extraer datos de la página de detalles
- Seleccionar información en la página web
- Elige "Extraer texto del elemento seleccionado"
- Repite los pasos anteriores para extraer todos los datos que necesitas
- Cambia el nombre de los campos si es necesario
- Haz clic para abrir la configuración de "Extraer Datos1"
- Marca "Esperar antes de la acción"
- Configura el tiempo de espera en 7-10 s
6) Modificar el XPath de "Hacer clic en las URLs de la lista"
En este caso, el auto-generado "Hacer clic en las URLs de la lista" no funcionan bien. Podemos modificar el XPath para que funcione.
- Haz clic para abrir la configuración de "Hacer clic en las URLs de la lista".
- Haz clic en
- Ingresa el XPath: /descendant-or-self::A[contains(@class,"_gjfol0")]
- Haz clic en "Aceptar" para confirmar
7) Ejecutar tu tarea - obtener los datos que quieres
- Haz clic en "Guardar"
- Haz clic en "Ejecutar" en la parte superior izquierda
- Selecciona "Ejecutar tarea en tu dispositivo
" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar tarea en la nube
" para ejecutar la tarea en la nube (solo para usuarios del plan premium)
Aquí tienes una muestra de datos.
Si tienes alguna duda en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.