En este tutorial, le mostraremos cómo scrape los detalles de la lista de Airbnb.com.
Además, puede ir a "Task Templates" en la pantalla principal de la herramienta de scraping Octoparse, y comenzar directamente con las Plantillas Airbnb listas para usar. Con esta característica, no hay necesidad de configurar tareas de scraping. Para más detalles, puede consultarlo aquí: Plantillas de Tareas
Si desea saber cómo construir la tarea desde cero, puede continuar leyendo el siguiente tutorial.
Para seguir, puede usar esta URL en el tutorial:
Recogeremos datos como el título, la ubicación, el precio y la calificación de cada página de detalles de listado con Octoparse.
Este tutorial también cubrirá:
- Maneje la paginación al desplazarse hacia abajo en Octoparse
- Localice todos los listados modificando el "modo de bucle" y XPath en Octoparse
- Reformatee la "clasificación por estrellas" en números con la herramienta RegEx en Octoparse
¡Consejos! 1. Se recomienda que utilice la URL de la página de resultados de búsqueda directamente siempre que sea posible. Agregar palabras clave/filtros dentro de Octoparse puede complicar la tarea y conducir a un scraping menos eficiente. 2. La estructura y la visualización de airbnb.com pueden variar según su IP, idioma preferido, pantalla de visualización e incluso navegador. |
Estos son los pasos principales de este tutorial: [Descargue el archivo de tarea de demostración aquí]
- "Ir a la página web" - abre la página web de destino
- Establezca "Scroll down" - cargue todos los elementos desde una página
- Crear un "Elemento de Bucle" - Loop clic en cada elemento de cada lista
- Extraer datos - seleccione los datos para la extracción
- Personalice el campo de datos modificando XPath - mejore la precisión de la lista de elementos (Opcional)
- Personalice el campo de datos con la herramienta RegEx: vuelva a formatear la calificación de la sala (Opcional)
- Inicie la extracción - ejecute la tarea y obtenga datos
1. "Ir a la página web" - abre la página web de destino
- Haga clic en "+ Tarea" para comenzar una tarea usando el Modo Avanzado
El modo avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como Airbnb.com, recomendamos el Modo Avanzado para comenzar su proyecto de extracción de datos.
- Pegue la URL en el cuadro "Website" y haga clic en "Guardar URL" para continuar
2. Establezca "Desplazarse hacia abajo" - cargue todos los elementos desde una página
- Active el "Workflow Mode"
Le recomendamos encarecidamente que active el "Workflow Mode" para obtener una mejor idea de lo que está haciendo con su tarea, en caso de que se equivoque con los pasos.
- Marque la casilla "Scroll down to bottom of the page when finished loading", configure "Scroll times" como 1 e "Intervalo" como 3 segundos. Para "Modo de desplazamiento", seleccione "Scroll down to the bottom of the page"
"Intervalo" es el intervalo de tiempo entre cada dos pergaminos.
Para algunos sitios web como Airbnb.com, hacer clic en el botón de la página siguiente para paginar no es una opción para cargar contenido. Para cargar completamente los listados, necesitamos desplazar la página hacia abajo de forma continua.
¡Consejos! Para obtener más información sobre cómo lidiar con el desplazamiento infinito en Octoparse, consulte: |
3. Crear un "Elemento de Bucle" - Loop clic en cada elemento de cada lista
- Haga clic en el título del primer elemento de la lista.
Octoparse seleccionará automáticamente todos los listados en la página actual. - Haga clic en "Seleccionar todo" en el panel "Action Tips"
- Seleccione "Loop haga clic en cada elemento"
Octoparse hará clic en cada listado de la página actual.
¡Consejos! Como se mencionó anteriormente, para permitir que Octoparse capture los listados completamente cargados después de desplazarse hacia abajo hasta el final por suficiente tiempo, deberá modificar el modo de bucle y el XPath. Vea cómo se hace en el Paso 5. |
4. Extraer datos - seleccione los datos para la extracción
Después de hacer clic en "Loop click each element" en el panel "Action Tips", Octoparse abrirá automáticamente la página de detalles del primer elemento.
- Haga clic en los datos que desea extraer en la página.
- Seleccione "Extraer texto del elemento seleccionado" en el panel "Action Tips"
- Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta
¡Consejos! Cuando haga clic en los datos de clasificación por estrellas, elija el "Extraer botón HTML externo". Los datos extraídos deben procesarse con Expresión Regular |
5. Personalice el campo de datos modificando XPath - mejore la precisión de la lista de elementos (Opcional)
Una vez que hacemos clic en "Loop click each element", Octoparse generará un elemento de bucle utilizando el modo de bucle "Fixed list" de forma predeterminada. "Fixed list" es un modo de bucle utilizado para tratar con una cantidad fija de elementos. Sin embargo, el número de listados en Airbnb.com no es fijo, sino que aumenta con el desplazamiento hacia abajo. Para permitir que Octoparse capture todos los listados, incluidos los que se cargarán más adelante, necesitamos cambiar el modo de bucle a "Variable list" e ingresar el XPath adecuado para tener todos los listados que se ubicarán.
- Seleccione el cuadro "Loop Item"
- Seleccione "Variable list" e ingrese:
- //DIV[@class='content-container']/DIV[1]/DIV[3]/DIV[1]/DIV[1]/DIV[1]/DIV[2]/DIV[1]/DIV[1]/DIV[1]/DIV[2]/DIV[1]/DIV[1]/DIV[1]/DIV[1]/DIV/DIV[1]/DIV[1]/DIV[1]/DIV[1]/A[1]
- Clic "OK" para guardar
¡Consejos! 1. "Fixed list" y "Variable list" son modos de bucle en Octoparse. Para más información sobre los modos de bucle en Octoparse: 2. Si desea obtener más información sobre XPath y cómo generarlo, aquí hay algunos tutoriales relacionados que puede necesitar:
|
6. Personalice el campo de datos con la herramienta RegEx: vuelva a formatear la calificación de la sala (Opcional)
Cuando los datos que queremos no se muestran como texto legible en la página web, primero debemos extraer su código fuente (HTML) y luego procese el código fuente extraído en el formato deseado.
- Seleccione "Calificación" y haga clic en "Personalizar campo de datos"
- Elija "Refinar datos extraídos"
- Haga clic en "Agregar paso" y elija "Coincidir con Regular Expression"
- Elija "Probar RegEx Tool"
- Marque la casilla "Comenzar con" e ingrese "Calificado"
- Marque la casilla "Finalizar con" e ingrese "fuera"
- Haga clic en "Generar" y "Emparejar"
- Haga clic en "Aplicar" y "OK"
- Haga clic en "OK" para guardar
¡Consejos! Octoparse ofrece 8 opciones de reformateo de datos para que pueda procesar o limpiar aún más los datos extraídos en el formato correcto. Para obtener más información sobre cómo formatear datos con Expresión regular: |
7. Inicie la extracción - ejecute la tarea y obtenga datos
- Clic en "Guardar"
- Haga clic en "Iniciar extracción" en el lado superior izquierdo
- Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)
Para un usuario premium, Cloud Extraction es muy recomendable.
Aquí está la salida de muestra. Puede ver algunos campos en blanco en la columna "Calificación". Esto se debe a que estos listados no tienen una calificación.
¡Consejos! Por defecto, si Octoparse no puede encontrar el elemento del patrón definido en la página, el campo se dejará en blanco. Sin embargo, Octoparse puede no encontrar el elemento del patrón definido, incluso si el elemento necesario se muestra en el sitio web. Si encuentra este problema, aquí hay un tutorial relacionado que puede necesitar: |
Artículos relacionados:
Scrape los hotel datos de Tripadvisor
Scrape los hotel datos de Booking
Scrape la información del hotel de Trip.com
De: http://www.octoparse.es/tutorial-7/scrape-los-airbnb-detalles-del-hotel
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.