En este tutorial, vamos a presentar cómo extraer información de realtor.com.
Scrape los datos de la página de detalles de la casa y rasparemos el título, la ubicación, el precio y la calificación con Octoparse.
Para seguir, puede usar la URL en el tutorial:
https://www.realtor.com/realestateandhomes-search/Tallassee_AL
Este tutorial también cubrirá:
- Tratar con AJAX para paginación
- Localice los elementos correctamente modificando XPath en Octoparse
Estos son los pasos principales de este tutorial:
- "Ir a la página web" - abra la página web de destino
- Cree un ciclo de paginación - scrape todos los resultados de varias páginas
- Cree un "Elemento de bucle" - haga clic en cada elemento de cada lista
- Extraer datos - seleccione los datos para la extracción
- Inicie la extracción - ejecute la tarea y obtenga datos
1. "Ir a la página web" - abra la página web de destino
- Haga clic en "+ Tarea" para iniciar una tarea usando el Modo avanzado
El modo avanzado es un modo de raspado web altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, como Realtor, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos.
- Pegue la URL en el cuadro "Sitio web" y haga clic en "Guardar URL" para continuar
2. Cree un ciclo de paginación - scrape todos los resultados de varias páginas
- Desplácese hacia abajo y haga clic en el botón ">" en la página web
- Haga clic en "Loop click single element" en el panel "Action Tips"
A medida que Realtor carga el contenido con AJAX, debemos configurar AJAX Load para la acción "Paginación".
- Desmarque "Reintento automático cuando no hay respuesta"
- Marque "Cargar la página con AJAX"
- Configure "AJAX Timeout" como "5" segundos
¡Consejos!Si desea obtener más información sobre AJAX, aquí hay algunos tutoriales relacionados que puede necesitar: |
3. Cree un "Elemento de bucle" - haga clic en cada elemento de cada lista
Ahora estamos en la segunda página. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, será mejor que volvamos a la primera página.
- Haga clic en "Ir a la página web" en el flujo de trabajo
- Seleccione el buclo de paginación
Al hacer esto, podemos ayudar a Octoparse a decidir la orden de ejecución y generar el elemento de bucle en la posición adecuada en el flujo de trabajo.
Ahora, construyamos el elemento del bucle:
- Haga clic en el primer elemento de imagen en la página web
- Haga clic en "Seleccionar todo" en el panel "Consejos de acción"
- Seleccione "Loop haga clic en cada elemento"
Necesitamos configurar "AJAX Load" para este paso también, ya que carga el contenido con AJAX.
- Desmarque "Reintento automático cuando no hay respuesta"
- Desmarca "Abrir el enlace en la nueva pestaña"
- Marque "Cargar la página con AJAX"
- Configure "AJAX Timeout" como "5" segundos
4. Extraer datos - seleccione los datos para la extracción
Haga clic en la información que necesita en la página.
Seleccione "Extraer texto del elemento seleccionado" en el panel "Consejos de acción"
Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta
¡Consejos! Si desea que los datos se extraigan correctamente en los campos de datos correspondientes, es mejor que escriba un nuevo XPath que siempre identifique los datos correctos en todas las páginas. Los tutoriales relacionados que puede necesitar se enumeran a continuación.
|
5. Inicie la extracción - ejecute la tarea y obtenga datos
- Clic en Guardar"
- Haga clic en "Iniciar extracción" en el lado superior izquierdo
- Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)
Para un usuario premium, Cloud Extractionexternal-link-symbol-1.png es muy recomendable.
Para un usuario premium, Cloud Extraction es muy recomendable.
Aquí está la salida de muestra.
Artículos relacionados:
Extracción de información de propiedad de Daft.ie
Scrape la información de bienes raíces de Kijiji
De: http://www.octoparse.es/tutorial-7/scraping-informacion-de-realtor
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.