Todas las colecciones
Tutorial de Casos
Vivienda
Scrapear datos de inmuebles de Fincaraiz
Scrapear datos de inmuebles de Fincaraiz
Actualizado hace más de una semana

En este tutorial, vamos a demostrar cómo scrapear los detalles del inmueble de Finca Raíz. Extraeremos datos como el precio, el barrio, la ubicaión, vendedor, link de foto, descripción, coordinadores, etc.

¿Curioso por saber cómo se hace? ¡Empecemos!

Nota: Si necesitas filtrar los resultados, recomendamos que lo hagas en tu navegador y empezar con la URL de resultado.

Estos son los pasos principales de este tutorial:

1) Generar las URLs de listado por lotes para tratar el problema de paginación

  • Inspecciona el patrón de URLs de Finca Raíz

¿Has encontrado algo similar? Eso sí! el número de página!

Podemos utilizar la función de "Generar por lotes" de Octoparse para generar las URLs de listado, así lograremos extraer inmuebles de todas las páginas.

  • Haz clic en "+Nuevo" en la barra lateral y elige "Modo Avanzado"

mceclip2.png
  • Elige "Generar por lotes" e ingresa la URL de base para generar las URLs de listado que necesitamos

Generar_URLs_por_lotes_Finca_raiz.gif

2) Detectar automáticamente la página web - crear un elemento de bucle

  • Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.

mceclip3.png
  • Ve a "Vista previa de datos" para ver si estás satisfecho de la muestra de datos

    • Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono

      mceclip13.png
    • También puedes modificar el nombre de los campos de datos directamente haciendo doble clic en el nombre

mceclip4.png
  • Desmarca la opción "Paginar para scrapear más páginas" y luego haz clic en "Crear workflow".

mceclip0.png
  • Arrastra el Elemento de Bucle al Bucle de URLs y tendremos un flujo de trabajo como este

mceclip5.png

Si todos los datos que necesitas se pueden extraer de la página de listado, puede saltar a Ejecutar la extracción - ejecutar tu tarea y obtener datos. Si quieres hacer clic en cada enlace de detalles para obtener más información, sigue el siguiente paso.

3) Agregar un paso de ¨Hacer clic en el elemento¨ para ir a la página de detalles y extraer más información

  • Poner el cursor en la fecha por debajo del paso "Extraer datos"

  • Haz clic en "Agregar paso" y elige "Hacer clic en" en el menú desplegable

  • Marca "XPath relativo al elemento de bucle" e ingresa el XPath de cada inmueble: /article/a

  • Haz clic en "Aplicar"

Hacer_clic_en_el_enlace_del_inmueble__Finca_raiz.gif
  • Recuerda marca "Abrir en una nueva pestaña" en el paso "¨Hacer clic en el elemento"

mceclip6.png

Octoparse iría automáticamente a la primera página de detalles.

Tips!

El Xpath es muy importante para localizar los datos con precisión en Octoparse. Puedes consultar este artículo a continuación para escribir XPath para otros campos si te es necesario:

4) Extraer datos - extraer datos en las páginas de detalles

  • Selecciona información en la página web

  • Elige "Extraer texto del elemento seleccionado"

  • Repite los pasos anteriores para extraer todos los datos que necesitas

Extraer_datos_en_la_p_gina_de_cada_inmueble_Finca_raiz.gif
  • En la Vista Previa de los datos, haz doble clic para editar el nombre del campo de datos si te es necesario

5) Ejecutar la extracción - ejecutar tu tarea y obtener datos

  • Haz clic en "Guardar" y "Ejecutar" en el lado superior izquierdo

  • Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar en la nube" para ejecutarla en nuestros servidores en la nube (solo para usuarios premium)

mceclip0.png
¿Ha quedado contestada tu pregunta?