En este tutorial, vamos a demostrar cómo scrapear los detalles del inmueble de Finca Raíz. Extraeremos datos como el precio, el barrio, la ubicaión, vendedor, link de foto, descripción, coordinadores, etc.
¿Curioso por saber cómo se hace? ¡Empecemos!
Nota: Si necesitas filtrar los resultados, recomendamos que lo hagas en tu navegador y empezar con la URL de resultado.
Estos son los pasos principales de este tutorial:
1) Generar las URLs de listado por lotes para tratar el problema de paginación
Inspecciona el patrón de URLs de Finca Raíz
¿Has encontrado algo similar? Eso sí! el número de página!
Podemos utilizar la función de "Generar por lotes" de Octoparse para generar las URLs de listado, así lograremos extraer inmuebles de todas las páginas.
Haz clic en "+Nuevo" en la barra lateral y elige "Modo Avanzado"
Elige "Generar por lotes" e ingresa la URL de base para generar las URLs de listado que necesitamos
2) Detectar automáticamente la página web - crear un elemento de bucle
Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.
Ve a "Vista previa de datos" para ver si estás satisfecho de la muestra de datos
Desmarca la opción "Paginar para scrapear más páginas" y luego haz clic en "Crear workflow".
Arrastra el Elemento de Bucle al Bucle de URLs y tendremos un flujo de trabajo como este
Si todos los datos que necesitas se pueden extraer de la página de listado, puede saltar a Ejecutar la extracción - ejecutar tu tarea y obtener datos. Si quieres hacer clic en cada enlace de detalles para obtener más información, sigue el siguiente paso.
3) Agregar un paso de ¨Hacer clic en el elemento¨ para ir a la página de detalles y extraer más información
Poner el cursor en la fecha por debajo del paso "Extraer datos"
Haz clic en "Agregar paso" y elige "Hacer clic en" en el menú desplegable
Marca "XPath relativo al elemento de bucle" e ingresa el XPath de cada inmueble: /article/a
Haz clic en "Aplicar"
Recuerda marca "Abrir en una nueva pestaña" en el paso "¨Hacer clic en el elemento"
Octoparse iría automáticamente a la primera página de detalles.
Tips!
El Xpath es muy importante para localizar los datos con precisión en Octoparse. Puedes consultar este artículo a continuación para escribir XPath para otros campos si te es necesario:
|
4) Extraer datos - extraer datos en las páginas de detalles
Selecciona información en la página web
Elige "Extraer texto del elemento seleccionado"
Repite los pasos anteriores para extraer todos los datos que necesitas
En la Vista Previa de los datos, haz doble clic para editar el nombre del campo de datos si te es necesario
5) Ejecutar la extracción - ejecutar tu tarea y obtener datos
Haz clic en "Guardar" y "Ejecutar" en el lado superior izquierdo
Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar en la nube" para ejecutarla en nuestros servidores en la nube (solo para usuarios premium)