En este tutorial, te presentamos dos soluciones de extraer datos de inmuebles de Idealista, el primer portal de inmobiliario de España, con Octoparse.
Tomamos esta URL como ejemplo: https://www.idealista.com/venta-viviendas/madrid-madrid/
Estos son los pasos principales de la configuración de tarea para extraer datos de inmuebles de Idealista:
- Ir a la página web - abrir la página web de destino
- Detectar automáticamente los datos de la página web - crear el flujo de trabajo
- Hacer clic en los enlaces para ir a la página de detalles y extraer más información
- Extraer datos - extraer datos de la página de detalles
- Configurar el tiempo de espera - disminuir la velocidad de raspado
- Iniciar la extracción - ejecutar la tarea y obtener los datos
1. Ir a la página web - abrir la página web de destino
- Ingresa la URL de ejemplo y haz clic en "Empezar"
2. Detectar automáticamente los datos de la página web - crear el flujo de trabajo
- Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.
- En la Vista previa de datos, puedes doble clic en el nombre del campo para modificar el nombre y elimina los campos no deseados haciendo clic en el icono
y luego elegir ¨Suprimir campo¨
- Elige "Crear workflow" en el panel de Tips.
Si todos los datos que necesitas se pueden extraer de la página de listado, puedes detener aquí y saltar a Configurar el tiempo de espera - disminuir la velocidad de raspado. Si quieres ir a la página de detalles de cada producto para obtener más información, sigue los pasos a continuación.
Tips! Si te encuentras con reCAPTCHA cuando abres la página de Idealista en Octoparse, puedes cambiar a Modo de Navegación en la parte izquierda arriba y resolver reCAPTCHA manualmente: |
3. Hacer clic en los enlaces para ir a la página de detalles y extraer más información
- Elige la opción “Hacer clic en lo(s) enlace(s) para scrapear la(s) página(s) enlazada(s)" en el panel de Tips
Octoparse iría automáticamente a la página del primer inmueble.
4.Extraer datos - extraer datos de la página de detalles
- Selecciona información en la página web
- Elige "Extraer texto del elemento seleccionado"
- Repite los pasos anteriores para extraer todos los datos que necesitas
- Edita el nombre del campo de datos haciendo doble clic en el nombre si te es necesario
Tips! Consulta los siguientes tutoriales para saber qué tipo de datos puedes extraer: |
5.Configurar el tiempo de espera - disminuir la velocidad de raspado
Idealista podría limitar el acceso al contenido de su página con reCAPTCHA si te detecta que la raspas demasiado rápido, por lo tanto, debemos controlar la velocidad de raspado.
Podemos hacer lo siguiente:
- Haz clic en abrir la configuración de la acción "Hacer clic en las URLs de la lista" y "Extraer datos1"
- Marca "Esperar antes de la acción"
- Configura el tiempo como 5s-10s
6. Iniciar la extracción - ejecutar la tarea y obtener los datos
- Haz clic en "Guardar" y "Ejecutar" en el lado superior izquierdo
- Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora
Tips!
|
Si tienes algún problema en extraer datos de Idealista, no dudes en escribir a nuestro equipo de Soporte y recibirás rápida respuesta (24 horas).
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.