Todas las colecciones
Tutorial de Casos
Trabajo
Scrapear información de empresas y negocios de Empresite
Scrapear información de empresas y negocios de Empresite
Actualizado hace más de una semana

En este tutorial, te presentamos dos soluciones de extraer datos empresas y negocios de Empresite con Octoparse. Tomamos esta URL como ejemplo: https://empresite.eleconomista.es/provincia/MADRID/

Estos son los pasos principales de la configuración de tarea para extraer datos de inmuebles de Idealista:

1. Ir a la página web - abrir la página web de destino

  • Ingresa la URL de ejemplo y haz clic en "Empezar"

mceclip0.png

2. Detectar automáticamente los datos de la página web - crear el flujo de trabajo

  • Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.

mceclip1.png
  • En la Vista previa de datos, puedes doble clic en el nombre del campo para modificar el nombre y elimina los campos no deseados haciendo clic en el icono

    mceclip2.png

    y luego elegir ¨Suprimir campo¨

mceclip1.png
mceclip2.png
  • Desmarca la casilla "Agregar un desplazamiento de página".

  • Elige "Crear workflow" en el panel de Tips.

mceclip4.png

Si todos los datos que necesitas se pueden extraer de la página de listado, puedes detener aquí y saltar a Configurar el tiempo de espera - disminuir la velocidad de raspado. Si quieres ir a la página de detalles de cada producto para obtener más información, sigue los pasos a continuación.

3. Hacer clic en los enlaces para ir a la página de detalles y extraer más información

  • Elige la opción “Hacer clic en lo(s) enlace(s) para scrapear la(s) página(s) enlazada(s)" en el panel de Tips

Hacer_clic_en_cada_empresa_para_extraer_m_s_informaci_n_Empresite.gif

Octoparse iría automáticamente a la página de la primera empresa.

4.Extraer datos - extraer datos de la página de detalles

  • Selecciona información en la página web

  • Elige "Extraer texto del elemento seleccionado"

  • Repite los pasos anteriores para extraer todos los datos que necesitas

Elegir_y_extraer_datos_de_Empresite.gif
  • Edita el nombre del campo de datos haciendo doble clic en el nombre si te es necesario

mceclip4.png

Tips!

Consulta los siguientes tutoriales para saber qué tipo de datos puedes extraer:

5.Modificar XPath para mejorar la precisión de los datos

Necesitamos modificar el XPath de los campos para que siempre ubique la información correcta, incluso cuando la posición de la información sea diferente.

  • Cambia a vista vertical

  • Haz doble clic en XPath - pegar el XPath a continuación.

mceclip3.png

Hemos preparado algunos XPath útiles para Empresite:

Razón Social: //strong[text()="Razón Social"]/following-sibling::span

CIF: //ul[@class="list06 adr"]/li[@class="ico-cif"][1]

Teléfono: //strong[text()="Teléfono"]/following-sibling::span

Domicilio Social: //strong[text()="Domicilio Social"]/following-sibling::span

Email: //strong[text()="Email"]/following-sibling::a/span

Objeto Social: //strong[text()="Objeto Social"]/following-sibling::span

Forma jurídica: //strong[text()="Forma jurídica"]/..

Actividad: //strong[text()="Actividad"]/..

Actividad CNAE: //strong[text()="Actividad CNAE"]/..

Tips!

El Xpath es muy importante para localizar los datos con precisión en Octoparse. Puedes consultar este artículo a continuación para escribir XPath para otros campos si te es necesario:

6.Configurar el tiempo de espera - disminuir la velocidad de raspado

Empresite podría limitar el acceso al contenido de su página si te detecta que la raspas demasiado rápido, por lo tanto, debemos controlar la velocidad de raspado. Podemos hacer lo siguiente:

  • Haz clic en abrir la configuración de la acción "Hacer clic en las URLs de la lista" y "Extraer datos1"

  • Configura el tiempo como 5s-10s

Configurar_tiempo_de_espera_para_evitar_el_bloqueo_Empresite.gif

7. Iniciar la extracción - ejecutar la tarea y obtener los datos

  • Haz clic en "Guardar" y "Ejecutar" en el lado superior izquierdo

  • Selecciona "Ejecutar en el dispositivo" para ejecutar la tarea en tu computadora

mceclip3.png
¿Ha quedado contestada tu pregunta?