Todas las colecciones
Tutorial de Casos
Trabajo
Scrapear información de empresa de Crunchbase
Scrapear información de empresa de Crunchbase
Actualizado hace más de una semana

Crunchbase es un sitio web para encontrar información comercial sobre diferentes empresas. Ofrece información que incluye información sobre inversiones y financiación, miembros fundadores y personas en puestos de liderazgo, fusiones y adquisiciones, noticias, tendencias de la industria, etc.

En este tutorial, te mostraremos cómo extraer información de empresa de Crunchbase con una URL de página de resultados de búsqueda.

Para Crunchbase, también puedes visitar nuestra "Plantilla de tareas" en la pantalla principal de Octoparse. Todo lo que necesitas hacer es escribir varios parámetros y la tarea estará lista para comenzar. Para más detalles, puedes consultar: Plantillas de Tarea

1.1.png

Crunchbase muestra solo los primeros 5 resultados por búsqueda para usuarios gratuitos. Asegúrate de tener una cuenta profesional de Crunchbase antes de iniciar la configuración de la tarea.

Extraeremos la URL de la página de detalles de cada empresa en la Tarea 1 y extraeremos datos como el nombre de la empresa, la ubicación, la introducción y la información de financiación de la página de detalles de la empresa con la Tarea 2.

Para continuar, primero necesitas obtener una URL de la página de resultados de búsqueda o usas esta:

Tarea 1: Extraer todas las URLs de las páginas de detalles en las páginas de resultados de búsqueda

[Descargar archivo de tarea aquí]

1. "Ir a la página"

  • Ingresa la URL en la pantalla de inicio y haz clic en "Iniciar"

1.png

2. Iniciar sesión en el sitio web y guardar cookies

  • Haz clic en

    mceclip0.png

    para cambiar al modo de Navegación

  • Inicia sesión en el sitio web como lo haces en un navegador normal

2.gif
  • Haz clic para abrir la configuración de la acción "Ir a la página web".

  • Marca "Usar cookie" y haz clic en "Usar cookie de la página actual"

  • Haz clic en "Aceptar" para guardarlo

2.1gif.gif

3. Detectar automáticamente los datos de la página web - crear el flujo de trabajo

  • Apaga el "modo de navegador"

  • Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.

3.gif
  • Elimina campos no deseados en la vista previa de datos

3.2.png
  • Elige "Crear flujo de trabajo" en el panel de Tips.

3.1.png

Octoparse generaría un Elemento de Bucle en el flujo de trabajo:

mceclip1.png

4. Seleccionar el enlace de la empresa para scrapear

  • Selecciona el primer nombre de la empresa en la página web (la primera línea debería estar resaltada en rojo)

  • Haz clic en la etiqueta "A" en el panel de Tips.

  • Elige "Extraer la URL del enlace seleccionado"

4.gif
  • Selecciona otra información de la primera empresa para scrapear el texto

  • Cambia el nombre de los campos si es necesario

4.1.gif

5. Crear paginación - extraer datos de varias páginas

  • Selecciona el botón Siguiente en la página web

  • Elige "Hacer clic en bucle en un elemento"

  • Selecciona un tiempo de espera AJAX adecuado

5.gif

6. Iniciar extracción - ejecutar la tarea y obtener datos

  • Haz clic en "Iniciar extracción" en la parte superior izquierda

  • Selecciona "Extracción local" para ejecutar la tarea en tu computadora

6.png

Después de scrapear los datos, puedes exportarlos a un archivo de Excel.

Tarea 2: Extraer la información del producto de URLs extraídas

[Descargar archivo de tareas aquí]

1. Ingresar un lote de URLs scrapeadas - abrir las páginas de detalles

  • Haz clic en + New y selecciona Advanced Mode

  • Ingresa las URLs extraídas de la Tarea 1

6.gif

2. Extraer datos - selecciona los datos para la extracción

  • Selecciona el nombre de la empresa en la página web

  • Elige "Extraer texto del elemento seleccionado"

  • Haz lo mismo para extraer otra información básica de la empresa

7.gif
  • Cambia el nombre de los campos si es necesario

8.gif

3. Modificar el XPath de los campos

Para la información de financiación, los campos varían en las diferentes páginas de la empresa. Por ejemplo, la página de la empresa Apple contiene campos como "Number of Acquisitions" y "Stock Symbol". Pero la página de la empresa Shine no lo hace. Incluso el mismo campo como "Monto total de financiación" no está en la misma posición en las páginas.

7.1.png

Por lo tanto, debemos modificar el XPath de estos campos para ubicar el campo correcto en diferentes páginas. Tomemos el campo "Total Funding Amount". Dado que el título del campo no cambiará, podemos locate the field value via the title.

El XPath de "Total Funding Amount" es: //span[contains(text(),'Total Funding')]/../../following-sibling::*[1]

  • Haz clic para abrir la configuración de la acción "Extraer datos"

  • Haz clic en "Personalizar XPath" del campo

  • Ingresa el XPath modificado

  • Haz clic en Aceptar para guardarlo

9.1.gif

El XPath de otros campos se puede modificar de la misma manera.

4. Iniciar extracción - ejecutar la tarea y obtener datos

  • Haz clic en Guardar"

  • Haz clic en "Ejecutar" en la parte superior izquierda

  • Selecciona "Ejecutar en local" para ejecutar la tarea en tu computadora, o selecciona"Ejecutar en la dispositivo" para ejecutar la tarea en la nube (solo para usuarios de plan premium)

10.png

Aquí tienes una muestra de datos:

mceclip3.png
¿Ha quedado contestada tu pregunta?