Todas las colecciones
Tutorial de Casos
Trabajo
Scrape los datos del trabajo de Glassdoor
Scrape los datos del trabajo de Glassdoor
Actualizado hace más de una semana

En este tutorial, vamos a presentar cómo extraer información de glassdoor.com.

Puedes ir a "Plantillas de Tarea" en la pantalla principal de Octoparse y comenzar directamente con las plantillas para ahorrar tiempo. Para más detalles, puedes consultar: Plantillas de Tarea

1.png

Si quieres crear la tarea desde cero, sigue los pasos a continuación. Para continuar, utilizamos la URL en el tutorial:

Recogeremos datos como el título de la empresa, el tipo, la dirección y otra información relacionada de cada página de detalles del trabajo con Octoparse.

Estos son los pasos principales de este tutorial.

[Descarga la tarea de demostración de aquí]

1) Abrir la página web de destino

  • Ingresa la URL en la página de inicio y haz clic en Iniciar

15615615615.png

2) Detectar automáticamente la página web para generar el flujo de trabajo

  • Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección.

498549549854.gif
  • Ve a "Vista previa de datos" para ver si está de acuerdo con muestra de datos actual

    • Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono

      mceclip13.png
    • También puedes modificar los nombres de los campos de datos aquí directamente haciendo clic en el icono

      mceclip14.png
2.1.png
  • Haz clic en "Crear flujo de trabajo".

2.2.png

Octoparse generaría un flujo de trabajo como este:

mceclip0.png

Como la página siguiente se carga con AJAX, necesitamos configurar AJAX para la acción "Hacer clic para paginar"

  • Haz clic en abrir la configuración de acción de "Hacer clic para paginar"

  • Marca "Cargar con AJAX" y configura el tiempo de espera de AJAX como 7-10 s

2.1.gif

Si todos los datos que necesitas se pueden extraer de la página de la lista, puedes saltar a Guardar y comenzar a ejecutar la tarea y obtener datos. Si quieres hacer clic en cada enlace de detalles para obtener más información, sigue el siguiente paso.

3) Hacer clic en el enlace de cada producto para obtener más información.

  • Elige "Hacer clic en los enlaces para raspar las páginas enlazadas"

  • Selecciona "Hacer clic en un campo de datos extraídos" y selecciona el que desea hacer clic en el menú desplegable, puedes confirmar si es el enlace correcto en la sección de vista previa de datos

  • Haz clic en "Confirmar"

9625956129651.gif

Glassdoor no abre la página de detalles de cada trabajo en una nueva pestaña, sino que la carga con AJAX en la página actual, por lo que debemos modificar algunas configuraciones para la acción "Hacer clic en las URLs de la lista".

3.1.gif

4) Selecciona los campos de datos de destino

  • Selecciona información en la página web

  • Elige "Extraer texto del elemento seleccionado"

  • Repite los pasos anteriores para extraer todos los datos que necesita

Tips!

Si hay alguna ventana emergente en la página web, puede cambiar al modo de Navegación haciendo clic en el botón

1495615615.png

y cerrar la ventana emergente manualmente. Luego, apaga el modo de exploración y continúa seleccionando elementos en la página web.

1612562652.gif
  • Edita el nombre del campo de datos si es necesario

4.1.png

5) Ejecutar la extracción - ejecutar tu tarea y obtener datos

  • Haz clic en Guardar"

  • Haz clic en "Ejecutar" en la parte superior izquierda

  • Selecciona "Run task on your device" para ejecutar la tarea en tu computadora

5.png

Tips!

La tarea solo se puede ejecutar en tu dispositivo local. No se puede ejecutar en la nube debido a la configuración anti-raspado de Classdoor.

Aquí tienes una muestra de datos.

mceclip1.png
¿Ha quedado contestada tu pregunta?