Scrape la información del trabajo de Indeed

Indeed es uno de los sitios web de publicación de trabajos más populares. Con web scraping, puedes descubrir el valor de toneladas de información laboral. En este tutorial, te mostraremos cómo usar Octoparse para scrapear los puestos de trabajo de Indeed.com.

Antes de comenzar, necesitamos obtener la URL de la página de resultados de destino buscando una palabra clave y una ubicación.

A continuación se muestra una URL de ejemplo para demostración:

https://www.indeed.com/jobs?q=devops&l=Dallas-Fort%20Worth%2C%20TX&radius=50

La forma más fácil de scrapear el sitio web es ir a "Plantillas de tarea" en la pantalla principal de Octoparse y comenzar directamente con la Plantilla Indeed para ahorrar tu tiempo. Simplemente ingresa la URL en la plantilla y ya puedes esperar a que salgan los datos. Para más detalles, puedes consultar: Plantillas de Tarea

Si quieres saber cómo construir la tarea desde cero, puedes continuar leyendo el siguiente tutorial.

Estos son los pasos principales de este tutorial: [Descargar archivo de tareas aquí]

1) Ir a la página web - abrir la página web de destino

Ingresa la URL en la página de inicio y haz clic en "Iniciar"

2) Detectar automáticamente la página web - crear el flujo de trabajo

Haz clic en "Detectar automáticamente los datos de la página web" en el panel de Tips y espera a que se complete la detección.

Ve a "Vista previa de datos" para ver si estás de acuerdo con la salida actual de datos
- Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono
- También puedes modificar los nombres de los campos de datos aquí directamente haciendo clic en el icono

Haz clic en "Crear flujo de trabajo".

3) Configurar el tiempo de espera para "Extraer datos" - controlar la velocidad de raspado

Haz clic para abrir la configuración de acción de "Extraer datos"
Marca "Esperar antes de la acción"
Configura el tiempo de espera como 1-2 s

4) Iniciar extracción - ejecutar la tarea y obtener datos

Haz clic en "Guardar"
Haz clic en "Ejecutar" en la parte superior izquierda
Selecciona "Run task on your device" para ejecutar la tarea en tu computadora, o selecciona "Run task in the cloud" para ejecutar la tarea en la nube (solo para usuarios del plan premium)

Aquí tienes una muestra de datos.