En este tutorial, vamos a presentar cómo extraer información de glassdoor.com.
Para continuar, es posible que desee utilizar la URL en el tutorial:
Recogeremos datos como el título de la empresa, el tipo, la dirección y otra información relacionada de cada página de detalles del trabajo con Octoparse.
Estos son los pasos principales de este tutorial.
- "Go To Web Page" - open the targeted web page
- Create a pagination loop - scrape all the results from multiple pages
- Create a "Loop Item" - loop click into each item on each list
- Extract data - select the data for extraction
- Save and start extraction - run the task and get data
1) "Go To Web Page" - abre la página web de destino
- Haga clic en "+ Task" para comenzar una tarea
- Pegue la URL en el cuadro "URL de extracción" y haga clic en "Guardar URL" para continuar
La primera página de resultados se abre en Octoparse ahora
2) Cree un ciclo de paginación - Scraping todos los resultados de varias páginas
- Desplácese hacia abajo y haga clic en el botón "Página siguiente"
- Haga clic en"Loop click next page" en el panel "Action Tips" panel
Como Glassdoor utiliza la técnica AJAX en el botón Página siguiente, necesitamos configurar la Carga AJAX para la acción "Paginación". De lo contrario, Octoparse podría estar atascado en este paso.
- Desmarque "Auto retry when no response"
- Marque "Load the page with AJAX"
- Configurar "AJAX Timeout"
3) Crear el "Loop Item" - haga clic en cada elemento de cada lista
Podemos notar que el área de listado está en la segunda página. Al crear un "Loop Item", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, mejor regresemos a la primera página.
- Haga clic en "Ir a la página web" en el flujo de trabajo
- Seleccione el ciclo de paginación
Al hacer esto, podemos ayudar a Octoparse a decidir la orden de ejecución y generar el elemento de bucle en la posición adecuada en el flujo de trabajo
- Haga clic en los títulos de los listados
- Seleccione "Loop haga clic en cada elemento"
- Desmarque "Auto retry when no response"
- Marque "Cargar la página con AJAX"
- Configure el "tiempo de espera AJAX"
¡Consejos! El tiempo de espera de AJAX a menudo se puede usar como un tiempo de espera de página web para Acción de clic. Por ejemplo, cuando tiene una página que tarda una eternidad en finalizar la carga, mucho después de que se carguen los datos que necesita, puede usar convenientemente el tiempo de espera de AJAX para indicarle a Octoparse que pase a la siguiente acción cuando se alcance el tiempo establecido. Si desea obtener más información sobre AJAX, puede disfrutar del video tutorial aquí |
4) Extraer datos - seleccione los datos para la extracción
Las pestañas se aplican con AJAX para cargar el contenido correspondiente también.
En este tutorial, vamos a extraer los datos en las pestañas "Empresa" y "Calificación".
- Haga clic en la pestaña "Empresa"
- Seleccione "Elemento de clic" en los "Consejos de acción"
- Configure la "Carga AJAX" para la acción "Hacer clic en el elemento"
Ahora, comencemos a extraer datos en la pestaña "Compañía".
- Selecciona los datos que deseas
- Haga clic en "extraer datos" en los "Consejos de acción"
- Modificar XPath - extraer datos con precisión (opcional)
En este caso, el XPath correcto no se encuentra con precisión de manera predeterminada, por lo que tenemos que ingresar el XPath correcto manualmente para obtener datos precisos.
Aquí está la salida de muestra de datos incorrecta.
Para el campo de datos "Headquarters", la XPath correcta es "//label[text()='Headquarters']//following-sibling::*". Puede cambiar el parámetro después de "=" pero dentro de "[]" para ubicar otros datos con precisión.
SI ingresa un parámetro incorrecto, XPath no puede localizar los datos que necesita. Los pasos de procesamiento correcto e incorrecto se muestran en el GIF.
Repita los pasos anteriores para abrir la pestaña "Rating"
- Haga clic en la pestaña"Rating"
- Seleccione"Click element" en el panel "Action Tips"
- Configurar “AJAX Load”
Ahora, podemos extraer datos en la pestaña "Rating" tab
- Selecciona los datos que deseas
- Haga clic en "extraer datos" en el panel "Action Tips"
5) Guarde e inicie la extracción - ejecute la tarea y obtenga datos
- Haga clic en "Iniciar extracción"
- Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Extracción en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)
Aquí está la salida de muestra.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.