En este tutorial, le mostraremos cómo scrape las publicaciones de LinkedIn.com.
Para continuar, es posible que desee utilizar esta URL en el tutorial:
https://www.linkedin.com/search/results/content/?keywords=octoparse&origin=SWITCH_SEARCH_VERTICAL
Estos son los pasos principales de este tutorial: [Descargue el task file aquí ]
- "Ir a la página web " - abre la página web de destino
- Lidiando con el desplazamiento infinitivo
- Crear un "Loop Item" - bucle extraer cada publicación
- Extraer datos - seleccione los datos que necesita scrape
- Inicie la extracción - ejecute su tarea y obtenga datos
1. "Ir a la página web " - abre la página web de destino
- Haga clic en "+ Tarea" para comenzar una nueva tarea con "Modo Avanzado"
- Pegue la URL en el cuadro "Input URL"
- Haga clic en "Guardar URL" para continuar
Este sitio web requiere que iniciemos sesión primero, por lo que debemos ingresar nuestro nombre de usuario y contraseña para iniciar sesión antes de acceder a los datos que queremos. Consulte los detalles en este tutorial: Extraiga datos detrás de un inicio de sesión
¡Consejos! Modo Avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como Amazon.com, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos. |
2. Lidiando con el desplazamiento infinitivo
En este caso, la paginación no es una opción para cargar contenido, necesitaremos desplazarnos hacia la parte inferior de la página continuamente para cargar completamente todo el contenido.
- Seleccione "Desplazarse hacia abajo hasta la parte inferior de la página cuando termine de cargar" en "Opciones Avanzadas"
- Establezca "Scroll times" e "Internal" que necesita
- Seleccione "Desplazarse hacia abajo hasta la parte inferior de la página" como "Modo de desplazamiento"
- Haga clic en "OK" para guardar
¡Consejos! 1. Asegúrese de ingresar "Scroll times", de lo contrario, Octoparse no realizaría la acción de "scroll down". Sugerimos que sea mejor establecer un valor relativamente más alto de "Scroll times" si necesita más datos. 2. La mayoría de los sitios web de redes sociales usan desplazamiento hacia abajo para actualizar para ver más datos, haga clic aquí para obtener más información sobre cómo lidiar con el desplazamiento infinito. |
3. Crear un "Loop Item" - bucle extraer cada publicación
- Scroll down y seleccione la 1st publicación en el navegador incorporado
Necesitamos asegurarnos de que todo el bloque de la primera publicación esté cubierto de azul cuando clic tu mouse. Solo de esta manera, podríamos ver que todo el bloque de publicaciones se resalta en verde después de hacer clic, cubriendo toda otra información como autor, título, contenido ... etc.
- Haz clic en la segunda publicación completa
Octoparse reconocerá automáticamente los otros bloques similares y los resaltará en verde
- Haga clic en "Extraer texto del elemento seleccionado" en el panel "Action Tips"
¡Consejos! Normalmente podemos hacer clic en "Seleccionar todos los subelementos" en el panel "Consejos de Acción", pero en ciertas circunstancias (como este caso), Octoparse no puede generar la opción. Por lo tanto, podemos crear un bucle al principio y seleccionar los datos de cada publicación para extraerlos manualmente en el siguiente paso. |
4. Extraer datos - seleccione los datos que necesita scrape
- Seleccione los campos de datos no deseados.
- Haga clic en el icono de "Eliminar campo de datos"
- Haga clic en "Sí"
- Haga clic en los datos que necesita en el primer bloque de elementos para scrape.
- Seleccione "Extraer texto del elemento seleccionado" en el panel "Consejos de acción"
- Cambie el nombre de la columna "Field name" de la lista de nombres predefinidos
¡Consejos! ¿Cómo podemos verificar si el xpath of Loop item es correcto? Octoparse generará automáticamente la XPath del elemento del bucle. Dado que el diseño de esta página web es bastante simple, el XPath debe ser correcto. Pero aún así, podemos confirmarlo desplazándonos hacia abajo en la página para cargar más contenido, y luego verificar si los números de elementos en el ciclo están aumentando. Como podemos ver, cuando nos desplazamos hacia abajo en la página manualmente, las publicaciones recién cargadas se pueden ubicar con éxito en el bucle. Si desea obtener más información sobre XPath y cómo generarlo, aquí hay algunos tutoriales relacionados que puede necesitar |
5. Inicie la extracción - ejecute su tarea y obtenga datos
- Clic en Guardar"
- Haga clic en "Iniciar Extracción" en el lado superior izquierdo
- Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extracción" para ejecutar la tarea en la nube (solo para usuarios premium)
Para un usuario premium, Cloud Extraction es muy recomendable.
A continuación se muestra la muestra de salida
Artículos elacionados:
Scrape los datos del trabajo de Glassdoor
Scrape la información del trabajo de indeed
Scrape La Información de Craigslist
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.