LinkedIn es un buen recurso para obtener información de diferentes empresas. En este tutorial, te mostraremos cómo scrapear las publicaciones de LinkedIn.com.
Para continuar, necesitarás utilizar esta URL en el tutorial:
https://www.linkedin.com/search/results/content/?keywords=octoparse&origin=SWITCH_SEARCH_VERTICAL
Antes de eso, asegúrate de haber descargado nuestra última versión 8.1 (consulta esta guía para descargar News: Octoparse 8.1 Beta Released! ). LinkedIn ya no es compatible con Octoparse 7.3.0.
Estos son los pasos principales de este tutorial: [Descargar archivo de tareas here]
- "Ir a la página web" - abrir la página web de destino
- Iniciar sesión en el sitio web
- Detectar automáticamente los datos de la página web - crear un flujo de trabajo de tareas básico
- Extraer datos - seleccione los datos que necesita raspar (opcional)
- Ejecutar la tarea para obtener los datos que necesitas
1. Ir a la página web" - abrir la página web de destino
- Ingresa la URL en la barra de búsqueda
- Haz clic en "Inicio" para abrir una nueva tarea.
2. Iniciar sesión en el sitio web
LinkedIn requiere que las personas inicien sesión antes de acceder a los datos que queremos. En este caso tutorial, usaremos la forma "guardar cookies" para la demostración.
- Habilita "Detectar datos de páginas web automáticamente" para ayudarte a configurar la tarea.
- Después de la detección, elige "¿No es la página web correcta?"
- Luego, elige "Iniciar sesión en el sitio web"
Después de hacer clic en "Iniciar sesión en el sitio web", ahora te encuentras en el "Modo de navegación". Puedes navegar por la página como en tu navegador habitual. Las acciones que realices no se generarán en los pasos del flujo de trabajo de la tarea.
Dado que la página es una página de registro, debes hacer clic en "Iniciar sesión" para ir a la página de inicio de sesión (puedes omitirla si ya estás en la página de inicio de sesión).
- Ingresa los detalles de tu cuenta de LinkedIn y luego haz clic en "Iniciar sesión" para iniciar sesión
- Ahora, has iniciado sesión en tu cuenta. La página será redirigida a la que ingresamos (https://www.linkedin.com/search/results/content/?keywords=octoparse&origin=SWITCH_SEARCH_VERTICAL).
- Haz clic en "Listo" en el panel de Tips.
Verás un aviso en la parte superior que dice "Cookies guardadas".
Luego, puedes continuar para scrapear los datos que necesitas.
Tips! Octoparse tiene diferentes formas de tratar los datos detrás del inicio de sesión. Puedes explorar más en este tutorial para agregar pasos de inicio de sesión al flujo de trabajo: Extraer datos después del inicio de sesión |
3. Detectar automáticamente los datos de la página web - crear un flujo de trabajo de tareas básico
Puedes continuar con la función "Detectar automáticamente datos de páginas web" en el panel de Tips.
- Haz clic en "Detectar automáticamente datos de páginas web".
- Espera hasta que se complete la detección automática (puede tardar un poco más ya que esta página aplica un desplazamiento infinitivo hacia abajo para cargar)
- Haz clic en "Editar" debajo de "Agregar un desplazamiento de página" para ver si necesitas ajustar los tiempos de desplazamiento de la página.
- Ve a "Vista previa de datos" para ver si estás de acuerdo con la muestra de datos actual
- Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono
- También puedes modificar los nombres de los campos de datos aquí directamente haciendo clic en el icono
- Puedes eliminar los campos de datos innecesarios directamente haciendo clic en el icono
- Si estás de acuerdo con la vista previa de datos actual, haz clic en "Crear flujo de trabajo"
Luego, verás un flujo de trabajo generado como se muestra a continuación.
Tips! El desplazamiento de página se ha aplicado ampliamente en diferentes sitios web. Para tratar con este tipo de sitios web, puedes utilizar la función "Detectar automáticamente" para ayudar o configurar el desplazamiento de la página por tu cuenta haciendo doble clic en el paso "Ir a la página web" en el flujo de trabajo. Consulta los detalles en los siguientes tutoriales: |
4. Extraer datos - selecciona los datos que necesitas scrapear (opcional)
Ahora, el flujo de trabajo está casi terminado. Podemos comprobar los datos que hemos extraído con "Detectar automáticamente" y ver si necesitas agregar algunos otros campos.
- Haz doble clic en "Extraer datos" en el flujo de trabajo para verificar los detalles
- Si quieres modificar los nombres de los campos, simplemente haz clic en los nombres de los campos para editar
-
- Si quieres capturar otros datos en la página web, puedes hacer clic en los elementos dentro del área resaltada en rojo y luego elegir "Extraer el texto del elemento seleccionado".
Si necesitas agregar algunos campos como "Hora actual" o "Página_URL actual", haz clic en el icono "+" para agregar desde la lista
Tips! Para saber más sobre cómo tratar con "Extraer datos", consulta las siguientes guías: |
5. Ejecutar la tarea para obtener los datos que necesitas
- Haz clic en el botón "Guardar"
- Haz clic en el botón "Ejecutar" y luego selecciona "Ejecutar tarea en tu dispositivo"
Aquí tienes una muestra de datos.
Tips! Para LinkedIn, solo se puede ejecutar en tu dispositivo local. No se puede ejecutar en la nube debido a la configuración anti-raspado de LinkedIn. |
Si tienes alguna duda en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.