Facebook es una plataforma con una gran cantidad de contenido generado por usuarios. Hay muchas cosas que puedes hacer con los datos de Facebook. Puede utilizarse para comprender mejor a tu audiencia para obtener beneficios políticos y comerciales. También puedes recopilar publicaciones de usuarios o en grupos y comentarios para realizar un análisis sentimental.
Con Octoparse, puedes obtener fácilmente información de publicaciones de Facebook utilizando plantillas de Octoparse. No es necesario configurar las tareas de raspado. Simplemente ingresa las palabras clave / URL y espera a que se extraigan los datos. Para más detalles, puedes consultarlo aquí: Task Templates
Si quieres configurar la tarea desde cero, puedes seguir el tutorial a continuación. Te mostraremos cómo eliminar publicaciones públicas de una cuenta de Facebook. Necesitas utilizar la URL como ejemplo:
https://www.facebook.com/cnn/
Estos son los 5 pasos principales de este tutorial.[Descargar archivo de tarea aquí]
- "Ir a la página web" - abrir el sitio web de destino
- Detectar automáticamente la página web - crear el flujo de trabajo
- Modificar la XPath del "Elemento de Bucle"
- Modificar la configuración de "Extraer datos"
- Ejecutar tu tarea - obtener los datos que quieras
1) "Ir a la página web" - abrir el sitio web de destino
- Ingresa la URL en la página de inicio y haz clic en "Iniciar"
Octoparse cargaría automáticamente la página en el navegador integrado. Desplázate hacia abajo en la página manualmente y aparecerá una ventana emergente.
- Cambia al modo de navegación haciendo clic en
- Haz clic en "Ahora no" para cerrar la ventana emergente.
- Desactiva el modo de navegación
Tips! Si necesitas iniciar sesión para ver más información, sigue este tutorial para ver cómo iniciar sesión en un sitio web en Octoparse: |
2) Detectar automáticamente la página web - crear el flujo de trabajo
- Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete la detección (puede tardar un poco más ya que esta página aplica un desplazamiento infinito hacia abajo para cargar)
- Desmarca la opción de "Hacer clic en el botón Cargar más"
- Haz clic en "Editar" por debajo de "Agregar un desplazamiento de página".
- Configura para desplazarse hasta la parte inferior, se repite 20 veces, el tiempo de espera es de 5 s
- Cambiar el nombre o eliminar campos en la vista previa de datos si es necesario
3) Modificar la XPath del "Elemento de bucle"
- Ingresa a la página de configuración de la acción "Elemento de bucle" haciendo clic en el botón de engranaje en la barra de acción
- Ingresa el Xpath //div[@role="article"][not(@aria-label="Comment")]/../..
- Haz clic en "Aceptar" para guardar la configuración.
Tips! XPath juega un papel importante en la localización de los elementos correctos en Octoparse. Puedes consultar el tutorial a continuación para obtener más información: |
4) Modificar la configuración de "Extraer Datos"
El tiempo de publicación se scrapea como "1h" y sería difícil identificar cuándo se carga la publicación. El tiempo detallado se almacena en el código fuente. Podemos modificar la configuración para obtenerlo.
- Haz clic en abrir la configuración de "Extraer Datos"
- Haz clic en el botón "Personalizar XPath" de "Post_time"
- Ingresa el XPath //abbr
- Haz clic en "..." y elige "Personalizar campo"
- Selecciona "Extraer atributos"
- Elige el atributo "título" del menú desplegable
- Haz clic en "Aceptar" para confirmar
5) Ejecuta tu tarea - obtendrás los datos que necesitas
Aquí tienes una muestra de datos.
Si tienes alguna pregunta, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.