Scrapear tweets de Twitter | Centro de Ayuda

Con Octoparse, puedes extraer fácilmente cualquier dato que quieras, como noticias destacadas, temas de actualidad, tendencias mundiales, etc., de una variedad de sitios web de redes sociales, como Twitter.

Mediante extraer datos de Twitter, puedes:

Mantenerte actualizado con las últimas tendencias en todo el mundo
Descubrir clientes potenciales para tu negocio
Analizar el valor de marketing de los temas de actualidad

Puedes ir a "Plantillas de tareas" en la pantalla principal de la herramienta de raspado Octoparse y comenzar con la Plantilla de Twitter lista para usar directamente para ahorrar tiempo. Con esta plantilla, no es necesario configurar tareas de raspado. Para más detalles, puedes consultarlo aquí: Task Templates

Tips!

Consulta más información sobre el servicio de recopilación de datos de Octoparse para la adquisición de datos a gran escala.

Si quieres saber cómo construir la tarea desde cero, puede continuar leyendo el siguiente tutorial o ver el video a continuación.

Tomaremos scrapear las noticias de Twitter como ejemplo: https://twitter.com/search?q=Latest%20News&src=tyah

Comencemos con los pasos principales de este tutorial para comenzar tu tarea. [Descargar archivo de tarea de demostración aquí]

1. Ir a la página web - Abrir la página web de destino

Ingresa la URL en la página de inicio y haz clic en Iniciar

Tips!

Ten en cuenta que este sitio web es la página de noticias de Twitter sin inicio de sesión. Si quieres extraer datos detrás de un inicio de sesión, consulta este tutorial:

Extraer datos después del inicio de sesión

2. Crear un "Elemento de bucle" y extraer datos- extraer en bucle cada tweet

Selecciona el primer tweet en la página web (selecciona todo el bloque de tweets)
Sigue selecciona el segundo tweet
Elige "Extraer texto de los elementos seleccionados"

3. Crear una "Paginación" para desplazarte hacia abajo en la página web

Elige "Paginar para scrapear más páginas"

Selecciona un área en blanco en la página web
Haz clic en "Confirmar"

Haz clic en el icono de engranaje de Paginación
Modifica el XPath de la paginación a //main y configura las "repeticiones" adecuadas para salir del bucle

Haz clic en el icono de rueda de la acción "Hacer clic para paginar".
Marca "Desplazarse hacia abajo en la página después de que se cargue"
Configura la forma de desplazamiento como "Desplazarse por una pantalla", "Se repite" como 1 y "Esperar" como 5 segundos

Tips!

La acción de "Paginación" no consiste en hacer clic en ningún "botón Siguiente" para cargar la página siguiente, sino en desplazarse hacia abajo para cargar más tweets. Twitter solo carga los tweets que están en la pantalla actual, por lo que cada vez que la página se desplaza, debemos eliminar los tweets de la pantalla actual en lugar de eliminarlos después de terminar el desplazamiento.

4. Modificar el elemento de bucle XPath y selecciona el texto para scrapear

Haz clic en el icono de engranaje del "Elemento de bucle" e ingresa el XPath //article[@role="article"]/../../..

Haz clic en la acción "Extraer datos" y verás un tweet resaltado en rojo
Selecciona el texto del área roja y elige "Extraer el texto"

5. Iniciar la extracción de datos - ejecuta tu tarea y obtendrás datos

Haz clic en "Guardar"
Haz clic en "Ejecutar" en la parte superior izquierda
Selecciona "Ejecutar en su dispositivo" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)

Puedes exportar los datos en formatos como EXCEL, CVS, JSON o a tu base de datos.

Aquí tienes una muestra de datos.

Nota:

Es normal que obtengas datos duplicados, ya que cada vez que la página se desplaza, solo se cargan uno o dos tweets nuevos.