Ir al contenido principal
Scrapear tweets de Twitter
Actualizado hace más de un año

Con Octoparse, puedes extraer fácilmente cualquier dato que quieras, como noticias destacadas, temas de actualidad, tendencias mundiales, etc., de una variedad de sitios web de redes sociales, como Twitter.

Mediante extraer datos de Twitter, puedes:

  • Mantenerte actualizado con las últimas tendencias en todo el mundo

  • Descubrir clientes potenciales para tu negocio

  • Analizar el valor de marketing de los temas de actualidad

Puedes ir a "Plantillas de tareas" en la pantalla principal de la herramienta de raspado Octoparse y comenzar con la Plantilla de Twitter lista para usar directamente para ahorrar tiempo. Con esta plantilla, no es necesario configurar tareas de raspado. Para más detalles, puedes consultarlo aquí: Task Templates

2020-08-11_18-08-39.png

Tips!

Si quieres saber cómo construir la tarea desde cero, puede continuar leyendo el siguiente tutorial o ver el video a continuación.

Tomaremos scrapear las noticias de Twitter como ejemplo: https://twitter.com/search?q=Latest%20News&src=tyah

Comencemos con los pasos principales de este tutorial para comenzar tu tarea. [Descargar archivo de tarea de demostración aquí]

1. Ir a la página web - Abrir la página web de destino

  • Ingresa la URL en la página de inicio y haz clic en Iniciar

1.png

Tips!

Ten en cuenta que este sitio web es la página de noticias de Twitter sin inicio de sesión. Si quieres extraer datos detrás de un inicio de sesión, consulta este tutorial:

2. Crear un "Elemento de bucle" y extraer datos- extraer en bucle cada tweet

  • Selecciona el primer tweet en la página web (selecciona todo el bloque de tweets)

  • Sigue selecciona el segundo tweet

  • Elige "Extraer texto de los elementos seleccionados"

1.gif

3. Crear una "Paginación" para desplazarte hacia abajo en la página web

  • Elige "Paginar para scrapear más páginas"

2.png
  • Selecciona un área en blanco en la página web

  • Haz clic en "Confirmar"

3.gif
  • Haz clic en el icono de engranaje de Paginación

  • Modifica el XPath de la paginación a //main y configura las "repeticiones" adecuadas para salir del bucle

7.gif
  • Haz clic en el icono de rueda de la acción "Hacer clic para paginar".

  • Marca "Desplazarse hacia abajo en la página después de que se cargue"

  • Configura la forma de desplazamiento como "Desplazarse por una pantalla", "Se repite" como 1 y "Esperar" como 5 segundos

4.gif

Tips!

La acción de "Paginación" no consiste en hacer clic en ningún "botón Siguiente" para cargar la página siguiente, sino en desplazarse hacia abajo para cargar más tweets. Twitter solo carga los tweets que están en la pantalla actual, por lo que cada vez que la página se desplaza, debemos eliminar los tweets de la pantalla actual en lugar de eliminarlos después de terminar el desplazamiento.

4. Modificar el elemento de bucle XPath y selecciona el texto para scrapear

  • Haz clic en el icono de engranaje del "Elemento de bucle" e ingresa el XPath //article[@role="article"]/../../..

6.gif
  • Haz clic en la acción "Extraer datos" y verás un tweet resaltado en rojo

  • Selecciona el texto del área roja y elige "Extraer el texto"

5.gif

5. Iniciar la extracción de datos - ejecuta tu tarea y obtendrás datos

  • Haz clic en "Guardar"

  • Haz clic en "Ejecutar" en la parte superior izquierda

  • Selecciona "Ejecutar en su dispositivo" para ejecutar la tarea en tu computadora, o selecciona "Ejecutar en la nube" para ejecutar la tarea en la nube (solo para usuarios premium)

4.png

Puedes exportar los datos en formatos como EXCEL, CVS, JSON o a tu base de datos.

Aquí tienes una muestra de datos.

Nota:

Es normal que obtengas datos duplicados, ya que cada vez que la página se desplaza, solo se cargan uno o dos tweets nuevos.

sample_output.PNG
¿Ha quedado contestada tu pregunta?