Instagram es un sitio web popular de redes sociales para compartir fotos y videos. En este tutorial, aprenderás cómo crear un rastreador para scrapear el contenido de la publicación, la URL de foto, la cantidad de megusta, etc. de una cuenta de Instagram.
También puedes ir a "Plantillas de tareas" en la pantalla principal de Octoparse y comenzar con la plantilla de Instagram lista para usar directamente para ahorrar tiempo. Con esta plantilla, no es necesario configurar tareas de web scraping. Para obtener más detalles, puedes consultarlo aquí: Plantillas de tarea
Si quieres saber cómo construir la tarea desde cero, puedes continuar leyendo el siguiente tutorial. Para ilustrar, usaremos esta URL como ejemplo: https://www.instagram.com/izkiz/
Deberás iniciar sesión en Instagram antes de ver las publicaciones de otras cuentas, así que prepare una cuenta antes de comenzar.
Comencemos con los pasos principales de este tutorial para comenzar tu tarea. [Descargar archivo de tarea de demostración aquí]
- "Ir a la página web" - abre la página web de destino
- Inicia sesión en tu cuenta de Instagram
- "Extraer datos" - extraer información básica del póster
- "Hacer clic en el elemento" - haz clic en abrir la primera publicación
- "Extraer datos1" - extrae datos de publicaciones
- "Paginación" - haz clic en el botón de la página siguiente para extraer más publicaciones.
- Iniciar extracción - ejecutar la tarea y obtener datos
1. Ir a la Página Web - Abre la página web de destino
- Ingresa la URL en la página de inicio y haz clic en Iniciar
2. Inicia sesión en tu cuenta de Instagram
Instagram requiere que las personas inicien sesión antes de acceder a los datos que queremos. En este caso tutorial, guardaremos las cookies para iniciar sesión en Instagram.
- Cambia al modo de Navegación haciendo clic en
- Ingresa tu cuenta de Instagram y contraseña en la página web manualmente
- Haz clic en "Iniciar sesión"
- Haz clic en
en la acción "Ir a la Página Web"
- Marca "Usar cookie"
- Haz clic en "Usar cookie de la página actual"
- Haz clic en "Aceptar" para confirmar
Tips! Octoparse tiene diferentes formas de tratar los datos detrás del inicio de sesión. Puede descubrir más en este tutorial para agregar pasos de inicio de sesión al flujo de trabajo: Extraer datos después del inicio de sesión |
* Después de guardar las cookies, recuerda desactivar el "Modo de Navegación" para continuar con los siguientes pasos.
3. "Extraer datos" - extraer información básica del póster
- Selecciona información en la página web
- Elige "Extraer texto del elemento seleccionado"
- Repite los pasos anteriores para extraer todos los datos que necesitas
- Cambia el nombre de los campos si es necesario
4. "Haz clic en el elemento": haz clic en abrir la primera publicación
- Agrega un "Hacer clic en el elemento" en el flujo de trabajo
- Haz clic en el icono
en el "Hacer clic en el elemento2"
- Haz clic en
- Ingresa el XPath: //*[@id="react-root"]/section/main/div/div[3]/article/div[1]/div/div[1]/div[1]/a
- Configura el tiempo de espera de AJAX como 5-7s
- Haz clic en "Aceptar" para confirmar
La primera publicación se abriría automáticamente.
5. "Extraer datos1" - extraer datos de publicaciones
- Selecciona la información de la publicación en la página web
- Elige "Extraer texto del elemento seleccionado"
- Repite los pasos anteriores para extraer todos los datos que necesita
Scrapea imagen - scrapea la URL de la imagen de la publicación es un poco complicado en este caso.
- Primero selecciona la imagen
- Haz clic en la flecha de la izquierda hasta la última etiqueta DIV en el panel de Tips
- Haz clic en la primera etiqueta DIV en la ventana emergente
- Haz clic en la flecha hacia la derecha hasta la última etiqueta DIV y selecciona IMG en la ventana emergente
- Elige "Extraer la URL de la imagen seleccionada"
Scrapear la hora de publicación- el texto que se muestra en la página es como "6d", por lo que es difícil para nosotros saber la hora exacta de publicación. Podemos extraer la fecha y la hora detalladas de la publicación del código fuente.
- Haz clic en abrir la configuración de "Extraer datos 1"
- Haz clic en "..." y selecciona "Personalizar campo"
- Elige "Extraer atributo" y selecciona "fecha y hora" (fecha y hora) o "título" (solo fecha) en el menú desplegable según tus necesidades.
6. "Paginación" - haz clic en el botón de la página siguiente para scrapear más publicaciones
- Haz clic en el botón de la página siguiente
- Selecciona "Hacer clic en bucle en la página siguiente" en el panel de Tips.
- Prolonga el tiempo de espera de AJAX a 7-10 s
- Arrastra "Extraer datos1" a la Paginación
7. Iniciar extracción: ejecutar la tarea y obtener datos
- Haz clic en"Guardar"
- Haz clic en "Ejecutar" en la parte superior izquierda
- Selecciona "Run task on your device" para ejecutar la tarea en tu computadora, o selecciona "Run task in the cloud" para ejecutar la tarea en la nube (solo para usuarios del plan premium)
Si tienes alguna duda en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.