En este tutorial, le mostraremos cómo extraer información de video de Youtube. Además, la plantilla de Youtube lista para usar se ha insertado en nuestra última versión, puede consultarla.
Si desea construir el scraping desde cero, es posible que desee utilizar la URL en este tutorial: https://www.youtube.com
Estos son los pasos de este tutorial: [Descargue el archivo de tarea]
1."Ir a la página web": para abrir la página web de destino
2. Cree un "elemento de bucle": para ingresar en bucle las palabras clave de búsqueda
3. Tratar con el voluta infinite
4. Cree un "Elemento de bucle" para extraer cada elemento en bucle
5. Extraer datos — para seleccionar los datos que necesita scraping
6. Ejecutar extracción: para ejecutar su tarea y obtener datos
1)"Ir a la página web" - para abrir la página web objetivo
- Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo avanzado
- Pegue la URL en el cuadro "URL de entrada"
- Haga clic en "Guardar URL" para continuar
2)Cree un "elemento de bucle": para ingresar en bucle las palabras clave de búsqueda
Podemos personalizar nuestra "lista de texto" para crear una acción de búsqueda de bucle. Octoparse ingresará automáticamente cada palabra clave en la lista.
- Coloque una acción de "elemento de bucle" en el diseñador de flujo
- Vaya al modo de bucle y seleccione "Lista de texto"
- Haga clic en "a" para ingresar una lista de palabras clave, una para cada línea. Aquí ingresaremos "big data" y "machine learning"
- Haga clic en "OK" cuando termine de ingresar. Luego puede ver sus palabras clave en el "Elemento de bucle"
- Haga clic en el cuadro de búsqueda en la página en el navegador incorporado y seleccione "Introducir texto" en "Consejos de acción"
Cuando hace clic en el campo de entrada en el navegador incorporado, Octoparse puede detectar que selecciona un cuadro de búsqueda, la acción "Introducir texto" aparecerá automáticamente en "Consejos de acción".
- Ingrese la primera palabra clave "Big Data" en "Consejos de acción"
- Haga clic en "Aceptar", luego se generará la acción "Introducir texto"
- Arrastre la acción "Introducir texto" al "Elemento de bucle. Haga clic en la acción" Introducir texto"
Vaya a "Texto de bucle" y seleccione "Usar el elemento de texto en bucle para completar el cuadro de texto" y haga clic en "Aceptar" para guardar.
- Haga clic en el botón de búsqueda de la página y seleccione "Botón de clic" en "Consejos de acción", notará que la acción "Hacer clic en elemento" se agrega al flujo de trabajo
En este caso, la paginación no es fuciona, tendremos que desplazarnos hacia la parte inferior de la página continuamente para cargar todo el contenido.
- Marque "Desplácese hasta la parte inferior de la página cuando termine de cargar" en "Opciones avanzadas"
- Establezca "Scroll times" e "Interna" que necesita
- Seleccione "Desplazarse hacia abajo hasta la parte inferior de la página" como "Modo de desplazamiento"
- Haga clic en el botón "Aceptar" para guardar el resultado
¡Consejos!
|
4)Cree un "Elemento de bucle" para extraer cada elemento en bucle
Cuando crea una lista de elementos para web scraping, a veces la lista puede incluir elementos de "Anuncios". Para excluir el video promocional, podemos comenzar a construir el "Artículo de bucle" desde la segunda fila de los productos en esta página..
- Seleccione el segundo bloque en el navegador incorporado
Necesitamos asegurarnos de que todo el bloque del primer elemento de video esté cubierto de azul cuando el mouse clik. Solo esto, podríamos ver que todo el bloque de elementos se resalta en verde después de hacer clic, cubriendo toda información como el título del video, el nombre del canal, el total de reseñas ... etc.
- Haga clic en el tercer y cuarto elemento de video completo, hasta que Octoparse identifique todos los demás videos
Octoparse reconocerá automáticamente los otros bloques y los resaltará en verde. (Si no, sigue haciendo clic en el siguiente hasta que todos estén seleccionados)
- Haga clic en "Extraer texto del elemento seleccionado" en el panel "Consejos de acción"
¡Consejos!
|
5)Extraer datos — para seleccionar los datos que necesita scraping
- Haga clic en los datos que necesita en el bloque de elementos que está resaltado en rojo
- Haga clic en "Extraer texto del elemento seleccionado" y cambie el nombre de la columna "Nombre del campo" si es necesario.
Cambie el nombre de los campos
- Haga clic en "OK" para guardar el resultado
6)Ejecutar extracción: para ejecutar su tarea y obtener datos
- Haga clic en "iniciar extracción"
- Seleccione "extracción local" para ejecutar la tarea en su computadora
A continuación se muestra la muestra de salida:
¿Es el artículo útil? No dude en informarnos si tiene alguna pregunta o necesita nuestra asistencia.
¡Contáctanos aquí !
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.