En este tutorial, le mostraremos cómo scrape los resultados de búsqueda de Google Scholar. Además, la plantilla de Google Académico lista para usar se ha insertado en nuestra última versión, puede consultarla.
Si desea construir el scraper desde cero, es posible que desee utilizar la URL en este tutorial:
https://scholar.google.com/ncr
Estos son los pasos principales de este tutorial:
1. "Ir a la página web" - para abrir la página web objetivo
2. Cree un "elemento de bucle": para ingresar en bucle las palabras clave de búsqueda
3. Cree un ciclo de paginación: para scrape datos de varias páginas de listado
4. Cree un "elemento de bucle" - para extraer en bucle cada elemento
5. Extraer datos - para seleccionar los datos que necesita scrape
6. Ejecutar extracción - para ejecutar su tarea y obtener datos extraction
1)"Ir a la página web" - para abrir la página web objetivo
- Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo avanzado"Task"
- Pegue la siguiente URL en el cuadro "Extraer URL" y haga clic en "Guardar URL" para continuar
2)Cree un "elemento de bucle": para ingresar en bucle las palabras clave de búsqueda
Podemos personalizar nuestra "lista de texto" para crear una acción de búsqueda de bucle. Octoparse ingresará automáticamente cada palabra clave en la lista en el cuadro de búsqueda, una línea a la vez.
- Coloque una acción de "elemento de bucle" en el diseñador de flujo de trabajo
- Vaya al modo de bucle y seleccione "Lista de texto"
- Haga clic en "a" para ingresar una palabra clave por línea. Aquí ingresaremos "minería de datos" y "big data"
- Haga clic en "OK" cuando termine de ingresar. Luego puede ver sus palabras clave en el "Elemento de bucle"
- Haga clic en el cuadro de búsqueda en la página en el navegador incorporado y seleccione "Introducir texto" en "Consejos de acción"
Cuando hace clic en el campo de entrada,Octoparse puede detectar que selecciona un cuadro de búsqueda, la acción "Introducir texto" aparecerá automáticamente en "Consejos de acción”
- Ingrese la primera palabra clave "minería de datos" en "Consejos de acción"
- Haga clic en "OK", luego se generará la acción "Introducir texto" en el flujo de trabajo
- Arrastre la acción "Introducir texto" al "Elemento de bucle". Haga clic en la acción "Introducir texto"
Vaya a "Texto de bucle" y seleccione "Usar el elemento de texto en bucle para completar el cuadro de texto" y haga clic en "OK" para guardar.
Configure "esperar antes de la ejecución"
- Haga clic en el botón de búsqueda de la página web y seleccione "Botón de clic" en "Consejos de acción", notará que la acción "Hacer clic en elemento" se agrega al flujo de trabajo.
- Marque "abrir el enlace en una pestaña nueva" y haga clic en "Guardar"
3)Cree un ciclo de paginación: para scrape datos de varias páginas de listado
- Desplácese hacia abajo y haga clic en el botón "Siguiente"
- Haga clic en "Bucle haga clic en la página siguiente" en "Consejos de acción"
4)Cree un "elemento de bucle" - para extraer en bucle cada elemento
Ahora estamos en la segunda página. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, será mejor que volvamos a la primera página.
- Haga clic en "Ir a la página web" en el flujo de trabajo.
- Haga clic en "Elemento de bucle"
- Haga clic en "Ingresar texto"
- Haga clic en "Haga clic en elemento"
- Seleccione el bucle de paginación
Al hacer esto, podemos ayudar a Octoparse a decidir el orden de ejecución y generar el elemento de bucle en la posición adecuada en el flujo de trabajo.
- Haga clic en el título del primer elemento en el navegador incorporado
Necesitamos asegurarnos de que todo el bloque del primer elemento de video esté cubierto de azul cuando clic mouse. Solo de esta manera, podríamos ver que todo el bloque de elementos se resalta en verde después de hacer clic, cubriendo toda otra información como título, autor, fecha...
- Haz clic en el segundo elemento
Octoparse reconocerá automáticamente los otros elementos y los resaltará en verde.
- Haga clic en "Seleccionar todo" en "Consejos de acción"
- Haga clic en "Extraer texto del elemento seleccionado"
¡Consejos! Normalmente podemos hacer clic en "Seleccionar todos los subelementos" en el panel "Consejos de acción", pero en ciertas circunstancias (como este caso), Octoparse no puede hacer eso. Por lo tanto, crearemos un bucle al principio y seleccionaremos los datos de cada bloque para extraerlos manualmente en el siguiente paso. |
5) Extraer datos - para seleccionar los datos que necesita scrape
- Haga clic en el campo de datos
- Haga clic en "Eliminar campo de datos"
- Haga clic en "Sí”
- Haga clic en los datos que necesita en el bloque de elementos que está resaltado en rojo.
- Haga clic en "Extraer texto del elemento seleccionado" y cambie el nombre de la columna "Nombre del campo" si es necesario.
Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta
- Haga clic en "OK" para guardar el resultado.
6) Ejecutar extracción - para ejecutar su tarea y obtener datos extraction
- Haga clic en "iniciar extracción"
- Seleccione "extracción local" para ejecutar la tarea en su computadora
A continuación se muestra la muestra de salida:
¿Te resultó útil este artículo?
¡Contáctenos en cualquier momento si necesita nuestra ayuda!
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.