En este tutorial, vamos a presentar cómo raspar los datos de revisión de Yelp. Ingresaremos a la página de detalles de cada cafetería, raspando el nombre de la tienda, el nombre del revisor y el comentario.
Para seguirlo, es posible que desee utilizar la URL en este tutorial:
https://www.yelp.com/search?find_desc=Coffee+%26+Tea&find_loc=Seattle%2C+WA&ns=1
Este tutorial también cubrirá:
· Modifique XPath para localizar los datos de precios deseados con precisión
Pasos principales en el tutorial
1) "Ir a la página web" - Abre la página web de destino
2) Crear un ciclo de paginación - Raspar todos los resultados de múltiples páginas
3) Crear un "elemento de bucle" - Hacer clic en bucle en cada elemento de cada lista
4) Extraer datos - Información de revisión de captura de bucle en la lista para extracción
6) Inicie la extracción - Ejecute la tarea y obtenga datos
1. "Ir a la página web" - Abre la página web de destino
- Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo Avanzado
El modo avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, recomendamos encarecidamente el "Modo Avanzado" para comenzar su proyecto de extracción de datos.
- PPegue la URL en el cuadro "Sitio web" y haga clic en "Guardar URL" para continuar
- Haga clic en "Guardar URL" y vaya al sitio web de destino.
2) Crear un ciclo de paginación - Raspar todos los resultados de múltiples páginas
· Desplácese hacia abajo y haga clic en el botón "Página siguiente" en la página web
· Haga clic en "Bucle, haga clic en la página siguiente" en "Consejos de acción"
Como este sitio web emplea la técnica AJAX para cargar el nuevo contenido, necesitamos configurar la "carga AJAX" para ayudar a Octoparse a evitar quedarse atascado.
· Desmarque "Reintento automático"
· Marque "AJAX Load" y configure "AJAX Timeout"
¡Consejos! Para saber más sobre AJAX, consulte:
|
3) Crear un "elemento de bucle" - Hacer clic en bucle en cada elemento de cada lista
Ahora estamos en la segunda página. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, mejor regresemos a la primera página.
· Haga clic en "Ir a la página web" en el flujo de trabajo.
· Seleccione el ciclo de paginación en el flujo de trabajo
Al hacer esto, podemos ayudar a Octoparse a decidir la orden de ejecución y generar el elemento de bucle en la posición adecuada en el flujo de trabajo.
· Haz clic en el primer artículo de café.
· Clic "Select All" en "Action Tips"panel
· Seleccione "Loop click each URL"
4. Extraer datos - Información de revisión de captura de bucle en la lista para extracción
Este tutorial solo raspará la primera página de información de revisión para la demostración. Si necesita raspar varias páginas de reseñas, solo necesita crear otro ciclo de paginación.
- Haga clic en el nombre del café en la página web
- Haga clic "Extract text of selected element" en el panel "Action Tips" panel
Ahora, construyamos un "elemento de bucle" para capturar todas las reseñas.
- Haga clic en las secciones de comentarios primero y segundo consecutivamente
Tenga en cuenta que debe seleccionar todo el bloque de comentarios. Octoparse identificará automáticamente todas las secciones de comentarios en la página según el patrón que acaba de definir.
- Haga clic en "Extract text of the selected elements"
Se generará automáticamente un "Elemento de bucle" y se agregará al flujo de trabajo. Por defecto, Octoparse extrae automáticamente del elemento seleccionado; sin embargo, si esto no es exactamente lo que está buscando, puede eliminar los campos y agregar los nuevos que necesita como se muestra a continuación.
- Eliminar los campos de datos no deseados
- Seleccione los datos que desea en el área de comentarios, como el nombre de usuario, la ubicación y el comentario
- Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta
- Haga clic en "Extract text of the selected element" en el panel "Action Tips"
- Haga clic en "OK" para guardar
¡Consejos! Aquí hay un tutorial para capturar una lista de elementos: |
5) Personalice el campo de datos modificando XPath - Mejorar la precisión de un determinado campo de datos (Opcional)
En este caso, los nombres de los cafés no siempre se encuentran en el mismo lugar en diferentes páginas de detalles. Por lo tanto, para evitar la falta de datos provocada por este problema de ubicación irregular, debemos modificar XPath en Octoparse para garantizar que el elemento en cada página se detecte con precisión.
La XPath revisada del nombre del café es:
.//*[@id='wrap']/div[2]/div/div[1]/div/div[3]/div[1]/div[1]/h1.
· Haga clic en "Personalizar campo de datos"
· Seleccione "Personalizar XPath"
· Pegue la XPath revisada en el cuadro de texto XPath coincidente
· Haga clic en "OK" para guardar.
¡Consejos! Para mejorar la precisión de un determinado campo de datos, se recomienda modificar XPath en Octoparse. Aquí hay algunos tutoriales relacionados que puede necesitar: |
6. Inicie la extracción - Ejecute la tarea y obtenga datos
- Clic en "Save"
- Clic en"Start Extraction" en el lado superior izquierdo
- Seleccione "Local Extraction" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)
- Para un usuario premium, Cloud Extraction
es muy recomendable.
Aquí está la salida de muestra.
Artículos relacionados:
Scrape la información comercial de Yelp
Scrape los cables de Yellowpages
Scrape la información de compañía de Crunchbase
¿Te resultó útil este artículo? Contacta con nosotros en cualquier momento si necesita nuestra ayuda.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.