Estás navegando por un tutorial para la última versión(8.5.4) de Octoparse. Si aún estás utilizando una versión anterior, te recomendaríamos que la actualizaras porque es más rápida, más fácil y más robusta. ¡Descarga y actualiza aquí si aún no lo has hecho!
Bing Maps es una plataforma de mapeo geoespacial que permite a los desarrolladores crear aplicaciones con datos relevantes para la localización sobre imágenes de mapas con licencia.
Este tutorial te mostrará cómo raspar información de negocios de Bing Maps.
El ejemplo de URL en este tutorial es: https://www.bing.com/maps/
NOTA: Si quieres comprobar si tu flujo de trabajo funciona correctamente, podrías descargar el archivo OTD de tareas que para este caso está al final de esta página.
Estos son los principales pasos de este tutorial:
1. Crear un paso Abrir página
Ingresar la URL en la caja de búsqueda en la página de inicio y hacer clic en Empezar
2. Ingresar texto - para buscar los resultados
Hacer clic en la caja de búsuqeda de Bing Maps
Hacer clic en Ingresar Texto del panel de Tips después de que la caja se vuelva verde
Ingresar "Restaurantes" en el cuadro de texto
Hacer clic en Confirmar
Hacer clic en el icono de búsqueda
Hacer clic en la URL del panel de Tips
Desactiva Abrir en una nueva pestaña para la operación Hacer clic en el elemento
Configurar AJAX Timeout a 7s
Hacer clic en Aplicar
3. Configurar el Bucle de elementos - para extender a las páginas de detalles
Hacer clic en el primer campo de elemento, y luego en el segundo
Hacer clic en bucle cada elemento del panel de Tips después de que los campos de datos se vuelvan verde
Modificar Xpath para mejorar la localización de todos los campos
Hacer clic en el Elemento de Bucle
Seleccionar Lista variable como modo de bucle
Ingresar Xpath como: //li[@data-priority]
Hacer clic en Aplicar
Configurar Xpath y Ajax timeout para Hacer clic en el elemento 1
Hacer clic en Hacer clic en el elemento 1 en la caja de bucle
Activa Xpath relativo al elemento de bucle
Ingresar Xapth como : /a
Hacer clic en Aplicar
Hacer clic en Opciones
Configurar AJAX Timeout como 10s
Hacer clic en Aplicar
4. Extraer datos - para capturar datos que quieres
Hacer clic en los datos que quieres en la página de detalles
Hacer clic en Extraer datos del panel de Tips después de que los datos seleccionados se vuelvan verde
Hacer doble clic en el arriba del campo de datos si quieres renombrarlo
La auto detección para el campo de sitio web extraerá texto atributo, aquí tenemos que cambiarlo de extraer "href" a extraer URL.
Hacer clic en ... icono
Hacer clic en Personalizar campo
Hacer clic en Seleccionar URL (href atributo)
Modificar Xpath para mejorar la localización de todos los campos de la página de detalles
Ir de Disposición horizontal a Disposición vertical
Ingresar xpath como la muestra de abajo
tel: //a[contains(@href,"tel:")]
website: //a[@aria-label="Website"]
opentime: //span[@class="opHours"]/span
5. Configurar un Bucle para imágenes - para extraer imágenes en la página de detalles
Hacer clic en cualquiera de esas dos fotos
Hacer clic en Extraer las URLs de las imágenes seleccionadas y comenzar a descargarlas
Modificar Xpath en el Elemento de bucle1 para mejorar la localización de todos los campos
Hacer clic en el Elemento de bucle1
Seleccionar Lista variable como modo de bucle
Ingresar Xpath como: //div[@id="locovl_imgcol"]//img
Hacer clic en Aplicar
Limpiar XPath para el campo de datos
Ir de Disposición horizontal a Disposición vertical
Limpiar XPath para el campo de imágenes
Nota: Si quieres conocer más detalles sobre cómo descargar y exportar archivos, podrías consultar este tutorial: Scrapear-y-descargar-archivos-desde-sitios-web
El flujo de trabajo final sería así:
6. Ejecutar la tarea - para exportar datos que quieres
Hacer clic en el botón de Guardar para que Octoparse memorice todas las configuraciones
Luego hacer clic en Ejecutar tu tarea sea localmente o en la nube
Seleccionar Ejecutar en el dispositivo y hacer clic en Modo Estándar para ejecutar tu tarea en el equipo local
Esperar que la tarea complete la ejecución
Abajo es la muestra de datos extraídos con el equipo local. Podrías exportarlos en formatos de Excel, CSV, HTML, o JSON.