Scrapear información de listado de Bing

En este tutorial, te mostraremos cómo extraer información del listado de Bing.com.

Para Bing, puedes visitar nuestra "Plantillas de tarea" en la pantalla principal de Octoparse. Todo lo que necesitas es ingresar varios parámetros y la tarea estará lista para comenzar. Para obtener más detalles, consulta: Plantillas de Tarea

Para continuar, necesitamos utilizar esta URL en el tutorial:

http://www.bing.com/search?q=Web+scraping&form=QBLHVN&sp=-1&pq=web+scraping&sc=8-12&qs=n&sk=&cvid=0F966DDFA0C4442CA6957B085350A50Dwww.bing.com

Recogeremos datos como el título, la URL y la descripción del listado de resultados de búsqueda con Octoparse.

Estos son los pasos principales de este tutorial [Descargar la tarea de demostración aquí]:

1. "Ir a la Página Web" - abrir la página web de destino

Introduce la URL de ejemplo y haz clic en "Iniciar".

2. Crear un bucle de paginación - para scrapear varias páginas de listas

Desplaza hacia abajo y haz clic en el botón ">" en la página web
Haz clic en "Hacer clic en bucle en una sola URL" en el panel de Tips.

Una vez creada la "Paginación", puedes comprobar si la paginación funciona bien para paginar a la página siguiente haciendo clic manualmente en las acciones "Paginación" y "Haga clic para paginar" en el flujo de trabajo (como lo que muestra el GIF).

3. Extraer datos - eliminar ciertos elementos de cada página

Comencemos con el primer elemento no publicitario de la lista de resultados de búsqueda.

Haz clic en el título del primer elemento que no es del anuncio en la página.
Haz clic en "Seleccionar todo" en el panel de Tips.

Verás que se seleccionan otros elementos similares.

Elige "Extraer texto de los elementos seleccionados" en el panel de Tips.

Si todas las secciones se resaltaron en rojo, significa que el ciclo se creó correctamente. También generará un campo del título. Está bien conservarlo.

Selecciona un elemento de la lista de Elementos de Bucle y verás el seleccionado resaltado en azul
Haz clic en el título del artículo
Elige "Extraer la URL del vínculo seleccionado" en el panel de Tips.
Si necesitas la descripción, haz clic en el texto y luego elige "Extraer el texto del elemento seleccionado"

También puedes agregar algunos campos de datos predefinidos desde el icono "+". Elijo "Fecha y hora actuales" para obtener la hora extraída

Si quieres cambiar el nombre del campo, simplemente haz clic en el icono junto al nombre del campo en la "Vista Previa de Datos".

Aquí encontramos que algunos anuncios todavía están incluidos en nuestro bucle, pero no los necesitamos. Por lo tanto, necesitaríamos modificar XPath.

Haz clic para modificar el elemento Loop y cambiar XPath ingresando //li[@class='b_algo']
Haz clic en "Aceptar" para guardar

Tips!

La modificación de XPath en Octoparse funciona muy bien con más flexibilidad y precisión que el XPath autogenerado.
Aquí hay algunos tutoriales relacionados que puedes necesitar:

4. Guardar e iniciar la extracción - ejecutar la tarea y obtener datos

Haz clic en Guardar"
Haz clic en "Ejecutar" en la parte superior izquierda
Selecciona "Run task on your device" para ejecutar la tarea en tu computadora, o selecciona"Run task in the cloud" para ejecutar la tarea en la nube (solo para usuarios de plan premium)

Aquí tienes una muestra de datos.