Todas las colecciones
Tutorial de Casos
Motor de Búsqueda
Scrapear información de listado de Bing
Scrapear información de listado de Bing
Actualizado hace más de una semana

En este tutorial, te mostraremos cómo extraer información del listado de Bing.com.

Para Bing, puedes visitar nuestra "Plantillas de tarea" en la pantalla principal de Octoparse. Todo lo que necesitas es ingresar varios parámetros y la tarea estará lista para comenzar. Para obtener más detalles, consulta: Plantillas de Tarea

mceclip0.png

Para continuar, necesitamos utilizar esta URL en el tutorial:

Recogeremos datos como el título, la URL y la descripción del listado de resultados de búsqueda con Octoparse.

Estos son los pasos principales de este tutorial [Descargar la tarea de demostración aquí]:

1. "Ir a la Página Web" - abrir la página web de destino

  • Introduce la URL de ejemplo y haz clic en "Iniciar".

mceclip0x2.png

2. Crear un bucle de paginación - para scrapear varias páginas de listas

  • Desplaza hacia abajo y haz clic en el botón ">" en la página web

  • Haz clic en "Hacer clic en bucle en una sola URL" en el panel de Tips.

Una vez creada la "Paginación", puedes comprobar si la paginación funciona bien para paginar a la página siguiente haciendo clic manualmente en las acciones "Paginación" y "Haga clic para paginar" en el flujo de trabajo (como lo que muestra el GIF).

paginate.gif

3. Extraer datos - eliminar ciertos elementos de cada página

Comencemos con el primer elemento no publicitario de la lista de resultados de búsqueda.

  • Haz clic en el título del primer elemento que no es del anuncio en la página.

  • Haz clic en "Seleccionar todo" en el panel de Tips.

    mceclip1.png

Verás que se seleccionan otros elementos similares.

  • Elige "Extraer texto de los elementos seleccionados" en el panel de Tips.

    mceclip2.png

Si todas las secciones se resaltaron en rojo, significa que el ciclo se creó correctamente. También generará un campo del título. Está bien conservarlo.

  • Selecciona un elemento de la lista de Elementos de Bucle y verás el seleccionado resaltado en azul

  • Haz clic en el título del artículo

  • Elige "Extraer la URL del vínculo seleccionado" en el panel de Tips.

  • Si necesitas la descripción, haz clic en el texto y luego elige "Extraer el texto del elemento seleccionado"

loop_extract_data_final_latest.gif
  • También puedes agregar algunos campos de datos predefinidos desde el icono "+". Elijo "Fecha y hora actuales" para obtener la hora extraída

mceclip3.png
  • Si quieres cambiar el nombre del campo, simplemente haz clic en el icono junto al nombre del campo en la "Vista Previa de Datos".

    mceclip4.png

Aquí encontramos que algunos anuncios todavía están incluidos en nuestro bucle, pero no los necesitamos. Por lo tanto, necesitaríamos modificar XPath.

  • Haz clic para modificar el elemento Loop y cambiar XPath ingresando //li[@class='b_algo']

  • Haz clic en "Aceptar" para guardar

3.png

Tips!

La modificación de XPath en Octoparse funciona muy bien con más flexibilidad y precisión que el XPath autogenerado.
Aquí hay algunos tutoriales relacionados que puedes necesitar:

4. Guardar e iniciar la extracción - ejecutar la tarea y obtener datos

  • Haz clic en Guardar"

  • Haz clic en "Ejecutar" en la parte superior izquierda

  • Selecciona "Run task on your device" para ejecutar la tarea en tu computadora, o selecciona"Run task in the cloud" para ejecutar la tarea en la nube (solo para usuarios de plan premium)

mceclip8.png

Aquí tienes una muestra de datos.

mceclip9.png
¿Ha quedado contestada tu pregunta?