Scrapear los datos desde JSON
Actualizado hace más de una semana

Ahora puede usar la extracción JSON para una extracción de datos más rápida y confiable. Le mostraremos exactamente cómo usar esta función en este tutorial.

¿Qué es el JSON?


JSON significa JavaScript Object Symbol. JSON es un formato de intercambio de datos liviano que se usa ampliamente porque es más pequeño, más rápido, más fácil de analizar y leer que XML, lo que mejora efectivamente la eficiencia de transmisión de la red.

¿Por qué scrapear desde JSON?

La extracción de enlaces JSON permite convertir los datos del formato JSON a un formato estructurado de forma más rápida y segura. Puede ayudarnos a

  1. Conseguir una extracción de datos más rápida sin cargar imágenes y demás

  2. eludir las restricciones anti-scraping de muchos sitios web

  3. lidiar más fácilmente con botones de carga y scroll infinito

¿Cómo utilizar la extracción JSON en Octoparse?

Para fines de demostración, vamos a raspar los datos de una página de anuncios en Booking.com utilizando la extracción JSON. Echa un vistazo a la URL de ejemplo:


1. Identificar la URL correcta que contiene el archivo JSON que nos gustaría scrapear

  • Abre la página web en el navegador Chrome.

  • Haz clic derecho en la página y seleccione "Inspeccionar"

  • Selecciona Fetch/XHR desde RED DevTools

  • Haz clic en el icono de borrar para borrar toda la información cargada

  • Desplaza por la lista de trabajos en la columna desplazable para actualizar la página

  • Verifica las URL recargadas en XHR para ver si contienen algún archivo JSON

26.png
  • Haz clic en el nombre de una URL y verifica la información de sus cabeceras. Veremos que el tipo de contenido en Request Headers contiene JSON.

    27.png
  • Cambia a la pestaña Vista Previa y vea de cuántos datos estamos hablando. Podemos ver que el recuento total es de 363 para esta demo.

28.png
  • Desplaza un poco más hacia abajo y compara las URL solicitadas para encontrar un patrón

Comparar las URLs de petición, encontramos que el parámetro start= en la URL aumenta por 10 cada vez.

Nota:

Algunos sitios web pueden mostrar toda la información con un enlace JSON, por lo que no es necesario generar las URL por lotes.


2. Generar por lotes lista de URL JSON en Octoparse - para extraer de una lista de enlaces de archivos JSON

  • Abre Octoparse e inicie una nueva tarea personalizada que genere por lotes las URL de entrada

  • Pega la URL copiada en el cuadro de formato de URL

  • Selecciona el elemento que desea cambiar en la URL y haga clic en Añadir parámetro

    29.png
  • Configura el Valor inicial a 0, Cada vez a +10 y el Valor final a 363 y haz clic en Confirmar para guardar.

Nota:

El valor final cambia constantemente. Introduzca el valor real que encuentre en Chrome.

30.png
  • Haz clic en la acción Ir a la página web y marca la casilla JSON en la pestaña General.

Haz clic en Aplicar para guardar la configuración


3. Seleccionar los datos para la extracción: para obtener los datos que necesitamos

  • Alterna el árbol de estructura y seleccionar los elementos de página que queremos en el nodo de posiciones

    31.png

  • Extraiga los campos de datos como nombre, id de display_job, unidad de negocio y ubicación haciendo clic en la información y seleccionando Element data

  • Guarda la tarea y ejecútala para obtener los datos que necesitamos

Aquí está el ejemplo de datos.

32.png
¿Ha quedado contestada tu pregunta?