Scrapear una lista (un listado)
Actualizado hace más de una semana

El formato más común de contenidos en las páginas web que encontramos es lista o listado. Aquí algunos ejemplos.

19.png

Identificar listas es rápido y fácil con la función de autodetección de Octoparse. Mediante algoritmos avanzados, Octoparse es capaz de detectar automáticamente los elementos de una lista y generar flujos(workflow) de tareas automáticamente.

Esta página web consta de elementos que comparten la misma estructura. Cada elemento contiene un título, fecha, palabra clave, artículo, etc.

mceclip0.png

Nuestro objetivo es obtener datos extraídos en Excel como abajo manera:

0.png


1. Scrapear una lista(un listado) con Auto-detectar

Puedes crear una tarea con una URL del sitio web como arriba ejemplo. Seleccionas auto-detectar en Tips. Pronto verás que la función de autodetección te proporciona algunos resultados, normalmente tendrás 5 opciones. Puedes seleccionar la que más útil para ti y luego confirmar para crear un flujo de tarea (workflow).

auto_deteccion.gif

Después de seleccionar la opción que deseas, puede configurar los campos, por ejemplo, eliminando los que no desees o cambiando el nombre de los campos(doble clic).


2. Scrapear la lista manualmente

A veces auto-detectar no detecta los campos o resultados de datos deseados. Podemos crear manualmente un flujo (workflow)

Método 1:

  • Colocar el cursor sobre el primer elemento hasta que toda la sección se resalte en azul

  • Continuar haciendo clic en el segundo elemento hasta todo lo que necesitas en una página que ha sido seleccionado.

Elegir "Texto" y Octoparse va a crear un flujo de bucle.



Ahora puedes seleccionar los campos deseados, como el nombre del producto, la fecha y otras palabras clave.

  • Elegir título y hacer clic en Texto

  • Repetir ese paso manualmente para otros campos

  • Doble clic es para renombrar el campo

Método 2:

  • Colocar cursor sobre el primer elemento hasta que toda la sección se resalte en azul. Octoparse va a reconocer los subelementos en ese elemento

  • Elegir todos los subelementos

  • Elegir todos los grupos similares

  • Elegir datos del elemento

¿Ha quedado contestada tu pregunta?