Los contenidos de las páginas web suelen estar organizados en algunos tipos de patrones. Uno de los patrones más comunes es una lista. A continuación, se muestran algunos ejemplos de cuándo el contenido se presenta como una lista.

Esta página web en particular consta de elementos que comparten la misma estructura. Cada elemento contiene un título, fecha, palabra clave, artículo ...
Nuestro objetivo es obtener datos extraídos en Excel de esta manera:
Ahora, exploremos diferentes formas de hacer esto en Octoparse.
1. Extraer lista con detección automática
2. Extraer la lista manualmente
Es posible que necesites este enlace para seguir: https://www.octoparse.es/blog
1. Extraer lista con detección automática
Una vez que hayas creado una nueva tarea usando la URL de ejemplo, selecciona "Detectar automáticamente los datos de la página web. Octoparse ahora detectará cualquier dato en la página y puedes hacer clic en" Crear flujo de trabajo "para generar el flujo de trabajo.
2. Extraer la lista manualmente
Si por alguna razón la detección automática no detecta la lista o si está creando una tarea sin la detección automática, siempre puedes extraer la lista manualmente.
1) Método 1:
- Carga la página web en Octoparse y coloca el cursor sobre el primer elemento hasta que toda la sección se resalte en azul
- Continúa haciendo clic en el segundo elemento y encontrarás todo lo que necesitas en una página que ha sido seleccionada.
- Elige "Extraer texto de los elementos seleccionados" y Octoparse creará un elemento de bucle automáticamente
Notarás que el primer elemento ahora está resaltado en rojo. Puedes seleccionar la información como título, fecha y palabra clave del área resaltada.
- Selecciona el título y elige "Extraer el texto del elemento"
- Repite los pasos para obtener otra información
- Haz doble clic en el nombre del campo para cambiarle el nombre si es necesario
Tips! Asegúrate de que todos los subelementos que deseas extraer estén incluidos en esta sección resaltada. |
2) Método 2:
- Pasa el cursor sobre el primer elemento hasta que toda la sección se resalta en azul
Notarás que Octoparse detecta subelementos de la sección y los resalta en rojo.
- Elige "Seleccionar subelementos"
- Elige"Seleccionar todo"
- Selecciona "Extraer datos". Se generará automáticamente un elemento de bucle para eliminar la lista de elementos de la página.
Tips! Si deseas editar o eliminar los campos de datos extraídos, puedes hacer clic en "Extraer datos" y modificar los campos en el panel Vista previa de datos. |
Si necesitas ayuda con la configuración de tareas o la recopilación de datos, envía un ticket a nuestro equipo de soporte. Nos comunicaremos contigo en un plazo de 24 horas.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.