Extraer datos de la tabla
Actualizado hace más de una semana

Los datos de tablas son comunes entre los sitios web relacionados con finanzas, deportes, etc. Este tutorial lo guiará sobre cómo extraer datos de tablas.

Si has aprendido cómo extraer una lista de datos, entonces los datos de la tabla son más o menos similares (Extraer una lista). Puedes tomar cada fila de la tabla como un elemento de datos de lista. Entonces, cada celda de la tabla es igual a un subelemento del elemento.

¿Cómo recopilar los datos de la tabla con Octoparse? ¡Continúa con este tutorial!

mceclip0.png

1. Utilizar la función de detección automática para configurar el flujo de trabajo

Octoparse admite la detección automática de la tabla y captura todas las columnas. Con esta función, solo necesitas

  • Ingresar la URL de la página web y Octoparse empezará a detectar automáticamente los datos de la página web.

infocif_deteccion_automatica.gif
  • Revisar si se han capturado todas las celdas de la tabla y haz clic en "Crear flujo de trabajo"

mceclip2.png

Tips!

Haz clic en Lección 1: Extraer datos con el nuevo algoritmo de detección automática para conocer los detalles de detección automática.

2. Configurar el flujo de trabajo manualmente

¿Qué pasa si la detección automática falla o no recopila los datos completos de la tabla? En este caso, puedes configurar la tarea manualmente. Estos son los pasos:

  • Selecciona la primera celda de la primera fila de la tabla y luego haga clic en

    (botón "Expandir el área de selección") hasta que seleccione toda la primera fila

(Puede hacer clic en "Desactivar la detección automática" o "Cancelar la detección automática" para detener la detección automática si se inicia automáticamente)

mceclip4.png

el panel de Tips dirá "Se encontraron uno o más subelementos". Los "subelementos" son los campos de datos específicos que Octoparse detecta en cada fila de datos. Esto es para preguntarte si deseas ubicar estos subelementos.

mceclip5.png
  • Elige "Seleccionar todos los subelementos" en el panel de Tips.

Se han seleccionado todos los subelementos de la primera fila y luego Octoparse busca otros elementos similares resaltados en rojo.

mceclip6.png
  • Elige "Seleccionar todo" en el panel de Tips.

Todos los subelementos de la tabla están seleccionados y resaltados en verde.

mceclip7.png
  • Elige "Extraer datos" en el panel de Tips.

Ahora, Octoparse extraerá todos los campos de datos de la tabla.

mceclip8.png
  • Edita los campos de datos si te es necesario (opcional)

Ahora tienes todos los campos de datos configurados para la tarea. Puedes refinar los campos de datos en la sección "Vista previa de datos".

  • Haz doble clic en el nombre del campo para cambiar el nombre de los campos de datos.

  • Haz clic en el campo para más acciones: eliminar, copiar, reformatear datos, etc.

mceclip9.png
¿Ha quedado contestada tu pregunta?