Los datos de tablas son comunes entre los sitios web relacionados con finanzas, deportes, etc. Este tutorial te guiará sobre cómo extraer datos de tablas.
Si has aprendido cómo scrapear una lista de datos, entonces los datos de la tabla son más o menos similares (Extract a list). Puedes tomar cada fila de la tabla como un elemento de los datos de la lista. Entonces, cada celda de la tabla es igual a un subelemento del elemento.
¿Cómo recopilar los datos de la tabla con Octoparse? ¡Continúa con este tutorial!
Example URL: https://money.cnn.com/data/hotstocks/index.html
1. Utilizar la función de detección automática para configurar el flujo de trabajo
2. Configurar el flujo de trabajo manualmente
1. Utilizar la función de detección automática para configurar el flujo de trabajo
Octoparse admite la detección automática de la tabla y la captura de todas las columnas. Con esta función, solo necesitas
1) Ingresa la URL de la página web y selecciona para detectar automáticamente los datos de la página web
2) Comprobar si todas las celdas de la tabla tienen la captura y haz clic en "Crear flujo de trabajo"
Tips! Haz clac en Lesson 1: Extract data with the brand-new Auto-detect algorithm para los detalles de detección automática. |
2. Configurar el flujo de trabajo manualmente
¿Qué pasa si la detección automática falla o no recopila los datos completos de la tabla? En este caso, debes configurar la tarea manualmente. Estos son los pasos:
1) Selecciona la primera celda en la primera fila de la tabla y luego haz clic en el icono de "Expandir el área de selección" hasta que seleccione toda la primera fila.
(Puedes hacer clic en "Desactivar la detección automática" o "Cancelar la detección automática" para detener la detección automática si se inicia automáticamente)
el Tips panel dirá "Se encontraron uno o más subelementos". Los "subelementos" son los campos de datos específicos que Octoparse detecta en cada fila de datos. Esto es para preguntarte si deseas ubicar estos subelementos.
2. Elige "Seleccionar todos los subelementos" en el Tips panel. Se seleccionan todos los subelementos de la primera fila y luego Octoparse busca otros elementos similares resaltados en rojo.
3. Elige "Seleccionar todo" en el Tips panel. Todos los subelementos de la tabla se seleccionan y resaltan también en verde.
4. Elige "Extraer datos" en el Tips panel. Ahora, Octoparse extraerá todos los campos de datos de la tabla.
5. Edita los campos de datos si es necesario (opcional)
Ahora, tienes todos los campos de datos configurados en la tarea. Puedes cambiar el nombre, eliminar campos de datos en la sección "Vista previa de datos".
- Hacer clic en
para cambiar el nombre del campo de datos
- Hacer clic en
para más acciones: eliminar, copiar, limpiar datos, etc.
Si tienes algún problema en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.