¿Qué es "Extraer Datos"?
"Extraer Datos" es un paso imprescindible cuando configura su tarea para obtener los datos que necesita. Puede encontrar todos los campos de datos que necesita en este paso. En este paso, puede limpiar datos, modificar XPath, cambiar la secuencia, copiar, eliminar campos de datos, etc.
Sin este paso, no puede ejecutar su tarea .
¿Cómo añadir "Extraer Datos" al flujo de trabajo?
Hay dos formas de generar una acción de"Extraer Datos".
1. Hacer clic en el elemento de la página web para generar uno automáticamente (El más común)
Cuando desee tomar datos de la página, solo necesita hacer clic en el primer elemento. Luego, haga clic en la opción de "Extraer ......" en el Tips Panel y se mostrará una acción de "Extraer datos" en el flujo de trabajo.
Las opciones pueden ser:
"Extraer texto / URL del elemento seleccionado"
"Extrae el HTML interno / externo del elemento seleccionado"
"Extraer datos"
"Extraer datos en el bucle"
......
2. Añadir desde el flujo de trabajo
Cuando mueve el mouse por el flujo de trabajo, puede ver aparecer un ícono. Haga clic en el icono para mostrar las opciones desplegables y elija "Extraer Datos" para agregar este paso al flujo de trabajo.
Configuración de Acción
Para ajustar más configuraciones relacionadas con los campos de datos, puede hacer doble clic en el nombre de "Extraer Datos" o hacer clic en el icono de engranaje de la siguiente manera:
After opening "Action Settings", you can see there are 4 main features.Después de abrir "Action Settings", puede ver que hay 4 opciones.
1. Extraer datos en el bucle
Normalmente esta opción está marcada cuando extrae datos directamente de una página de listado en lugar de hacer clic en la página de detalles para extraer datos.
A continuación, verá un ejemplo de una página de listado de productos.
Para obtener más información sobre cómo extraer datos de la página de resultados de una lista, consulte esta guía: Extract a list.
2. Definir campos de datos
Puede encontrar campos de datos aquí y puede realizar acciones como eliminar, mover o limpiar su (s) campo (s) de datos y agregar campos como el tiempo de extracción, la URL de la página actual, etc. de una lista predefinida.
También puede revisar el XPath de un determinado campo de datos aquí si no está ubicado correctamente en la salia.
To better understand what those icons stand for, check the following details:
: Batch delete data field(s) if you want to delete multiple fields at one time
: Import data field(s) from a data file [Octoparse extract config (*.oec)]
: Export data field(s) to a data file [Octoparse extract config (*.oec)]
: Add data fields from a predefined list etc (Add pre-defined data fields)
: Customize XPath (To learn more about XPath, check this guide What is XPath and how to use it in Octoparse)
: Más acciones
- Personalizar campos: to select what information (text, HTML, an attribute value, or URL) you need to scrape from the page element. To learn more about it, check this guide: Extract element text/URL/image/HTML/attribute.
- Limpiar datos: to clean the data output to your desired one (e.g. add prefix, suffix, transform the time, replace, etc). To learn more about it, check this guide: Re-format data extracted.
- Combinar datos: to combine the same field of data from other loop items. To learn more about it, check this guide: Combine data extracted.
- When data cannot be found: when this data field is empty in some cases, you can choose to leave all the fields blank, leave this field blank, or use a fixed value.
- Mover campo: para mover la posición de un determinado campo de datos al arriba o abajo, subir o bajar.
- Copiar: para duplicar un determinado campo de datos
3. Trigger
Trigger is used when you want to scrape data based on some conditions.
For example, if this line of data is not blank in Field1, you want to dump this line of data. Check out more details about Trigger.
4. Before action is performed (añadir tiempo de espera)
Este es para permitirle agregar un tiempo de espera antes de ejecutar esta acción.
Puede que los diferentes sitios web tengan diferentes configuraciones de tiempo de espera para cargar los datos, entonces a veces es necesario agregar un tiempo de espera o condiciones de espera para dar más tiempo a que se cargue la página web.
Puede consultar esta guía para diferentes casos de uso: Wait before action
Si tiene algún problema en configurar su tarea, puede enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.