Renombrar / mover / duplicar / eliminar un campo
Tan pronto como hayas extraído y mostrado los datos en la Vista previa de datos, podrás revisar el conjunto de datos y comenzar a ordenar tus datos. Algunas cosas típicas que puedes hacer para refinar tu conjunto de datos incluyen cambiar el nombre de los campos, reordenar las columnas, duplicar los campos de datos y eliminar los campos que no son obligatorios para tu proyecto.
Para cambiar el nombre de un campo, haz doble clic en el nombre del campo, luego escribe el nuevo nombre directamente. Ten en cuenta que solo debes utilizar números, letras y "_" para los nombres de campo.
Para mover un campo, coloca el cursor al frente del campo y cuando aparezca, arrastra y suelta el campo en el lugar correcto.
Para eliminar un campo, haz clic en el icono "Más" y selecciona "Suprimir".
Limpiar datos
Octoparse proporciona muchas formas diferentes de limpiar tus datos. Por ejemplo, puedes reemplazar una cadena de texto, recortar espacios adicionales, agregar un prefijo / sufijo, reemplazar una cadena con RegEx, reformatear la fecha / hora y más. Puedes limpiar cualquier campo de datos individual de una o más formas hasta que los datos cumplan con tus requisitos. Algunos de estos pueden requerir que manejes la expresión regular con la que puedes usar la herramienta Octoparse RegEx para obtener ayuda.
En Vista previa de datos, haz clic en el icono mostrar más para el campo de datos que deseas refinar y selecciona "Reformatear datos".
Haz clic en "Agregar paso" y luego selecciona lo que te gustaría hacer con los datos. Puedes seguir trabajando con los datos agregando más pasos hasta que los datos cumplan con tus requisitos.
- Reemplazar: reemplaza las cadenas específicas en los datos extraídos con las nuevas cadenas que desees.
- Reemplazar con expresión regular: usa una expresión regular específica para reemplazar las cadenas coincidentes en los datos extraídos con las cadenas que desees.
- Coincidir con expresión regular: usa una expresión regular específica para seleccionar la (s) cadena (s) coincidente (s) de los datos extraídos.
- Recortar espacios: elimina los espacios no deseados del inicio o / o del final de los datos extraídos.
- Agregar un prefijo: agrega una cadena / cadena al principio de los datos extraídos.
- Agregar un sufijo: agrega una cadena / cadena al final de los datos extraídos.
- Reformatear la fecha / hora extraída: cambia la fecha / hora extraída a uno de los 14 formatos integrados, o a tu propio formato personalizado.
- Reformatear timestamp: la marca de tiempo es una cadena o mensaje codificado que se utiliza para identificar una fecha y hora registradas. Puedes utilizar la conversión de marca de tiempo para convertir una cadena al formato de hora correcto.
- HTML: convierte automáticamente algunas etiquetas HTML específicas en texto sin formato. Por ejemplo, transcodifica "& gt" a ">" y "& nbsp" a un espacio.
Tips: ¿Para obtener más información sobre cómo reformatear los datos y la herramienta RegEx con Octoparse? ¡Comprueba aquí! |
Capturar código HTML
Cuando se utiliza la detección automática para capturar cualquier dato de una página web, Octoparse extrae automáticamente el texto y la URL de los elementos. Sin embargo, puedes personalizar manualmente el campo de datos y decirle a Octoparse que extraiga cualquier código HTML en su lugar.
En Vista previa de datos, haz clic en el icono mostrar más y selecciona "Personalizar campo", luego elige cómo te gustaría capturar los datos seleccionados.
Extraer datos a nivel de página y fecha & hora
Octoparse ofrece una serie de campos de datos predefinidos que puedes utilizar para capturar datos a nivel de página, fecha & hora actuales o cualquier valor fijo convenientemente.
- Fecha y hora actual: la fecha y hora en que se extraen los datos de la página web.
- Datos a nivel de página: página URL, página título, meta palabras clave, meta descripción, y código fuente HTML
- Valor fijo: cualquier valor fijo que definas
Haz clic en el signo + en la esquina superior derecha de la Vista previa de datos. Selecciona los campos de datos predefinidos que te gustaría agregar al conjunto de datos.
A estas alturas, ya hemos pasado por todos los pasos sobre la creación y el perfeccionamiento del flujo de trabajo, ¡es hora de comenzar una ejecución de prueba! >> Lección 4: Prueba y Ejecuta la tarea
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.