¡Vamos al grano ahora!
Renombrar/mover/duplicar/eliminar un campo
Tan pronto como haya extraído y mostrado los datos en Data Preview, ahora puede mirar a través del conjunto de datos y comenzar a organizar sus datos. Algunas cosas típicas que puede hacer para refinar su conjunto de datos incluyen cambiar el nombre de los campos, reordenar las columnas, duplicar los campos de datos y eliminar los campos que no son necesarios para su proyecto.
Para cambiar el nombre de un campo, haga clic en el ícono del lápiz junto al nombre del campo, luego escriba el nuevo nombre directamente. Tenga en cuenta que solo debe usar números, letras y "_" para los nombres de campo.
Para mover un campo, coloque el cursor al frente del campo y cuando aparezca, arrastre y suelte el campo en el lugar correcto.
Para duplicar un campo, haga clic en el icono Mostrar más y seleccione "Copiar". El campo seleccionado se duplicará automáticamente.
Para eliminar un campo, haga clic en el icono Mostrar más y seleccione "Delete"
¡Consejos!
|
Datos limpios
Octoparse ofrece muchas formas diferentes de limpiar sus datos. Por ejemplo, puede reemplazar una cadena de texto, recortar espacios adicionales, agregar un prefijo/sufijo, reemplazar una cadena con RegEx, formatear fecha/hora y más. Puede limpiar cualquier campo de datos individual de una o más formas hasta que los datos cumplan con sus requisitos. Algunos de estos pueden requerir que trate con Expresión regular con la que puede usar la herramienta Octoparse RegEx para obtener ayuda.
En Vista previa de datos, haga clic con el botón derecho en el show more icon para el campo de datos que desea limpiar, seleccione "Clean data".
Haga clic en "Agregar paso" y luego seleccione lo que desea hacer con los datos. Puede seguir trabajando con los datos agregando más pasos hasta que los datos cumplan con sus requisitos.
- Reemplazar: reemplace las cadenas específicas en los datos extraídos con las nuevas cadenas que desee.
- Reemplazar con Regular Expression: utilice una expresión regular específica para reemplazar las cadenas coincidentes en los datos extraídos con las cadenas que desee.
- Coincidir con la Expresión Regular: use una expresión regular específica para recoger las cadenas coincidentes de los datos extraídos.
- Recortar espacio: Elimine los espacios no deseados del inicio o del final de los datos extraídos.
- Agregue un prefijo: agregue una cadena/cadenas al frente de los datos extraídos.
- Agregue un sufijo: agregue una cadena/cadenas al final de los datos extraídos.
- Reformatear fecha/hora extraída: cambie la fecha/hora extraída a uno de los 14 formatos incorporados, oa su propio formato personalizado.
HTML: convierte automáticamente algunas etiquetas HTML específicas en textos sin formato. Por ejemplo, transcodifique ">" en ">" y " " en un espacio.
Consejos: Para obtener más información sobre el formateo de datos y la herramienta RegEx con Octoparse? ¡Chequea aquí! |
Capturar código HTML
Cuando se utiliza la detección automática para capturar cualquier dato de una página web, Octoparse extrae automáticamente el texto y la URL de los elementos que ha seleccionado. Puede personalizar el campo de datos y decirle a Octoparse que extraiga cualquier código HTML.
En Vista previa de datos, haga clic con el botón derecho en el icono Show More y seleccione "Customize field".
Desde el panel de configuración "Customize field", seleccione lo que desea extraer..
Extraer datos a nivel de página y fecha & hora
Octoparse ofrece una serie de campos de datos predefinidos que puede usar para capturar page-level datos, fecha & hora actual, o cualquier valor fijo convenientemente.
- Fecha & hora actual: la fecha y hora en que se extraen los datos de la página web
- Page-level datos: URL de la página, título de la página, meta palabra clave, meta descripción y código fuente HTML
- Valor fijo: cualquier valor fijo que defina
Haga clic en el signo + en la esquina superior derecha de Data Preview. Seleccione los campos de datos predefinidos que desee agregar al conjunto de datos.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.