Todas las colecciones
Octoparse 101
Lección 3: Refina tus datos
Lección 3: Refina tus datos
Actualizado hace más de una semana

Cuando trabaja con datos, la segunda cosa más importante después de extraer datos es limpiarlos. En esta lección, lo guiaremos a través de algunos consejos prácticos sobre cómo puede refinar su conjunto de datos después de extraer los datos.


¡Vamos al grano ahora!

Renombrar/mover/duplicar/eliminar un campo

Tan pronto como haya extraído y mostrado los datos en Data Preview, ahora puede mirar a través del conjunto de datos y comenzar a organizar sus datos. Algunas cosas típicas que puede hacer para refinar su conjunto de datos incluyen cambiar el nombre de los campos, reordenar las columnas, duplicar los campos de datos y eliminar los campos que no son necesarios para su proyecto.

Para cambiar el nombre de un campo, haga clic en el ícono del lápiz junto al nombre del campo, luego escriba el nuevo nombre directamente. Tenga en cuenta que solo debe usar números, letras y "_" para los nombres de campo.

renombrar.gif

Para mover un campo, coloque el cursor al frente del campo y cuando aparezca, arrastre y suelte el campo en el lugar correcto.

mover.gif

Para duplicar un campo, haga clic en el icono Mostrar más y seleccione "Copiar". El campo seleccionado se duplicará automáticamente.

Para eliminar un campo, haga clic en el icono Mostrar más y seleccione "Delete"

eliminar.png

¡Consejos!

  • También puede cambiar el nombre/mover/duplicar/eliminar cualquier campo de datos yendo a "Action Settings" para la acción "Extraer Datos" del flujo de trabajo.

  • Si tiene más campos para eliminar, también puede eliminar por lotes los campos. Haga clic en el icono "Action settings" para la acción "Extract Date". En el Panel de configuración, haga clic en el icono "Eliminar campos por lotes", seleccione los campos que desea eliminar y luego haga clic en el botón "Eliminar".

Datos limpios

Octoparse ofrece muchas formas diferentes de limpiar sus datos. Por ejemplo, puede reemplazar una cadena de texto, recortar espacios adicionales, agregar un prefijo/sufijo, reemplazar una cadena con RegEx, formatear fecha/hora y más. Puede limpiar cualquier campo de datos individual de una o más formas hasta que los datos cumplan con sus requisitos. Algunos de estos pueden requerir que trate con Expresión regular con la que puede usar la herramienta Octoparse RegEx para obtener ayuda.

En Vista previa de datos, haga clic con el botón derecho en el show more icon para el campo de datos que desea limpiar, seleccione "Clean data".

limpiar.png

Haga clic en "Agregar paso" y luego seleccione lo que desea hacer con los datos. Puede seguir trabajando con los datos agregando más pasos hasta que los datos cumplan con sus requisitos.

a_adir_pasos.png
  • Reemplazar: reemplace las cadenas específicas en los datos extraídos con las nuevas cadenas que desee.

  • Reemplazar con Regular Expression: utilice una expresión regular específica para reemplazar las cadenas coincidentes en los datos extraídos con las cadenas que desee.

  • Coincidir con la Expresión Regular: use una expresión regular específica para recoger las cadenas coincidentes de los datos extraídos.

  • Recortar espacio: Elimine los espacios no deseados del inicio o del final de los datos extraídos.

  • Agregue un prefijo: agregue una cadena/cadenas al frente de los datos extraídos.

  • Agregue un sufijo: agregue una cadena/cadenas al final de los datos extraídos.

  • Reformatear fecha/hora extraída: cambie la fecha/hora extraída a uno de los 14 formatos incorporados, oa su propio formato personalizado.
    HTML: convierte automáticamente algunas etiquetas HTML específicas en textos sin formato. Por ejemplo, transcodifique "&gt" en ">" y "&nbsp" en un espacio.

Consejos:

Para obtener más información sobre el formateo de datos y la herramienta RegEx con Octoparse? ¡Chequea aquí!

Capturar código HTML

Cuando se utiliza la detección automática para capturar cualquier dato de una página web, Octoparse extrae automáticamente el texto y la URL de los elementos que ha seleccionado. Puede personalizar el campo de datos y decirle a Octoparse que extraiga cualquier código HTML.

En Vista previa de datos, haga clic con el botón derecho en el icono Show More y seleccione "Customize field".

personalizar.png

Desde el panel de configuración "Customize field", seleccione lo que desea extraer..

Extraer datos a nivel de página y fecha & hora

Octoparse ofrece una serie de campos de datos predefinidos que puede usar para capturar page-level datos, fecha & hora actual, o cualquier valor fijo convenientemente.

  • Fecha & hora actual: la fecha y hora en que se extraen los datos de la página web

  • Page-level datos: URL de la página, título de la página, meta palabra clave, meta descripción y código fuente HTML

  • Valor fijo: cualquier valor fijo que defina


Haga clic en el signo + en la esquina superior derecha de Data Preview. Seleccione los campos de datos predefinidos que desee agregar al conjunto de datos.

capturar_m_s_datos.png

Hasta ahora, hemos seguido todos los pasos para construir y refinar el flujo de trabajo, es hora de comenzar una ejecución de prueba! >>

Lección 4: Prueba-ejecuta la tarea

¿Ha quedado contestada tu pregunta?