Todas las colecciones
Cursos Integrados de Octoparse
Personalizar los campos de datos
Refinar los datos extraídos (reemplazar el contenido, agregar un prefijo, ..)
Refinar los datos extraídos (reemplazar el contenido, agregar un prefijo, ..)
Actualizado hace más de una semana

Durante tu proyecto de raspado web, es posible que quieras limpiar los campos de datos mientras realizas el raspado web. Octoparse ofrece 8 opciones de limpieza de datos para convertir los datos extraídos en el formato que necesitas.

¿Cuándo debo refinar los datos extraídos?

Cuando tengas el formato de datos deseado para un determinado campo, puedes usar nuestra función "Reformatear datos" para refinar el campo dentro de Octoparse. Octoparse lo rasparía y refinaría directamente durante el proceso de raspado. No es necesario volver a formatear el campo después de exportar los datos a un archivo de Excel.

¿Cómo refinar los datos extraídos en Octoparse?

Para acceder a estas funciones en Octoparse, el proceso se puede dividir en 4 pasos principales:

1. Selecciona el campo de datos para refinar

2. Haz clic en el icono "..." y selecciona "Limpiar datos".

3. Haz clic en "Agregar paso".

4. Selecciona una operación para volver a formatear tus datos.

reformateo_de_datos.png

Nota:

En programación, una "cadena" se refiere básicamente a una colección de caracteres como letras, números, símbolos y signos de puntuación. Por ejemplo, "" (espacio) es una cadena; "Octoparse" es una cadena; y "¡Hello 2 *% World!" también es una cadena. Una cadena tampoco puede constar de ningún carácter. En otras palabras, una cadena que no contiene ningún carácter está vacía. Si reemplazas una palabra con una cadena vacía, coloquialmente, es igual a decir que elimina la palabra.

Verías la palabra "cadena" en muchas instrucciones de función de las opciones de reformateo de datos de Octoparse. Si ve la palabra "cadena" allí, significa que puede usar las opciones correspondientes para tratar con una variedad de tipos de caracteres en los datos extraídos, como letras, palabras, oraciones, números, espacios, símbolos y signos de puntuación.

9 opciones de reformateo de datos

1. Reemplazar

Función: Reemplazar las cadenas específicas en los datos extraídos con las nuevas cadenas que quieras.

reemplazar.png

2. Reemplazar con expresión regular

Función: Usar una expresión regular específica para reemplazar las cadenas coincidentes en los datos extraídos con las cadenas que quieras.

Puedes obtener más información sobre la expresión regular en W3schools

.

mceclip0.png

3. Coincidir con expresión regular

Función: Utilizar una expresión regular específica para recoger las cadenas coincidentes de los datos extraídos.

Puedes obtener más información sobre la expresión regular en W3schools

.

mceclip1.png

4. Recortar espacios

Función: Eliminar los espacios no deseados del inicio o del final de los datos extraídos.

Si quieres eliminar los espacios en medio de los datos, puede usar Reemplazar o Reemplazar con expresión regular.

mceclip2.png

5. Agregar un prefijo

Función: Agregar una cadena o cadenas al principio de los datos extraídos.

mceclip3.png

6. Agregar sufijo

Función: Agregar una cadena/cadenas al final de los datos extraídos.

mceclip4.png

7. Reformatear fecha/hora extraídas

Función: Cambiar la fecha / hora extraída a uno de los 14 formatos integrados, o a su propio formato personalizado.

mceclip5.png

8. Conversión de Timestamp

Función: Cambia el timestamp Unix a tu propio formato personalizado.

El timestamp Unix es una secuencia de números que representa una fecha y hora específicas. Esta función convertirá la hora Unix a un formato que podamos entender fácilmente.

mceclip6.png

9. Transcodificar HTML

Función: Convertir automáticamente algunas etiquetas HTML específicas en texto sin formato. Por ejemplo, transcodifica "& gt" a ">" y "& nbsp" a un espacio.

Tips!

All the steps added can be edited and deleted here by clicking the

icons.

pasos_de_reformateo_de_datos.png

Octoparse Herramienta Regex

Octoparse también ofrece Herramienta de RegEx para generar automáticamente la expresión regular que necesita. Echemos un vistazo rápido a cómo usar Herramienta de RegEx de Octoparse para generar y aplicar una expresión regular. Por ejemplo, aquí queremos recoger el número de estrellas del HTML externo extraído.

· Haz clic en "Probar Herramienta de RegEx".

· Ingresa los criterios de coincidencia: comience con "<b>", termine con "</b> de"

· Haz clic en "generar" para generar una expresión regular

· Haz clic en "Coincidir" para seleccionar las cadenas coincidentes

· Haz clic en "Aplicar"

· Haz clic en "Confirmar" para guardar la configuración

RegEx.gif

Haz clic aquí para obtener más información sobre el uso de la herramienta Regex.

¿Ha quedado contestada tu pregunta?