Durante tu proyecto de raspado web, es posible que quieras limpiar los campos de datos mientras realizas el raspado web. Octoparse ofrece 8 opciones de limpieza de datos para convertir los datos extraídos en el formato que necesitas.
¿Cuándo debo refinar los datos extraídos?
Cuando tengas el formato de datos deseado para un determinado campo, puedes usar nuestra función "Limpiar datos" para refinar el campo dentro de Octoparse. Octoparse lo rasparía y refinaría directamente durante el proceso de raspado. No es necesario volver a formatear el campo después de exportar los datos a un archivo de Excel.
¿Cómo refinar los datos extraídos en Octoparse?
Para acceder a estas funciones en Octoparse, el proceso se puede dividir en 4 pasos principales:
1. Selecciona el campo de datos para refinar
2. Haz clic en el icono "..." para personalizar el campo de datos. Luego selecciona "Limpiar datos".
3. Haz clic en "Agregar paso"
4. Selecciona una operación para reformatear tus datos
Tips! En programación, una "cadena" se refiere básicamente a una colección de caracteres como letras, números, símbolos y signos de puntuación. Por ejemplo, "" (espacio) es una cadena; "Octoparse" es una cadena; y "¡Hello 2 *% World!" también es una cadena. Una cadena tampoco puede constar de ningún carácter. En otras palabras, una cadena que no contiene ningún carácter está vacía. Si reemplazas una palabra con una cadena vacía, coloquialmente, es igual a decir que elimina la palabra. Verías la palabra "cadena" en muchas instrucciones de función de las opciones de reformateo de datos de Octoparse. Si ve la palabra "cadena" allí, significa que puede usar las opciones correspondientes para tratar con una variedad de tipos de caracteres en los datos extraídos, como letras, palabras, oraciones, números, espacios, símbolos y signos de puntuación. |
8 opciones de reformateo de datos
2. Reemplazar con expresión regular
3. Coincidir con expresión regular
7. Reformatear fecha/hora extraídas
1. Reemplazar
Función: Reemplazar las cadenas específicas en los datos extraídos con las nuevas cadenas que quieras.
2. Reemplazar con expresión regular
Función: Usar una expresión regular específica para reemplazar las cadenas coincidentes en los datos extraídos con las cadenas que quieras.
Puedes obtener más información sobre la expresión regular en W3schools .
3. Coincidir con expresión regular
Función: Utilizar una expresión regular específica para recoger las cadenas coincidentes de los datos extraídos.
Puedes obtener más información sobre la expresión regular en W3schools .
4. Recortar espacios
Función: Eliminar los espacios no deseados del inicio o del final de los datos extraídos.
Si quieres eliminar los espacios en medio de los datos, puede usar Reemplazar o Reemplazar con expresión regular.
5. Agregar un prefijo
Función: Agregar una cadena o cadenas al principio de los datos extraídos.
6. Agregar sufijo
Función: Agregar una cadena/cadenas al final de los datos extraídos.
7. Reformatear fecha/hora extraídas
Función: Cambiar la fecha / hora extraída a uno de los 14 formatos integrados, o a su propio formato personalizado.
8. Transcodificar HTML
Función: Convertir automáticamente algunas etiquetas HTML específicas en texto sin formato. Por ejemplo, transcodifique "& gt" a ">" y "& nbsp" a un espacio.
Herramienta de Regex de Octoparse
Octoparse también ofrece Herramienta de RegEx para generar automáticamente la expresión regular que necesita. Echemos un vistazo rápido a cómo usar Herramienta de RegEx de Octoparse para generar y aplicar una expresión regular. Por ejemplo, aquí queremos recoger el número de estrellas del HTML externo extraído.
· Haz clic en "Probar Herramienta de RegEx".
· Ingresa los criterios de coincidencia: comience con "<b>", termine con "</b> de"
· Haz clic en "generar" para producir una expresión regular
· Haz clic en "Coincidir" para seleccionar las cadenas coincidentes
· Haz clic en "Aplicar"
· Haz clic en "Aceptar" para guardar la configuración
Haz clic aquí para obtener más información sobre el uso de la herramienta Regex.
Si tienes algún problema en configurar su tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.