Durante su proyecto de web scraping, algunos datos podrían no tener el formato que quiera. En este caso, Octoparse ofrece 8 opciones de reformateo de datos para que pueda procesar o arreglar a los datos extraídos en el formato correcto.
Para acceder a estas funciones en Octoparse, el proceso se puede dividir en 5 pasos principales:
1. Seleccione el campo de datos para formatear
2. Haga clic en para personalizar el campo de datos
3. Seleccione "Refinar datos extraídos"
4. Clic "Add step"
5. Seleccione una operación para volver a formatear los datos
Antes de presentar 8 opciones de formateo, nos gustaría hablar primero sobre el término "cadena"(string).
En programación, una cadena se refiere básicamente a una colección de caracteres como letras, números, símbolos y signos de puntuación. Por ejemplo, "" (space) es una cadena; "Octoparse" es una cadena; y "Hello 2 *% World!" También es una cadena. Una cadena no puede contener ningún carácter también. En otras palabras, una cadena que no contiene caracteres está vacía. Si reemplaza una palabra con una cadena vacía, coloquialmente, es igual a decir que elimina la palabra.
Vería la palabra "cadena" muchas instrucciones de función de las opciones de reformateo de datos de Octoparse. Si ve la palabra "cadena" allí, solo sabe que puede usar las opciones correspondientes para manejar una variedad de tipos de caracteres en los datos extraídos, como letras, palabras, oraciones, números, espacios, símbolos y signos de puntuación.
2. Reemplazar con expresión regular
3. Emparejar con expresión regular
7. Reformatear datos / tiempo extraídos
1. Reemplazar
Función: Reemplace string/s específicas en los datos extraídos con new string/s que desee.
2. Reemplazar con expresión regular
Función: Utilice una expresión regular específica para reemplazar las cadenas coincidentes en los datos extraídos con las cadenas que desee.
Puede obtener más información sobre la expresión regular en W3schools .
3. Emparejar con expresión regular
Función: Extrae string/s coincidentes de los datos extraídos utilizando una expresión regular específica.
Puede obtener más información sobre la expresión regular en W3schools .
Octoparse también ofrece la herramienta RegEx para generar automáticamente la expresión regular que necesita. Echemos un vistazo rápido a cómo usar la herramienta RegEx de Octoparse para generar y aplicar una expresión regular. Por ejemplo, aquí queremos recoger el número de estrellas del HTML externo extraído.
· Haga clic en "Try RegEx Tool"
· Ingrese los criterios de coincidencia: comience con start with " alt=" ", end with "star rating"
· Haga clic en "generate" para generar la expresión regular
· Haga clic en "Match" para recoger las cadenas coincidentes
· Haga clic en "Apply"
· Haga clic en "OK" para guardar la configuración
4. Recortar espacios
Función: Eliminar los espacios no deseados desde el inicio o / y el final de los datos extraídos.
Si desea eliminar los espacios entre los datos, puede usar Reemplazar o Reemplazar con expresión regular.
5. Agregar prefijo
Función: Agregue string/stringss delante de los datos extraídos.
6. Añadir sufijo
Función: Agregue una string/strings al final de los datos extraídos
7. Reformatear datos / tiempo extraídos
Función: Cambie la fecha / hora extraída a uno de los 14 formatos incorporados, o en su propio formato personalizado.
8. Transcodificación HTML
Función: Convierte automáticamente algunas etiquetas HTML específicas en textos sin formato. Por ejemplo, transcodifique ">" into ">" y " " en un espacio.
Artículos relacionados:
Extraer datos del código fuente
Datos del conglomerado extraídos
Aprenda más sobre la expresión regular en W3school
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.