Si eres totalmente nuevo en la expresión regular, entonces este tutorial podría ayudarte, con él puede capturar datos con precisión y operarlos y usarlos tan rápido como un experto.
1. Recoja la información que necesita de una cadena de texto (Coincidencia con expresión regular)
Si desea que los datos comiencen/terminen con una cadena fija, sería especialmente fácil recogerlos con la herramienta Octoparse RegEx. A continuación se presentan dos de los casos de uso más comunes.
- Recoge URLs de HTML
Como sabes, la mayoría de las URL se ven muy similares. Una URL típica podría tener el formulario compartido, es decir, comienza con "https" y termina con ".com" o ".html". Y a veces puede encontrar que las URL que desea no tienen un formulario compartido, sino que son seguidas por la misma cadena.
Paso 1. Identifique el patrón de las URL que desea
Según el código fuente, aunque todas las URL comienzan con "https", no tienen el mismo final. Afortunadamente, les sigue el mismo atributo "hreflang", que podría usarse como la cadena final compartida.
Paso 2. Completa los parámetros según el patrón que hayas encontrado
- Recoge la información "oculta" de HTML
Puede usar la misma manera para obtener los datos "ocultos detrás" de HTML, como la calificación de estrellas. Cuando extrae el HTML de un elemento en la página, obtendrá el marcado HTML contenido dentro del elemento. Calcule la forma compartida de los datos que desea, y luego puede pedirle a Octoparse RegEx Tool que haga el trabajo más duro (escriba la expresión regular correcta)
¡Consejos! Para saber más sobre la extracción de HTML, consulte Extraer datos del código fuente |
2. Eliminar la información no deseada de un texto extenso (Reemplazar con expresión regular)
- Eliminar espacios no deseados
En la mayoría de los casos, puede simplemente sentarse y dejar el trabajo de escritura a Octoparse RegEx Tool. Pero a veces será más fácil y rápido rellenando directamente los caracteres abreviados. A continuación se muestran algunos de los caracteres más utilizados en Octoparse.
Personaje |
Significado |
\s |
Coincide con un solo carácter de espacio en blanco, incluido espacio, tabulación, avance de formulario, avance de línea y otros espacios Unicode. |
\S |
Coincide con un solo carácter que no sea el espacio en blanco. |
\t |
Coincide con una pestaña horizontal. |
\n |
Coincide con un salto de línea. |
Aquí hay un ejemplo para mostrar cómo eliminar los espacios no deseados con "\ s".
¡Consejos! Para obtener más información sobre Expresión regular, consulte la referencia de JavaRegExpCScript |
Artículos relacionados:
- Utilice expresiones regulares en Octoparse
- Formatear datos extraídos
- Extraer datos del código fuente
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.