¿Qué es XPath? ¿Cómo funciona en Octoparse?
XPath es un lenguaje que le permite localizar elementos específicos de una página. La modificación de XPath en Octoparse funciona muy bien con más flexibilidad y precisión que la XPath generada automáticamente al hacer clic en los elementos durante la configuración de la tarea.
Octoparse le permite modificar XPath para que podamos localizar con precisión los datos que vamos a extraer. Si desea obtener más información sobre XPath, aquí está el tutorial para su referencia:https://www.w3schools.com/xml/xpath_intro.asp
¿Cuándo debo usar XPath?
En la mayoría de los casos, no necesita escribir XPath por su cuenta. Pero hay algunas situaciones en las que es posible que deba realizar alguna modificación para ubicar mejor los datos en la página web.
(Estos son nuestros tutoriales avanzados. Antes de usar XPath, le sugerimos que aprenda un poco y se familiarice más con Octoparse).
- Extraer datos en una ubicación irregular
- Datos adicionales o datos faltantes
- Paginación sin botón "Siguiente"
- El botón "Siguiente" no se puede ubicar con precisión
- Menú desplegable sin bucle de conmutación
¿Dónde puedo modificar XPath en Octoparse?
Para modificar XPath en Octoparse:
Seleccione el campo de datos que necesita ser modificado, seleccione personalizar el campo de datos
Select "Customize XPath:
Ingrese el nuevo XPath en el cuadro de texto XPath correspondiente
Para pasos como "Elemento de bucle" para la paginación o el menú desplegable de cambio, puede encontrar fácilmente el cuadro de texto XPath en "Opciones avanzadas". Ingrese el nuevo XPath y haga clic en "Aceptar" para guardar sus cambios.
¿Cómo escribir XPath?
Si eres nuevo en XPath, es posible que primero necesites aprender algunos conceptos básicos de HTML. XPath localiza elementos basados en las etiquetas y atributos. Entonces, antes de comenzar a escribir su propio XPath, primero deberá inspeccionar la estructura HTML de la página.
Le sugerimos que use el complemento firebug (un complemento de Firefox). Firebug es muy útil para buscar el elemento de un documento HTML.
(Firebug ahora solo está disponible para versiones antiguas de Firebox. Get the old versions of Firebox here aquí).
Abra una página web en Firefox, haga clic en el botón Firebug y haga clic en un elemento de la página para inspeccionar. Sacará todo el XPath.
Octoparse también proporciona ayuda adicional con la generación XPath tool : la herramienta XPath. Utiliza la herramienta XPath de Octoparse para generar fácilmente una sintaxis XPath funcional configurando los criterios adecuados. Puede encontrar fácilmente la herramienta XPath en el cuadro "Herramientas".
Expresiones XPath comunes utilizadas en Octoparse
En este tutorial, veremos algunos conceptos básicos y XPath comunes utilizados en Octoparse.
Expresión |
El significado |
. |
Selecciona el nodo actual |
//* |
Seleccionar todos los elementos |
.// |
Selecciona elementos a partir del nodo actual |
@ |
Selecciona atributos |
.//div |
elecciona todos los elementos <div> uno o más niveles en el contexto actual |
//li[a] |
Selecciona los elementos <li> que encierran un elemento <a> |
//li[a or h2] |
Selecciona los elementos li que encierran un elemento <a> o <h2> |
.//div[@class='publish-time'] |
Selecciona solo los elementos <div> que tienen un atributo de clase que es "publish-time" |
.//*[text()='Next'] |
Selecciona todo el texto que es "Next" |
//a[contains(text(), ‘Next’)] |
Selecciona los elementos <a> que contienen el texto "Next" |
.//*[contains(@class, 'name')] |
Selecciona todos los atributos de <class> que contienen la cadena "name" |
following-sibling |
Selecciona todos los hermanos después del nodo actual |
//h1/following-sibling::p[1] |
Seleccione el primer elemento <p> después de <h1> |
XPath es muy poderoso y este tutorial es solo una introducción a los conceptos básicos.
Si desea obtener más información al respecto, consulte estos recursos:
- https://www.w3schools.com/xml/xpath_intro.asp
- https://msdn.microsoft.com/en-us/library/ms256086(v=vs.110).aspx
- https://en.wikipedia.org/wiki/XPath
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.