Todas las colecciones
Herramientas Avanzadas
XPath & Expresión regular
¿Cómo excluir elementos de "Anuncios" en el bucle con Xpath?
¿Cómo excluir elementos de "Anuncios" en el bucle con Xpath?
Actualizado hace más de una semana

Cuando crea una lista de elementos para scrape un sitio web, a veces la lista puede incluir varios elementos de "Anuncios" (Example URL).

¿Qué debe hacer si solo desea scrape los elementos que no son anuncios?

Solo necesita modify the XPath

del "Elemento de bucle" para que solo ubique los elementos que no son anuncios.

Si verificamos el código fuente de los elementos en el ejemplo anterior con firebug (una extensión de FireFox), verá la diferencia entre los elementos publicitarios y los no publicitarios.

Aparentemente, el atributo de clase es diferente. Entonces podemos utilizar esta diferencia para escribir XPath: //li[@class='regular-search-result']

Ingrese el XPath en Octoparse, verá que se excluyen los anuncios.

¡Consejos!

Si eres nuevo en XPath, es posible que primero necesites aprender algunos conceptos básicos de HTML y XPath. Aquí hay algunos tutoriales para su referencia: HTML basic | XPath tutorial

¿Ha quedado contestada tu pregunta?