Octoparse scrapea datos con XPath, pero los datos pueden cambiar de ubicación dentro de una página web. Para abordar esto, te mostraremos cómo puedes extraer datos con mayor precisión al asociarlos con un texto cercano.
Primero, veamos un ejemplo de cuándo esta técnica puede ser útil.
En la imagen de ejemplo anterior, el valor de "Brand" se encuentra junto a las palabras "Brand". Del mismo modo, el valor de "Item Weight" siempre se encontrará junto a las palabras "Item Weight". El mismo patrón debería aplicarse al resto de la lista.
Si bien "Item Weight" puede cambiar de lugar de la tercera fila a la cuarta fila de la lista, su valor asociado siempre debe estar al lado. Por lo tanto, una forma más consistente de encontrar y capturar los valores asociados de cualquier elemento es buscar primero dónde están las palabras y luego ubicar los datos junto a ellas. En este ejemplo, en lugar de intentar encontrar el valor "10 pounds" directamente en la página, podemos capturarlo con mayor precisión cuando lo relacionamos con el texto de "Item Weight".
Sigue los pasos a continuación para ver cómo se hace:


- Ahora, abre la página en Chrome, haz clic derecho para inspeccionar los datos de destino
- Observa que las palabras reales de "Item Weight" se pueden encontrar dentro de la etiqueta <th> mientras que su valor asociado se encuentra dentro de la etiqueta <td> justo debajo de ella.
- Una vez que vemos el patrón, podemos escribir un XPath para buscar el valor de "Item Weight" relativo al lugar donde realmente encontraremos las palabras: "//th[contains(text(),'Item Weight')]/following-sibling::td[1]"- Esta expresión XPath le dice al programa que busque la etiqueta <th> que contiene el texto de" Item Weight "y luego busque la primera etiqueta <td> ubicada justo debajo de ella. Y esto nos dará exactamente lo que queremos, el valor asociado de "Item Weight".
- Ingresa el nuevo XPath en el cuadro de texto "Matching XPath", haz clic en "Aceptar" para guardar la configuración.
Tips! Following-sibling se utiliza con mucha frecuencia para encontrar un elemento ubicado junto a otro elemento designado. Learn more about XPATH |
Si tienes algún problema en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.