Octoparse scrapea datos con XPath, pero los datos pueden cambiar de ubicación dentro de una página web. Para abordar esto, te mostraremos cómo puedes extraer datos con mayor precisión al asociarlos con un texto cercano.
Primero, veamos un ejemplo de cuándo esta técnica puede ser útil.
En la imagen de ejemplo anterior, el valor de "Pantalla" se encuentra junto a las palabras "Pantalla". Del mismo modo, el valor de "Cámara y vídeo" siempre se encontrará junto a las palabras "Cámara y vídeo". El mismo patrón debería aplicarse al resto de la lista.
Si bien "Cámara y vídeo" puede cambiar de lugar de la cuarta fila a la quinta fila de la lista, su valor asociado siempre debe estar al lado. Por lo tanto, una forma más consistente de encontrar y capturar los valores asociados de cualquier elemento es buscar primero dónde están las palabras y luego ubicar los datos junto a ellas. En este ejemplo, en lugar de intentar encontrar el valor "Cámara dual de 12 Mpx con modo de retrato, control de profundidad, iluminación de retrato, HDR Inteligente 4 y video 4K Dolby Vision HDR de hasta 60 fps" directamente en la página, podemos capturarlo con mayor precisión cuando lo relacionamos con el texto de "Cámara y vídeo".
Sigue los pasos a continuación para ver cómo se hace:

- Ahora, abre la página en Chrome, haz clic derecho para inspeccionar los datos de destino
- Observa que las palabras reales de "Cámara y vídeo" se pueden encontrar dentro de la etiqueta <td> mientras que su valor asociado se encuentra dentro de la etiqueta <td> justo debajo de ella.
- Una vez que vemos el patrón, podemos escribir un XPath para buscar el valor de "Cámara y vídeo" relativo al lugar donde realmente encontraremos las palabras: "//strong[contains(text(),"Cámara y vídeo")]/../../following-sibling::td[1]"- Esta expresión XPath le dice al programa que busque primero la etiqueta <strong> que contiene el texto de "Cámara y vídeo", vuelva a la etiqueta <td> y luego busque la primera etiqueta <td> ubicada justo debajo de ella. Y esto nos dará exactamente lo que queremos, el valor asociado de "Cámara y vídeo".
- Ingresa el nuevo XPath en el cuadro de texto y haz clic en "Guardar" para guardar la configuración.
Tips! Following-sibling se utiliza con mucha frecuencia para encontrar un elemento ubicado junto a otro elemento designado. Para más información sobre XPath, consulta este tutorial: XPATH |
Si tienes algún problema en configurar tu tarea, no dudes en enviar un ticket a nuestro equipo de Soporte.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.