Pregunta:
¿Por qué recibo errores al extraer de la página de lista? El error decía "Falta un campo de datos. Código de estado HTTP 200".
Responder:
Al scrape desde la página de la lista, los errores generalmente son causados por el elemento de bucle que localiza algunos elementos no deseados que no contienen el campo de datos que necesita.
Tome esta URL como ejemplo:
Después de crear un elemento de bucle para scrape la información del trabajo en la página web, encontrará que hay elementos diferentes de esos elementos del trabajo.
Debe haber solo 25 elementos de trabajo en la página, pero el elemento de bucle localiza 33 elementos, lo que significa que se encuentran algunos elementos no deseados.
Los elementos de trabajo normales son así:
Pero en el bucle, hay algunos elementos (bloque de trabajos destacados) como este:
Cuando Octoparse scrape "trabajos destacados", no pudo encontrar la información correcta, por lo que da los errores para notificar a los usuarios que pueden tener algún problema con los elementos.
¿Cómo podemos resolver este error?
Es fácil resolverlo, solo modificando el XPath para asegurarse de que solo los elementos de trabajo deseados se encuentren en el bucle.
En este caso, si inspeccionamos el código HTML de los elementos del trabajo, encontrará que todos están en las etiquetas div de las cuales la identificación contiene "jobsearchresult"
Entonces podemos modificar el XPath into //div[contains(@id,'jobsearchresult')].
Después de guardar el nuevo XPath, verá que el número de elementos se convierte en 25, que es el número correcto.
¡Consejos!
Si desea obtener más información sobre XPath y cómo generarlo, aquí hay algunos
tutoriales relacionados que pueda necesitar : Localizar elemenos con XPath Video: Octoparse: XPath 101
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.