Pregunta:
¿Por qué recibo errores al extraer de la página de lista? El error decía "Falta un campo de datos. Código de estado HTTP 200".
Responder:
Al scrape desde la página de la lista, los errores generalmente son causados por “loop item” que localiza algunos elementos no deseados que no contienen el campo de datos que necesita.
Tome esta URL como ejemplo:
Después de crear un elemento de bucle para scrape la información del trabajo en la página web, encontrará que hay elementos diferentes de esos elementos del trabajo.
Debe haber solo 25 elementos de trabajo en la página, pero el elemento de bucle localiza 33 elementos, lo que significa que se encuentran algunos elementos no deseados.
Los elementos de trabajo normales son así:
Pero en el bucle, hay algunos elementos (Featured jobs block) como este:
Cuando Octoparse scrape los trabajos destacados, no puede encontrar la información correcta, por lo que da errores para notificar a los usuarios que puede haber algún problema con los elementos.
¿Cómo podemos resolver este error?
Es fácil de resolver, solo modificando el XPath para asegurarse de que solo los elementos de trabajo deseados se encuentren en el bucle.
En este caso, si inspeccionamos el código HTML de los proyecto del trabajo, encontrará que todos están en las etiquetas div de las cuales la identificación contiene "jobsearchresult".
Entonces podemos modificar el XPath como //div[contains(@id,'jobsearchresult')].
Después de guardar el nuevo XPath, verá que el número de elementos se convierte en 25, que es el número correcto.
¡Consejos!
Si desea obtener más información sobre XPath y cómo generarlo, aquí hay algunos
tutoriales relacionados que pueda necesitar:Localizar elementos con XPath
Video:Octoparse: XPath 101
De: http://www.octoparse.es/tutorial-7/por-que-recibo-errores-al-extraer-de-la-pagina-de-lista
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.