Pregunta:
¿Por qué mi tarea obtiene tantos duplicados?
Responder:
Hay principalmente dos razones para este problema.
1) Paginación XPath no siempre localiza el botón de la página siguiente.
En muchos casos, Octoparse es posible que vuelva a las páginas anteriores y volver a scrape las mismas páginas o sigue scraping la última página y nunca se detiene.
Solución: modifique el XPath de la paginación para asegurarse de que ubique el botón de la página siguiente con precisión.
En cuanto a cómo modificar el XPath, puede consultar los tutoriales relacionados a continuación:
¿Por qué Octoparse se salta algunas páginas?
¿Por qué Octoparse sigue scraping la última página y nunca se detiene?
2) El AJAX timeout para la acción de hacer clic en la paginación es demasiado corto.
Para las páginas con carga AJAX, si el tiempo de espera AJAX no es lo suficientemente largo para que la página se cargue, Octoparse puede volver a raspar la página actual.
Solución: Extienda el tiempo de espera de AJAX para que se cargue la página lo suficiente.
3) La acción “Extract Data" no está asociada con la acción Loop Item action.
Al extraer de un elemento de bucle, Octoparse es posible que siga scraping el primer elemento y duplicarlo. Esto se debe a que Octoparse no raspa del elemento de bucle sino directamente de la página.
Solución: Compruebe cómo resolver este problema
¿Por qué Octoparse solo extrae el primer elemento y lo duplica?
De: http://www.octoparse.es/tutorial-7/por-que-mi-tarea-extrae-tantos-duplicados
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.