Todas las colecciones
FAQ
¿Por qué se extrae tantos datos duplicados?
¿Por qué se extrae tantos datos duplicados?
Actualizado hace más de una semana

Los duplicados en Octoparse significan las líneas de datos que son iguales en todos los campos. Puedes eliminar los duplicados al exportar los datos si solo hay algunos duplicados.

Pero si solo obtienes una pequeña cantidad de líneas de datos válidas con muchos duplicados, eso podría ser realmente frustrante. En este tutorial de preguntas frecuentes, te ayudaremos a resolver el problema de los duplicados.

Error 1: Al raspar varias páginas, Octoparse regresa a las páginas previamente raspadas o sigue raspando la última página.

Es posible que la paginación XPath generada automáticamente no siempre funcione bien. Si encuentras que Octoparse duplica varias páginas una y otra vez, deberías realizar algunos ajustes.

Solución: Modificar el XPath de la paginación para asegurarse de que ubique el botón de la página siguiente con precisión.

  • Haz clic en "Paginación" para abrir la configuración de la paginación

  • Ingresa el nuevo XPath y haz clic en Aceptar para guardar

mceclip0.png

Nota:

Aprende cómo escribir un XPath en Qué es XPath y cómo usarlo en Octoparse

Error 2: Cuando se raspan varias páginas, el tiempo de espera de AJAX para la paginación es demasiado corto para cargar la página siguiente y Octoparse sigue raspando los datos de la página actual.

Para las páginas que se cargan con AJAX, una vez que el tiempo de espera no se establece suficientemente, no se puede cargar la página siguiente, Octoparse rasparía la página actual nuevamente, lo que produciría algunos duplicados.

Solución: Extender el tiempo de espera de AJAX para que sea lo suficientemente largo como para que se cargue la página.

  • Haz clic en "Hacer clic para paginar" para abrir la configuración

  • Selecciona un tiempo más largo para el tiempo de espera de AJAX

Configurar_AXJA.png

Error 3: Al raspar una lista de elementos, Octoparse solo raspa la primera fila de datos repetidamente o un campo de datos es lo mismo en todas las líneas.

Al recorrer una lista de elementos para obtener datos, Octoparse puede seguir raspando un elemento. O bien, otros campos se recopilan correctamente de cada elemento, pero uno o dos campos son fijos.

Esto se debe a que la acción Extraer datos no está asociada con la acción Elemento de bucle. Para asociar la extracción de datos y el elemento de bucle, se deben seleccionar dos opciones.

1. "Extraer datos en el bucle" en la configuración de "Extraer datos"

mceclip2.png

2. En la Vista previa de datos, haz clic en "Más" y elige la opción "Personalizar XPath". Luego, ingresa el XPath correcto.

Configurar_XPath.png
mceclip3.png

Con las dos opciones seleccionadas, Extraer datos y Elemento de bucle están asociados y Octoparse extraerá los datos de cada elemento del bucle.

* Asegúrate de que la opción "Extraer datos en el bucle" esté seleccionada primero antes de realizar cualquier modificación.

Solución 1: Volver a crear los campos

  • Después de marcar "Extraer datos en el bucle", haz clic en "Elemento de bucle" en el flujo de trabajo.

  • Selecciona datos para raspar del primer elemento

Extraer_datos_en_el_bucle_Mercadolibre.gif

Solución 2: Modificar el XPath de los campos directamente

  • En la vista previa de datos, haz clic en "Más" para ingresar el XPath personalizado

  • Marca Xpath relativo e ingresa el XPath correcto

Ingresar_XPath_correcto_Mercadolibre.gif

Nota:

Aprende cómo escribir un XPath en Qué es XPath y cómo usarlo en Octoparse

¿Ha quedado contestada tu pregunta?