Remover duplicados
Actualizado hace más de una semana

Durante la extracción de datos, puede que te encuentres con este tipo de situación: existen datos duplicados.

Octoparse ofrece dos formas de tratar los duplicados si quieres eliminarlos.

  • Eliminar duplicados basados ​​en toda la línea de datos (predeterminado)

  • Eliminar duplicados basados ​​en campos de datos específicos (configuración manual y es compatible con 8.1.16 y las versiones superiores)

1. Eliminar duplicados basados ​​en toda la línea de datos (predeterminado)

Cuando se completa la extracción de datos, Octoparse tiene una configuración predeterminada de eliminación de duplicados.

Si todos los campos de datos en una determinada línea de datos son los mismos que las otras líneas, entonces esta línea de datos se reconocerá como un duplicado. Después de la eliminación, Octoparse solo mantendrá extraída la primera línea de datos.

Por ejemplo: La 1ª y 4ª línea de datos a continuación tienen el mismo valor para cada campo de datos, por lo que son duplicados. Después de la eliminación predeterminada de Octoparse, solo se conservará la primera línea de datos.

mceclip1.png

2. Eliminar duplicados basados ​​en campos de datos específicos (configuración manual)

Nota: esta función es para Octoparse 8.1.16 y las versiones superiores.

Mecanismo

Cuando personalizas el flujo de trabajo de la tarea, puedes configurarlo para eliminar duplicados en función de ciertos duplicados.

La eliminación de duplicados se basará en algunos o muchos campos de datos para verificar si los valores de esos campos seleccionados de datos son los mismos que los de las otras líneas. Esta configuración solo comparará los campos de datos seleccionados. Siempre que los valores de los campos de datos seleccionados sean los mismos, los datos se reconocerán como duplicados. No se considerarán otros campos de datos no seleccionados. Después de la eliminación de duplicados, Octoparse solo mantendrá extraída la primera línea de datos.

Ejemplo 1:

Si seleccionamos "Field2" para comparar la eliminación de duplicados, entonces la 1ª, 2ª, 4ª línea de datos tienen el mismo valor para "Field2". En este caso, la 1ª, 2ª y 4ª línea de datos se reconocerán como duplicados. Después de la eliminación, Octoparse solo mantendrá extraída la primera línea de datos.

mceclip2.png

Ejemplo 2:

Si seleccionamos "Field3" y "Field4" para comparar la eliminación de duplicados, entonces la primera y la cuarta línea de datos tienen el mismo valor para "Field3" y "Field4". En este caso, la 1ª y 4ª línea de datos se reconocerán como duplicados. Después de la eliminación, Octoparse solo mantendrá extraída la primera línea de datos.

mceclip3.png

¿Dónde eliminar los duplicados?

Pasos:

1. Configura la tarea y los campos de datos que necesitas recopilar

2. Primero, haz clic en el icono

mceclip5.png

en la esquina superior derecha del panel "Vista previa de datos". Luego elige "Eliminar duplicados" para ingresar a la página de configuración

mceclip4.png

3. Selecciona los campos de datos que quieres comparar para eliminar los duplicados. Después de la selección, haz clic en "Aceptar" para aplicar la configuración.

mceclip6.png

Nota: Vuelve a hacer clic en el icono

mceclip5_2.png

. Puedes ver que la configuración está guardada.

mceclip7.png

Nota especial:

Para las ejecuciones en la nube, solo comparará los datos históricos con la misma configuración de eliminación de duplicados para eliminar los duplicados.

Aquí tienes un ejemplo.

Establezcamos tu primera configuración de eliminación de duplicados como A (por ejemplo, seleccione "Field1" para comparar), tendrás el primer lote de datos de la nube.

Luego, regresa a tu tarea y modifica la configuración a B (por ejemplo, selecciona "Field2" para comparar), y obtendrás el segundo lote de datos de la nube. Este lote no se comparará con el primer lote para la eliminación de duplicados.

Después de eso, si vuelves a cambiar la configuración a A (por ejemplo, seleccione "Field1" para comparar), tendrás el tercer lote de datos de la nube y se comparará con el primer lote de datos de la nube para eliminar los duplicados. Los duplicados se eliminarán automáticamente. No se comparará con el segundo lote para la eliminación de duplicados.

¿Ha quedado contestada tu pregunta?