Todas las colecciones
Octoparse 101
Lección 2: Optimiza tu tarea
Lección 2: Optimiza tu tarea
Actualizado hace más de una semana

Tener datos autodetectados es genial, pero ningún algoritmo es perfecto, habrá ocasiones en que los datos que necesita no se detecten con precisión. En esta lección, repasaremos algunas soluciones fáciles que puede aplicar para optimizar su tarea de scraping.

1. Si los datos que necesita no se detectan

Cuando Octoparse detecta los datos en cualquier página web, examina la página completa y obtiene uno o más conjuntos de datos utilizando su algoritmo de aprendizaje automático. Si no ve que sus datos objetivo se detectan en el primer intento, puede cambiar al segundo conjunto de datos haciendo clic en "Switch auto-detect results".

flujo_de_trabajo1.png

¡Consejos!

  • Si ninguno de los datos detectados le proporciona lo que necesita, puede scrape los datos manualmente siguiendo las instrucciones aquí.

  • No se puede acceder a todos los datos directamente. En muchos casos, es posible que deba interactuar con la página web de destino de una forma u otra para acceder a los datos que necesita, como iniciar sesión, buscar con palabras clave o incluso hacer clic en un menú desplegable. Consulte este tutorial para saber cómo tratar estos casos.

2. Si el botón de Página siguiente detectado automáticamente no está bien

Si la detección automática no puede ubicar el botón Siguiente correctamente, puede solucionarlo fácilmente haciendo clic en "Editar", luego siga las instrucciones en "Consejos" para volver a seleccionar el botón correcto Next Page.

revisar2.gif

Consejos!

3. Si necesita desplazarse más hacia abajo en la página para cargar más datos

Cada vez que se detecta una página web con un desplazamiento infinitivo, Octoparse especifica automáticamente el número de veces que se desplaza hacia abajo en la página. Si prefiere desplazarse más antes de capturar los datos, puede ajustar fácilmente el número de veces de desplazamiento haciendo clic en "Editar", luego complete la configuración.

paginaci_n3.gif

4. Trabajando con el flujo de trabajo directamente

Cuando crea una tarea de scraping en Octoparse, simula acciones reales de navegación humana, como abrir una página web y hacer clic en un elemento/botón de página para extraer datos automáticamente. Todo el proceso de extracción se define automáticamente en un flujo de trabajo con cada paso/acción individual que representa una instrucción particular en la tarea de scraping.

Aunque Octoparse intenta facilitarle las cosas generando automáticamente el flujo de trabajo mediante la detección automática, técnicamente puede construir el flujo de trabajo desde cero o editar el flujo de trabajo generado automáticamente para garantizar que la tarea haga lo que necesita hacer.

Hay muchos tipos diferentes de acciones que puede agregar al flujo de trabajo. Cada paso/acción tiene varias configuraciones que puede modificar para ajustar su tarea de scraping.

1. Reorganice los pasos del flujo de trabajo arrastrando y soltando en el lugar correcto.

cambiar_elemento6.gif

2. Desplácese y verifique la configuración del paso específico.

informaci_n_de_bucle7.gif

3. Modifique la configuración de acción haciendo clic en el icono de configuración.

4. Para agregar un paso adicional al flujo de trabajo, coloque el mouse en el lugar donde desea insertar el paso. Espere hasta que aparezca el logo, haga clic en él y seleccione la acción que desea agregar.

a_adir_pasos8.gif

5. Cambie el nombre, copie o elimine los pasos haciendo clic en show more button..

renombrar9.png

¡Consejos!

Si desea optimizar aún más su scraping tarea, vea más técnicas de creación de tareas aquí.

>> Lección 3: Refina tus datos

¿Ha quedado contestada tu pregunta?