Tener datos autodetectados es genial, pero ningún algoritmo es perfecto, habrá ocasiones en que los datos que necesita no se detecten con precisión. En esta lección, repasaremos algunas soluciones fáciles que puede aplicar para optimizar su tarea de scraping.
1. Si los datos que necesita no se detectan
Cuando Octoparse detecta los datos en cualquier página web, examina la página completa y obtiene uno o más conjuntos de datos utilizando su algoritmo de aprendizaje automático. Si no ve que sus datos objetivo se detectan en el primer intento, puede cambiar al segundo conjunto de datos haciendo clic en "Switch auto-detect results".
¡Consejos!
|
2. Si el botón de Página siguiente detectado automáticamente no está bien
Si la detección automática no puede ubicar el botón Siguiente correctamente, puede solucionarlo fácilmente haciendo clic en "Editar", luego siga las instrucciones en "Consejos" para volver a seleccionar el botón correcto Next Page.
Consejos!
|
3. Si necesita desplazarse más hacia abajo en la página para cargar más datos
Cada vez que se detecta una página web con un desplazamiento infinitivo, Octoparse especifica automáticamente el número de veces que se desplaza hacia abajo en la página. Si prefiere desplazarse más antes de capturar los datos, puede ajustar fácilmente el número de veces de desplazamiento haciendo clic en "Editar", luego complete la configuración.
4. Trabajando con el flujo de trabajo directamente
Cuando crea una tarea de scraping en Octoparse, simula acciones reales de navegación humana, como abrir una página web y hacer clic en un elemento/botón de página para extraer datos automáticamente. Todo el proceso de extracción se define automáticamente en un flujo de trabajo con cada paso/acción individual que representa una instrucción particular en la tarea de scraping.
Aunque Octoparse intenta facilitarle las cosas generando automáticamente el flujo de trabajo mediante la detección automática, técnicamente puede construir el flujo de trabajo desde cero o editar el flujo de trabajo generado automáticamente para garantizar que la tarea haga lo que necesita hacer.
Hay muchos tipos diferentes de acciones que puede agregar al flujo de trabajo. Cada paso/acción tiene varias configuraciones que puede modificar para ajustar su tarea de scraping.
1. Reorganice los pasos del flujo de trabajo arrastrando y soltando en el lugar correcto.
2. Desplácese y verifique la configuración del paso específico.
3. Modifique la configuración de acción haciendo clic en el icono de configuración.
4. Para agregar un paso adicional al flujo de trabajo, coloque el mouse en el lugar donde desea insertar el paso. Espere hasta que aparezca el logo, haga clic en él y seleccione la acción que desea agregar.
5. Cambie el nombre, copie o elimine los pasos haciendo clic en show more button..
¡Consejos! Si desea optimizar aún más su scraping tarea, vea más técnicas de creación de tareas aquí. |
>> Lección 3: Refina tus datos
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.