Tener datos detectados automáticamente es genial, pero ningún algoritmo es perfecto. Habrá ocasiones en las que los datos que necesita no se detecten con precisión. En esta lección, repasaremos algunas soluciones fáciles que puede aplicar para optimizar tu tarea de raspado.
1. Si no se detectan los datos que necesitas
Cuando Octoparse detecta los datos en cualquier página web, examina toda la página y obtiene uno o más conjuntos de datos utilizando su algoritmo de aprendizaje automático. Si no ves que se detectan los datos de tu objetivo en el primer intento, puedes cambiar al segundo conjunto de datos haciendo clic en "Cambiar resultados de detección automática". La fracción aquí significa que Octoparse ha detectado 3 conjuntos de datos y estás mirando el primero.
Tips!
|
2. Si el botón de página siguiente detectado automáticamente no es correcto
Si la detección automática no ubica correctamente el botón Siguiente, puedes solucionarlo fácilmente haciendo clic en "Editar", luego sigue las instrucciones en "Tips" para volver a seleccionar el botón Página siguiente correcto.
Tips!
|
3. Si necesitas desplazarse más hacia abajo en la página para cargar más datos
Siempre que se detecta una página web con un desplazamiento infinitivo, Octoparse especifica automáticamente el número de veces que se desplaza hacia abajo en la página. Si prefieres desplazarse más antes de capturar los datos, puedes ajustar fácilmente el número de tiempos de desplazamiento haciendo clic en "Editar", luego completa la configuración.
En este caso, "Repite" significa cuántas veces debe desplazarse Octoparse en esta página y "Esperar" significa el tiempo de permanencia entre cada desplazamiento.
4. Si necesitas hacer clic en los enlaces de la página para obtener datos más detallados
En muchos casos, deberás hacer clic en el enlace de cada producto para acceder a la página de detalles del producto, que te brinda información más específica, como la descripción del producto. Octoparse te ofrece una opción fácil en los "Tips".
Simplemente elijas "Hacer clic en el enlace(s) para scrapear la(s) página(s) enlazada(s)" y elijas el campo de datos para hacer clic.
Alternativamente, puedes elegir "Hacer clic en un enlace en la página web" y seleccionar el enlace directamente desde la página web.
5. Trabajar con el flujo de trabajo directamente
Cuando creas una tarea de raspado en Octoparse, simula acciones de navegación humanas reales, como abrir una página web y hacer clic en un elemento / botón de la página para extraer datos automáticamente. Todo el proceso de extracción se define automáticamente en un flujo de trabajo con cada paso / acción individual que representa una instrucción particular en la tarea de raspado.
Aunque Octoparse intenta facilitarte las cosas generando automáticamente el flujo de trabajo a través de la detección-automática, técnicamente puedes construir el flujo de trabajo desde cero o editar el flujo de trabajo generado automáticamente para asegurarte de que la tarea haga lo que necesitas.
Hay muchos tipos diferentes de acciones que puedes agregar al flujo de trabajo. Cada paso / acción tiene varias configuraciones que puede modificar para ajustar tu tarea de raspado.
- 1. Reorganiza los pasos del flujo de trabajo arrastrando y soltando en el lugar correcto.
- 2. Haz clic para verificar y modificar la configuración del paso específico.
- Para agregar un paso adicional al flujo de trabajo, coloca el mouse donde te gustaría insertar el paso. Espera hasta que veas aparecer el signo, haz clic en él y selecciona la acción que deseas agregar.
- 4. Cambiar el nombre, copiar o eliminar un paso haciendo clic con el botón derecho en cada paso del flujo de trabajo.
Tips! Si deseas optimizar aún más tu tarea de raspado, consulta más técnicas de creación de tareas aquí. |
>> Lección 3: Refina tus datos
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.